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本 书 是 介绍 Linux 5 UNIX 编程 接口 的 权威 兰 作 。Linux 编程 资深 专家 Michael Kerrisk 在 
PEPER S Linux/UNIX RRR ENY AK Zi 6a H1 TU PE ERG, 并 辅 之 以 全 面 而 清晰 的 代 
R30]. Aaa fX 500 个 系统 调用 及 库 疯 数 ， 并 给 出 俐 200 个 程序 示例 ， 另 含 88 张 表格 
和 115 幅 示 意图 。 

本 书 总 共 分 为 64 章 ， 主 要 讲解 了 高 效 读 写 文件 ， 对 信和 号、 时 钟 和 定时 喜 的 运用 ， 创 建 进 
程 、 执 行程 序 ， 编 写 安 全 的 应 用 程序 ， 运 用 POSIX 线程 技术 编写 多 线程 程序 ， 创 建 和 使 用 共 
享 库 ， 运 用 管道 、 消 县 队列 、 共 孚 内 存 和 信和 号 量 技术 来 进行 进程 间 通 信 ， 以 及 运用 套 接 字 API 
编写 网 络 应 用 等 内 容 。 

本 书 在 汇聚 大 批 Linux 专 有 特性 Cepoll, inotify, /proc) 的 同时 ， 还 特意 强化 了 对 UNIX 
标准 “POSIX、SUS) WER, WRZE T “MBE, BIA” WAR, AREPA 
BEANE M o 

ABA P. WRA. WEW, JUEGEÉTEXOMWZRPAVRBHUTMIN I b, A8 ET, 
仔细 研读 定 会 受益 恨 多 。 本 书 适 合 从 事 Linux/UNIX 系统 开发 、 运 维 工作 的 技术 人 员 阅 读 ， 同 
时 也 可 作为 高 校 计 算 机 专业 学 生 的 参考 研习 资料 。 
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对 本 书 的 赞誉 








编号 Linux 软件 时 如 果 只 能 选择 一 本 参考 书 ， 则 非 本 书 砚 必 。 
一 -MARTIN LANDERS, Google 公司 软件 工程 师 
本 书 描述 精 到 ， 示 例 周 详 ， 涵 盖 了 Linux 底层 API 编程 的 详尽 内 容 及 个 中 细微 之 处 一 一 无 
论 读 者 水 平 如 何 ， 都 能 从 本 书 中 受益 。 
— —MEL GORMAN, Understanding the Linux Virtual Memory Manager 作者 
Michael Kerrisk 的 这 本 Linux 编程 巨著 ， 不 但 论 及 Linux 编程 、 其 与 各 种 标准 之 间 的 联 
系 ， 而 且 还 就 作者 所 知 ， 重 点 介绍 了 已 获 修正 的 Linux 内 核 bug UK POE EH Linux 手册 
Wo IEZA, ÆHiE Linux 编程 更 易 上 手 。 本 书 对 各 项 主题 的 深入 探讨 使 其 成 为 必 备 的 参 
考 书 籍 一 一 无 论 读 者 在 Linux 编程 方面 造 诈 如 何 。 
一 一 ANDREAS JAEGER, NOVELL 公司 OPENSUSE 项 目 经 理 
Michael 用 他 坚 奶 不 拔 的 煞 力 为 Linux 程序 员 奉 献 了 这 本 论述 严 证 、 表 述 清晰 、 简 洁 的 权 
威 参考 书 。 虽 然 本 书 针 对 Linux 程序 员 而 车 ， 但 对 任何 在 UNIX/POSIX 环境 中 编程 的 程序 员 
来 说 都 极 具 价值 。 
— —DpAVID BUTENHORF, Programming with POSIX Threads 作者 、POSIX /UNIX 标准 撰写 者 
本 书 在 重点 关注 Linux 系统 的 同时 ， 对 于 UNIX 系统 和 网 络 编程 也 阐述 透彻 ， 浅 显 易 懂 。 
无 论 是 初 涉 UNIX 编程 的 新 二 ， 还 是 编程 经 验 丰富 的 UNIX 老手 〈 想 要 了 解 大 行 其 道 的 
GNU/Linux 系统 有 何 新 意 )， 我 都 问 他 们 力荐 此 书 。 
— FERNANDO GONT， 网 络 安全 研究 员 、IETF 参与 者 、IETF RFC 作者 
本 书 以 百科 全 书 般 的 叙述 风格 对 Linux 接口 编程 做 了 既 深 且 广 的 履 盖 , 还 提供 了 大 量 教 
科 书 风格 的 编程 示例 和 练习 。 本 书 所 包含 的 各 项 主题 一 一 从 原理 到 可 以 实际 运行 的 代 但 一 一 
都 已 描述 清晰 且 易 于 理解 。 本 书 正 是 专业 人 士 、 学 生 以 及 教育 工作 者 所 期 盼 的 Linux/UNIX 
参考 书 。 






























































一 一 ANTHONY ROBINS ， 奥 塔 哥 大 学 计算 机 科学 副教授 

无 论 从 精确 性 、 质 量 ， 还 是 详细 程度 来 说 ， 本 书 都 令 我 印象 深刻 。 身 为 Linux 系统 调用 的 
行家 ，Michael Kerrisk 与 我 们 分 享 了 他 对 Linux API 的 认 知 和 理解 。 

—— CHRISTOPHE BLAESS, Programmation systeme en C sous Linux 作者 
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对 于 治学 严 讶 的 专业 Linux/UNIX RRES bif cis ABSENDER. APIR 
了 所 有 关键 API 的 使 用 ， 同 时 兼顾 Linux 和 UNIX 系统 接口 ， 描 述 清晰 ， 示 例 具 体 ， 除 此 之 
外 ， 还 强调 了 遵从 诸如 SUS 和 POSIX 1003.1 每 标准 的 重要 性 和 益处 。 
一 一 ANDREW JOSEY, The Open Group 标准 部 总 监 、POSIX 1003.1 工作 组 主席 
由 手册 页 的 维护 者 杀 自 操 刀 ， 以 系统 程序 员 视 角 写 出 一 本 百科 全 书 式 的 Linux. 系统 编程 巨 
xb, 还 有 比 这 更 完美 的 吗 ? 本 书 全 面 而 又 详实 。 我 坚信 本 书 将 在 我 的 书架 上 牢 牢 占据 一 席 之 地 。 
— —BILL GALLMEISTER, POSIX.4 Programmer’ s Guide: Programming for the Real World 作者 
本 书 是 最 新 最 全 的 Linux/UNIX 系统 编程 参考 书 。 无 论 读者 是 Linux 系统 编程 新 兵 ， 还 是 
关注 Linux 编程 和 程序 移植 性 的 UNIX 系统 编程 老将 , 又 或 者 只 是 在 寻找 一 本 Linux 编程 接口 
Jr 625 2525 Hg iet, Michael Kerrisk HARKER E ze HER BTE. 
一 一 LOIC DOMAIGNÉ, CORPULS.COM 首席 软件 架构 师 (组 入 式 ) 
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Til 


主题 

本 书 将 描述 Linux 编程 接口 : 由 UNIX 操作 系统 的 开源 实现 一 一 Linux 所 提供 的 系统 调用 、 
库 函 数 以 及 其 他 底层 接口 。 运 行 于 Linux 之 上 的 每 一 个 程序 都 会 直接 或 间接 地 使 用 这 些 接口 。 
这 些 接口 允许 应 用 程序 去 执行 诸多 任务 : 文件 WO、 创 建 /删除 文件 和 目录 、 创 建新 进程 、 执 行 
程序 、 设 置 定 时 右 、 在 同一 台 计 算 机 上 友 起 进程 或 线程 间 通 信 ， 以 及 为 联网 计算 机 间 的 进程 
建立 通信 等 等 。 有 时 ， 人 们 也 将 这 一 系列 的 底层 接口 称 为 系统 编程 接口 。 

尽管 本 书 着 眼 于 Linux， 但 对 于 标准 和 可 移植 性 问题 也 倍加 关注 。 对 于 Linux 所 特有 的 技术 
细节 ， 以 及 已 由 POSIX 和 SUS 标准 化 的 UNIX 普遍 特性 ， 本 书 会 在 论述 中 清晰 地 加 以 区 分 。 
因此 ， 本 书 也 提供 了 对 UNIX/POSIX 编程 接口 的 全 面 描述 。 对 于 那些 在 其 他 UNIX 系统 环境 中 
编程 ， 或 者 编写 路 平台 可 移植 应 用 的 程序 员 来 说 ， 本 书 同样 具有 实用 价值 。 












































本 书 的 读者 
本 书 主要 针对 以 下 读者 : 
。 为 Linux 系统 、 其 他 UNIX 系统 ， 或 兼容 于 POSIX 的 操作 系统 编号 应 用 程序 的 程序 员 
和 软件 设计 人 员 。 
e 在 Linux 和 其 他 UNIX 实现 之 间 ， 以 及 Linux 和 其 他 操作 系统 之 间 进 行 应 用 程序 移植 
的 程序 员 。 


e Zu% Linux 4l UNIX 系统 编程 的 高 校 师 生 。 
。 意欲 深入 理解 Linux/UNIX 编程 接口 以 及 系统 软件 各 模块 实现 细 布 的 系统 管理 人 员 和 
高 级 用 户 (power users). 
作者 假定 读者 之 前 有 些许 编程 经 验 ， 但 不 必 是 在 系统 编程 领域 。 此 外 ， 作 者 还 假定 读者 
具备 阅读 C 语言 源码 的 能 力 ， 并 了 解 如 何 使 用 shell 和 UNIX 或 Linux HEHE. ITAA 
悉 UNIX 和 Linux 的 读者 来 说 , 阅读 第 2 草 中 面 癌 程序 员 对 UNIX 和 Linux 系统 基本 概念 所 做 
的 回顾 会 有 所 帮助 。 
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提示 : [Kernighan & Ritchie, 1988] 是 最 具 权 威 性 的 C 语言 参考 书籍 。[Harbison& Steele, 
2002] 一 书 对 C 语言 的 介绍 则 更 为 详细 ， 并 涵 羡 了 由 C99 标准 所 市 来 的 变化 。[van der Linden, 
1994] 也 是 一 本 不 错 的 C 语言 书籍 , BIET HR. [Peek et al., 2001] 则 对 UNIX 的 使 用 做 了 简洁 
而 完整 的 介绍 。 
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贯穿 本 书 ， 会 以 这 种 缩 进 小 字体 的 文字 形式 用 于 和 劳 注 ， 其 内 容 包括 基本 原理 、 实 现 细 











久 、 育 景 信息 、 史 上 轶 闻 以 及 与 正文 相关 的 其 他 辅助 主题 。 


Linux 和 UNIX 

其 他 UNIX 实现 的 大 多 数 特性 同样 见 诸 于 Linux， 反 之 亦 然 。 有 鉴于 此 ， 本 书本 可 只 关注 
于 标准 UNIX CHI POSIX) 的 系统 编程 。 编 写 可 移植 的 应 用 程序 固然 是 值得 奶 求 的 目标 ， 但 擂 
述 Linux 对 标准 UNIX 编程 接口 的 扩展 也 同样 重要 。Linux 的 广 受 欢迎 只 是 原因 之 一 ， 而 有 时 





























出 于 性 能 方面 的 考虑 , 或 是 需要 访问 标准 UNIX 编程 接口 所 不 支持 的 功能 时 , 使 用 非 标 准 扩 展 
( 正 因 如 此 ， 所 有 UNIX 实现 都 提供 有 非 标准 扩展 ) 就 显得 至 为 重要 ， 此 为 原因 之 二 。 

综 上 所 述 ， 在 构思 本 书 时 ， 作 者 不 但 力图 使 其 对 在 各 种 UNIX 实现 中 编程 的 程序 员 有 所 
帮助 ， 还 全 面 介绍 了 Linux 专 有 的 编程 特性 ， 如 下 所 示 。 














epoll， 获 取 文 件 IO 事件 通知 的 一 种 机 人 制 。 

inotify， 监 探 文件 和 目录 变化 的 一 种 机 制 。 

capabilities， 为 进程 赋予 超级 用 户 的 部 分 权限 的 一 种 机 制 。 

扩展 属性 。 

i-node 标记 。 

cloneO 系 统 调 用 。 

/proc 文件 系统 。 

在 文件 IO、 信和 号、 定时 器 、 线 程 、 共 享 库 、 进 程 间 通信 以 及 套 接 字 方面 ，Linux 所 专 
有 的 实现 细节 。 





本 书 的 用 途 和 组 织 结构 
本 书 主要 有 以 下 两 方面 的 用 途 ， 














作为 Linux/UNIX 编程 接口 的 入 门 教程 ， 读 者 可 循序 阅读 本 书 。 后 续 各 半 内 容 均 构建 
于 之 前 诺 革 取材 的 基础 之 上 ， 伴 之 以 尽 可 能 简短 的 前 向 引用 。 

作为 Linux/UNIX 编程 接口 的 参考 大 全 ， 读 者 可 以 根据 书后 的 详细 索引 和 频 现 于 正文 
中 的 交叉 引用 ， 随 机 选择 阅读 主题 。 














本 书 各 章 可 分 为 以 下 几 个 部 分 。 


l. 


2. 


3. 





背景 知识 及 概念 : UNIX. C 语言 以 及 Linux 的 历史 回顾 ， 以 及 对 UNIX 标准 的 概述 〈 第 
1 章 );， 以 程序 员 为 对 象 ， 对 Linux 和 UNIX 的 概念 进行 介绍 (第 2 章 ); Linux 和 UNIX 
系统 编程 的 基本 概念 〈 第 3 E). 

系统 编程 接口 的 基本 特性 : 文件 IO 第 4 章 、 第 $ 章 )， 进程 〈 第 6 章 )， 内 人 存 分 配 〈 第 
7 章 )， 用 户 和 组 (第 8 章 )， 进 程 凭证 (process credential) (第 9 章 )， 时 间 (第 10 章 )， 
系统 限制 和 选项 (第 11 革 )， 以 及 获取 系统 和 进程 信息 (第 12 草 )。 

系统 编程 接口 的 高 级 特性 : 文件 VO 绥 冲 (第 13 38), FRA CHR 14 革 )， 文 件 
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属性 (第 15 章 )， 扩 展 属性 〈 第 16 革 ), 访问 控制 列表 (第 17 划 ), 目录 和 链接 (第 
18 章 )， 监 控 文 件 事件 (第 19 章 )， 信 号 (signals) (第 20—22 3:0, 以 及 定时 器 (第 
23 章 )。 

4. 进程 、 程 序 及 线程 进程 的 创建 、 终 止 ， 监 控 子 进程 ， 执 行程 序 (第 24—28 章 )， 以 及 
POSIX 线程 (第 29—33 F). 

5. 进程 及 程序 的 高 级 主题 : 进程 组 、 会 话 以 及 任务 控制 〈 第 34 章 )， 进 程 优先 级 和 进程 调 
度 〈 第 35 章 )， 进 程 资 源 〈 第 36 E), FIE CE 37 章 ), 编写 安全 的 特权 程序 (第 
38 章 )， 能 力 (capability) C28 39 革 )， 登 录 记 账 (第 40 章 )， 以 及 共享 库 〈 第 Al X 
和 第 42 章 )。 

6. 进程 间 通 信 APC): IPC 概览 〈 第 43 章 )， 管 道 和 FIFO (第 44 章 )， 系 统 V IPC 消息 
BA). fii: Cemaphore) KRENT CE 45—48 T), Vp CE 49 章 )， 虚 拟 
ATRE CE 50 285, POSIX 消息 队列 、 信 和 号 量 及 共享 内 存 〈 第 5154 革 )， 以 及 文件 
锁定 《第 55 m. 

7.， 套 接 字 和 网 络 编程 : 使 用 套 接 字 的 IPC 和 网 络 编程 〈 第 56—61 3$). 

8， 高 级 IO 主题 : im CE 62 章 )， 其 他 IO 模型 〈 第 63 章 )， 以 及 伪 终 端 (第 64 章 )。 


程序 示例 

本 书 会 以 简短 而 完整 的 程序 示例 来 描述 大 部 分 编程 接口 ， 以 期 读者 通过 命令 行 方便 地 体 
验 这 些 程 序 ， 从 而 了 解 各 种 不 同系 统 调 用 和 库 函 数 的 运作 方式 。 因 此 ， 本 书包 含 了 大 量 代码 
示例 一 一 约 15 000 4T C 语言 代码 和 shell 会 话 记 录 。 

虽然 阅读 并 执行 上 述 示例 代码 是 学 习 Linux 编程 接口 的 一 个 不 错 的 起 点 ， 但 巩固 本 书 所 述 
概念 最 为 有 效 的 方式 还 是 动手 编写 代码 一 一 无 论 是 修改 示例 程序 以 验证 自己 的 编程 思路 ， 还 
是 编写 全 新 的 程序 。 

书 中 所 有 源 代码 均 可 从 本 书 网 站 上 下 载 。 网 站 所 发 布 的 源码 中 还 包含 了 不 少 未 见 诸 于 本 
书 的 其 他 程序 。 这 些 程序 的 用 途 和 详细 信息 在 源码 注释 中 均 有 描述 。 源 码 中 还 提供 了 Makefile, 
用 来 构建 相应 的 程序 ， 附 带 的 README 文件 则 提供 了 相应 程序 的 具体 细节 。 

在 GNU Affero 通用 公共 许可 证 (Affero GPL) 版 本 3 条 款 的 约束 下 ， 可 自行 重新 发 布 和 
修改 本 书 源 码 ， 源 但 中 也 提供 了 一 份 GNU Affero GPL 版 本 3 的 文件 副本 。 


2] iei 

本 书 各 章 大 都 会 在 结尾 处 附 有 一 组 习题 ， 其 中 一 部 分 会 利用 书 中 的 程序 示例 进行 各 种 试 
验 ， 男 一 些 则 与 本 草 所 讨论 的 概念 相关 ， 而 其 他 习题 则 古 引 导读 者 羔 目 动手 编程 ， 意 在 巩固 
读者 对 所 学 内 容 的 理解 。 附 录 下 会 有 选择 地 给 出 部 分 习题 的 答案 。 


标准 和 可 移植 性 

本 书目 始 至 终 都 对 可 移植 性 问题 子 以 了 特殊 关注 。 对 相关 标准 的 引用 在 书 中 会 反复 出 现 ， 
尤其 是 POSIX.1-2001 和 SUSv3 的 联合 标准 。 此 外 ， 本 书 还 包括 了 该 标准 最 新 版 本 (POSIX.1- 
2008 与 SUSv4 联合 标准 ) 的 变更 细节 。( 由 于 SUSv3 较 之 于 之 前 的 版 本 做 了 大 范围 的 修订 ， 并 
且 在 写作 本 书 之 际 ，SUSv3 依然 是 影响 最 为 广泛 的 UNIX 标准 ， 故 而 本 书 对 标准 的 讨论 一 般 都 以 























































































































“ 译 者 注 ， 大致 可 视 为 一 套 标准 的 两 种 称谓 。 
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SUSv3 为 框架 ， 并 会 注 明 其 与 SUSv4 之 间 的 差别 。 然 而 ， 对 读者 来 说 ， 除 非 另 有 说 明 ， 与 SUSv3 
规范 有 关 的 论述 同样 适用 于 SUSv4。) 

对 于 那些 尚未 标准 化 的 特性 ， 本 书 会 列 出 与 其 他 UNIX 实现 间 的 差异 范围 。 此 外 ， 本 书 
也 会 强调 那些 独 具 Linux 实现 特色 的 主要 特性 , 以 及 Linux 和 其 他 UNIX 实现 之 间 在 系统 调用 
和 库 函 数 方面 的 细微 差别 。 任 何 特性 ， 凡 未 注 明 为 Linux 所 专 有 ,读者 通常 可 将 其 视 为 大 部 分 
或 所 有 UNIX 实现 的 标准 特性 。 

书 中 的 编程 示例 〈 除 了 注 明 为 Linux 所 专 有 的 特性 ) 大 多 已 在 Solaris; FreeBSD, Mac OS 
X、Tru64 UNIX 以 及 HP-UX 中 的 所 有 或 部 分 系统 上 进行 了 测试 。 为 了 改进 针对 其 中 某 些 系统 
的 可 移植 性 ， 本 书 的 Web 站 点 还 为 特定 编程 示例 提供 了 其 他 版 本 ， 此 类 代码 就 不 再 于 本 书 中 
列 出 。 


Linux 内 核 和 C 语言 函数 库 版 本 


本 书 主要 着 眼 于 Linux 2.6.x， 撰 写本 书 之 际 ， 这 一 内 核 版 本 的 使 用 也 最 为 广泛 。 本 书 同 样 涵 
mi S Linux 2.4 内 核 的 详细 信息 ， 也 会 适时 指明 Linux 2.4 和 2.6 内 核 间 的 特性 差异 。 凡 是 见 诸 于 
Linux 2.6.x 系列 中 的 新 特性 ， 作 者 均 会 标 出 其 〈 首 度 ) 出 现 的 确切 内 核 版 本 号 例如 ，2.6.34)。 

至 于 C 语言 函数 库 ， 本 书 会 重点 关注 GNU C 语言 库 〈glibc) 版 本 2。 本 书 也 会 适时 指出 
glibc 2.x 版 本 之 间 所 存在 的 差异 。 

本 书 付 样 之 际 ，Linux 内 核 版 本 2.6.35 刚刚 问世 ， 不 和 久 又 发 布 了 glibe 版 本 2.12。 本 书目 
前 的 论述 涵盖 了 以 上 两 种 软件 的 这 两 个 版 本 。 本 书 出 版 后 ，Linux 和 glibe 接口 所 发 生 的 变化 
会 在 本 书 的 Web 站 点 上 公布 。 


在 其 他 语言 中 调用 编程 接口 


虽然 本 书 的 程序 示例 都 是 以 C 语言 编写 而 成 的 ， 但 读者 也 能 使 用 其 他 编程 语言 来 调用 本 
书 所 摘 述 的 编程 接口 。 这 些 语言 既 包 括 编译 语言 , 例如 : C+, Pascal, Modula, Ada, FORTRAN 
和 DD 语言 ， 也 包括 脚本 语言 ， 例 如 : Perl Python 和 Ruby〈 如 要 使 用 Java, MI Te EERIE, 
可 参阅 [Rochkind, 2004])。 这 需要 运用 不 同 的 撤 术 以 获取 必要 的 音量 定义 和 函数 申明 〈C++ 除 
外 )， 而 按 C 语言 链接 惯例 所 约定 的 方式 来 传递 函数 参数 可 能 也 需要 额外 的 工作 投入 。 虽然 实 
现 起 来 有 差 踢 ， 但 基本 原理 却 都 相同 ， 即 便 读者 在 使 用 其 他 语言 进行 编程 ， 本 书 所 含 信息 对 
他 们 也 同样 适用 。 


关于 作者 


本 人 于 1987 年 开始 使 用 UNIX 和 C 语言 。 当 时 ， 作 者 连续 几 个 礼拜 都 泡 在 一 侣 HP Bobcat 
工作 站 劳 ， 陪 伴 我 的 只 有 Marc Rochkind Prz& Advanced UNIX Programming (第 1 版 ) 一 书 ， 
以 及 一 本 最 终 被 翻 得 卷 了 边 的 C shell 手册 的 印刷 本 。 投 入 时 间 阅 读 文 档 〈 如 果 有 的 话 )， 并 编 
写 一 些小 型 的 (规模 可 逐渐 变 大 ) 测试 程序 进行 试验 ， 直 至 目 己 对 软件 的 理解 感到 信心 满 满 一 一 
这 是 作者 当时 所 采用 的 编程 学 习 方 法 ， 并 一 直 沿 用 至 今 一 一 作者 也 回 任 何 试 水 新 型 软件 技术 
的 人 们 推荐 这 一 做 法 。 依 作者 拙 见 ， 从 长 远 来 看 ， 这 种 日 学 方法 能 够 大 大 节约 时 间 。 本 书 所 
载 的 许多 编程 示例 正 是 在 这 一 学 习 方 法 的 激励 之 下 设计 而 成 。 

作者 的 主要 喘 份 是 软件 工程 师 和 设计 师 。 然 而 ， 作 者 同样 好 为 人 师 ， 并 在 学 术 或 商业 领 
域 有 过 数 年 的 教学 经 验 。 作 者 还 开 议 过 多 门 为 期 一 周 的 UNIX 系统 编程 课程 ， 这 一 经 验 对 本 
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BSBA SUR 

作者 使 用 Linux 的 时 间 大 约 只 有 与 UNIX 打交道 的 时 间 一 半 长 , 在 这 段 时 间 里 ,作者 的 兴 
趣 也 逐渐 集中 在 了 内 核 和 用 户 空 间 的 “分 水 岭 ” Linux 编程 接口 上 。 这 一 兴趣 也 使 作者 投 
吴 于 一 系列 紧密 相 联 的 活动 中 。 作 者 会 时 不 时 地 对 POSIX/SUS 标准 提出 目 己 的 意见 并 提供 BUG 
报告 ; 对 新 加 入 Linux. 内 核 中 的 用 户 空 间接 口 进 行 测 试 和 设计 评审 《还 能 帮助 发 现 并 修复 那些 
接口 中 的 诸多 代码 和 设计 缺陷 ); 作者 还 经 党 在 关于 编程 接口 及 其 文档 的 主题 会 议 上 发 言 ， 并 
受 邀 多 次 出 席 Linux 内 核 开 发 者 年 度 峰 会 。 将 上 述 所 有 活动 串 接 在 一 起 的 主线 是 作者 对 Linux 
领域 最 突出 的 贡献 : 作者 为 Linux man-pages WH (http:// www.kernel.org/doc/man-pages/) 所 做 
的 工作 5 

Linux 手册 页 中 的 第 2、3、4、5 以 及 7 部 分 都 属于 man-pages 项 目 。 这 几 部 分 也 是 手册 
页 中 描述 编程 接口 的 内 容 ， 这 些 编程 接口 由 Linux 内 核 及 GNU C 语言 库 提 供 ， 本 书 所 要 介绍 
的 正 是 这 方面 的 内 容 。 作 者 参与 man-pages MH OMH. A 2004 年 起 ， 作 者 成 为 了 该 项 目 
的 主要 维护 人 ， 上 所 承担 的 任务 大 致 包括 : 撰写 文档 、 阅 读 内 核 和 C 语言 库 源 码 ， 以 及 通过 编 
程 来 验证 文档 细 和 〈 通 过 为 接口 接 写 文档 来 友 现 相关 接口 中 的 BUG， 效 末 鼎 为 不 俗 )。 此 外 ， 
作者 对 man-pages 项 目的 页 献 也 最 多 在 约 900 页 的 手册 页 中 ,作者 独 日 编写 了 其 中 的 140 
页 ， 并 与 他 人 合 铸 了 为 外 的 125 页 。 因 此 ， 在 购买 本 书 之 前 ， 读 者 想必 已 经 阅读 过 本 人 的 工作 
WR. TER BUB PIE d BA Wt. 


致谢 

没有 一 和 干 人 等 的 文 持 ， 本 书 的 质量 绝 不 会 如 此 之 高 。 我 要 问 他 们 致 以 最 诚挚 的 谢意 。 

来 目 世 界 各 地 的 多 位 撤 术 审 稿 人 都 参与 了 本 书 初 稿 的 疯 读 ， 找 出 错误 ， 指 出 含糊 不 请 的 
解释 ， 对 指 和 本 、 插 图 以 及 习题 提出 建议 ， 测 试 程 序 ， 发 现 不 为 作者 所 知 的 Linux 和 其 他 UNIX 
实现 间 的 行为 甜 异 ， 并 不 时 为 作者 打气 助威 。 在 本 书 中 ， 作 者 将 许多 审 稿 人 无 私 奉献 的 真知 
和 灼 见 一 并 收纳 ， 实 则 作者 的 知识 并 非 如 此 渊博 。 当 然 ， 书 中 的 任何 错误 都 是 作者 一 人 之 过 。 

无 论 以 下 技术 审 稳 人“【〔 按 姓氏 字母 排序 ) 对 本 书 手稿 的 审 校 巨细 与 否 ， 篇 幅 多 少 ， 作 者 
都 要 问 他 们 致 以 由 衷 的 谢意 。 

。 Christophe Blaesss 是 一 名 软件 咨询 工程 师 和 培训 专家 ,专长 是 Linux 在 工业 (实时 和 

BRA) 方面 的 应 用 。Christophe 是 Programmation système en C sous Linux 一 书 的 作者 ， 
这 本 法 文 杰作 涵 兰 了 与 本 书 相 同 的 多 项 主题 。 他 不 音 审阅 了 本 书 的 众多 章节 。 

* David Butenhof (HP 公司 ) 是 原 POSIX 线程 工作 组 和 SUS 线程 扩展 工作 组 的 成 员 之 一 ， 
也 是 Programming with POSIX Threads 一 书 的 作者 。 他 曾 为 开放 软件 基金 会 编写 了 最 
初 的 DCE 线程 参考 实现 ， 并 曾 担任 OpenVMS 和 Digital UNIX 线程 实现 的 首席 架构 师 。 
David 审 校 了 本 书 与 线程 相关 的 章 人 六， 提出 了 诺 多 改进 意见 ， 还 醒 心 地 纠正 了 几 处 作者 
对 POSIX 线程 API 的 理解 错误 。 

e Geoff Clare 目前 在 为 The Open Group 开发 UNIX 一 致 性 测试 包 ， 从 事 UNIX 标准 化 工作 
CiM 20 年 ， 是 Austin Group 的 6 位 关键 参与 者 之 一 ， 该 组 的 守则 是 开发 出 构成 POSIX.1 
和 Single UNIX Specification 基础 卷 的 共同 标准 。Geoff 仔细 审 校 了 手稿 中 与 UNIX 编程 
接口 相关 的 内 容 ， 耐 心细 人 致 地 提出 了 众多 修正 和 改进 意见 ， 发现 了 诸多 潜藏 于 手稿 中 的 
销 误 ， 在 突出 标准 对 可 移植 编程 的 重要 性 方面 助 蔓 民 多 。 

* Loic Domaigné (当时 供职 于 德国 空中 交通 管制 中 心 [German Air Traffic Control]? 是 一 
名 系统 软件 工程 师 ， 主 要 从 事 分 布 式 、 多 并 及、 容 铅 型 诅 入 式 系统 的 设计 和 开 友 ， 此 
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关系 统 对 实时 性 有 痢 严 奇 的 要 求 。 他 针对 SUSv3 中 与 线程 规范 有 关 的 内 容 发 表 过 评论 
和 建议 ， 在 多 个 网 上 技术 论坛 中 古道 热 肠 ， 诲 人 不 倦 ， 无私 地 分 享 目 己 的 编程 心得 。Loic 
细致 地 审 校 了 本 书 与 线程 相关 各 章节 ， 以 及 多 处 其 他 内 容 。 除 了 编写 铝 干 精巧 的 程序 
来 验证 Linux 线程 实现 的 细 下 以 外 ， 他 还 倾注 了 巨大 的 热情 并 或 励 作 者 ， 提 出 了 许多 
建议 以 改进 本 书 整体 的 表现 形式 。 

Gert Döring mgetty 和 sendfax 程序 的 开发 者 ， 这 一 “双子 星座 ”也 是 Linux/UNIX 系统 
上 使 用 最 为 广泛 的 开源 传 丰 软件 包 。 最 近 ， 他 主要 忙于 搭建 并 维护 基于 IPv4 和 IPv6 
的 大 型 网 络 ， 其 悄 负 的 主要 任务 是 : 与 全 欧洲 的 同事 一 起 定义 有 效 的 网 络 策略 ， 以 确 
保 Internet 基础 设施 顺畅 运行 。Gert 审 校 了 本 书 与 终端 、 登 录 记 账 、 进 程 组 、 会 话 以 
及 任务 控制 相关 各 章 帮 ， 并 反 饿 了 大 量 的 有 用 信息 。 

Wolfram Gloger 是 一 名 IT 顾问 ， 过 去 15 年 ， 他 参与 过 许多 目 由 和 开源 软件 项 目 〈《EFree 
and Open Source Software, FOSS). [Ez 5M, Wolfram 还 是 GNU C 语言 库 中 malloc 
软件 包 的 实现 者 。 目 前 ， 他 主要 从 事 于 Web 服务 的 开发 ， 尤 其 专注 于 网 上 教学 ， 当 然 ， 
在 内 核 和 系统 库 方 面 ， 他 仍 会 偶 露 峥 嵘 。Wolfram 审 校 了 本 书 诸多 章节 ， 尤 其 是 侧重 
于 内 存 方面 的 内 容 。 

Fernando Gont 是 阿根廷 国家 科技 大 学 (Universidad Tecnológica Nacional, Argentina) 电 
子 信息 中 心 (Centro de Estudios de Informática; CEDI) Wo Internet 工程 技术 (Internet 
engineering) 是 其 兴趣 所 在 ， 在 Internet 工程 任务 组 (IETF) 也 能 见 到 其 活跃 的 号 影 ， 
他 还 是 多 个 RFC 文档 的 作者 。 此 外 ，Fernando 还 为 英国 CPNI (国家 其 础 设施 保护 机 构 》 
中 心 效 力 ， 以 提供 对 通信 协议 安全 方面 的 评估 ， 而 站 个 完整 的 TCP AU IP 协议 安全 评估 
报告 也 正 是 由 他 提出 的 。Fernando 仔细 审 校 了 本 书 涉及 网 络 编程 的 相关 和 章节, 不厌其烦 
地 回 作 者 解释 了 TITCP/P 协议 的 诸多 细 世 ， 并 对 相关 内 容 提 出 了 不 少 改进 意见 。 
Andreas Grünbacher (SUSE 实验 室 ) 是 位 内 核 高 手 ， 还 是 Linux 扩展 属性 和 POSIX 
访问 控制 列表 的 实现 者 。Andreas 除了 仔细 审 校 了 本 书 多 章 内 容 以 外 ， 还 对 作者 和 介 励 
有 加 ， 有 时， 他 的 只 言 片 语 便 极 有 可 能 改变 这 部 书 的 整体 结构 。 

Christoph Hellwig 是 Linux 存储 和 文件 系统 咨询 师 ， 也 是 内 核 方 面 公认 的 行家 ， 参 
与 过 Linux 内 核 中 多 个 部 分 的 开发 工作 。 在 忙于 编写 及 审 答 Linux 内 核 补 本 代码 之 余 ， 
Christoph 抽空 审 校 了 本 书 耕 干 章节， 并 提出 了 诸多 有 荔 的 改进 和 修正 意见 。 
Andreas Jaeger 曾 领 导 过 Linux [n] x86-64 架构 的 移植 开发 工作 。 身 为 GNU C 语言 库 
的 开发 者 ， 他 不 但 将 该 库 移 植 到 了 x86-64 平台 ， 而 且 还 促成 该 库 符 合 多 个 领域 的 标准 ， 
尤其 是 在 数学 库 方 面 。 他 当前 效力 于 Novell 公司 ,是 openSUSE 的 程序 经 理 。Andreas 
审 校 的 章节 之 多 ， 超 乎 作者 预期 。 在 本 书 的 写作 过 程 中 ， 他 除了 提出 诸多 改进 意见 之 
外 ， 也 给 予 作者 热情 的 或 励 。 

Rick Jones 24i; "Mr. Netperf" (HP 公司 联网 系统 的 性 能 偏执 狂 )， 对 本 书 的 网 络 编程 
相关 革 市 提出 了 定员 意见 。 

Andi Kleen 〈 当 时 效力 于 SUSE 实验 室 ) 长 期 以 来 ,一直 是 内 核 方 面 公认 的 行家 里 手 ， 
对 Linux Pf eoim. Ah: 网 络 、 错 误 处 理 以 及 底层 架构 代码 等 方 
Ho Andi 对 网 络 编程 相关 内 容 做 了 全 和 面 审 校 , 使 作者 在 Linux TCP/IP 实现 方面 大 开眼 
界 ， 此 外 ， 他 还 提供 了 许多 建议 ， 用 以 改善 本 书 主题 的 展现 形式 。 

Martin Landers (Google) 在 我 有 他 与 他 共事 时 ， 他 还 是 一 名 学 生 。 其 后 ， 他 在 短期 
内 便 集 诸多 技能 于 一 喘 ， 且 形象 香 变 一 一 软件 架构 师 、 开 塔 训 师 以 及 职业 黑客 。 邦 
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Martin KA EREB, SEXE SE. WIRBT EM E IETETRE— £F Wd, pum 
PAGE PSOE] EU ES o 
Jamie Lokier ZZ iABWEET.SU T Linux 开发 已 达 15 EZA. WS, 他 日 封 为 
“专家 ， 长 于 解决 潜伏 于 Linux 系统 中 的 疑难 杂 症 ”。Jamie 极其 全 和 面 地 审 校 了 本 书 涉 
AK FI EEIUN. POSIX 共 圣 内 存 以 及 虚拟 内 存 操作 等 方面 的 革 市 。 他 的 审 校 工作 不 但 纠 
正 了 作者 对 相关 主题 细 市 方面 的 许多 误解 ， 相 应 各 革 的 结构 也 得 以 大 为 改观 。 
Barry Margolin 在 其 25 年 职业 生涯 中 ， 从 事 过 系统 程序 员 、 系 统管 理 员 以 及 技术 文 
持 工 程 师 。 当 前 ， 他 作为 一 名 系统 性 能 工程 师 ， 供 职 于 Akamai 技术 公司 。 在 各 种 讨 
W UNIX 和 Internet 技术 主题 的 网 上 论坛 中 ， 他 频频 现 导 ， 威 名 素 著 。 他 还 是 多 本 相 
关 技 术 主 题 书籍 的 拷 术 审 稳 人 。Barry 审 校 了 本 书 欠 和 干 章节， 并 提出 了 诸多 改进 意见 。 
Paul Pluzhnikov (Google) 之 前 曾 是 Insure++ 内 存 调试 工具 的 技术 带头 人 和 主要 开发 
者 。 有 时 ， 他 也 会 以 GDB 黑客 的 号 份 现 导 ， 在 网 上 论坛 里 积极 地 回复 有 关 调 试 、 内 
存 分 配 、 共 享 库 以 及 运行 时 环 壕 方面 的 问题 。Paul 审 校 了 本 书 多 革 内 容 ， 提 出 了 许多 
John Reiser (5 Tom London) 实现 了 UNIX [nu] 32 位 架构 移植 的 早期 版 本 之 一 VAX- 
11/780。 他 还 是 mmap0O 系 统 调用 的 编写 者 。John 审 校 了 本 书 多 章 内 容 ， 自 然 也 包括 
mmapO 上 所 在 的 章节 。 他 所 提供 的 大 量 历史 洞 抑 ， 及 其 对 反 术 透彻 地 曾 释 为 本 书 增色 
不 少 。 
Anthony Robins (JPI = Otago 大 学 计算 机 科学 副教授 ) 笔者 30 年 的 密友 ， 本 书 茶 
些 草 节 的 第 一 个 谈 者 ， 也 是 最 早 提 出 宝 贯 意见 的 技术 审 校 者 ， 在 本 书 的 写作 过 程 中 ， 
-和 直 给 了 予 作者 以 激励 。 
Michael Schröder (Novell) GNU screen 程序 的 主要 开发 者 之 一 ， 这 项 编程 工作 已 令 
Michael 在 终端 驱动 程序 的 实现 方面 达到 了 “巨细 靡 遗 ， 了 如 指 掌 ”的 填 界 。Michael 除 
了 审 校 本 书 与 终 疡 和 伪 终 问 相 关 的 章 抽 以 外 ， 还 针对 进程 组 、 会 话 以 及 任务 控制 等 革 
节 有 反馈 了 极为 有 益 的 意见 。 
Manfred Spraul 曾 从 事 过 Linux 内 核 中 包括 但 不 限于 〉 IPC 的 开发 工作 ， 不 音 审 校 
了 本 书 与 IPC 相关 的 奉 干 章节 ， 并 提出 了 许多 改进 意见 。 
Tom Swigg， 作 者 在 DEC 从 事 培 训 工 作 时 曾 与 他 共事 ， 作 为 本 书 最 早 的 撤 术 审 校 者 之 
一 ， 他 对 许多 章节 都 反 饿 了 极其 重要 的 意见 。Tom 从 事 软 件 工程 师 和 IT 培训 师 的 工 
Ew 25 年 ， 目 前 就 职 于 伦敦 南岸 大 学 (London South Bank University), Æ Vmware 
环境 下 从 事 Linux 编程 和 技术 文 持 工作 。 
Jens Thoms Tórring 继承 了 物理 学 家 改 学 编程 的 优 民 传 统 ， 大 批 开 源 的 设备 驱动 程序 
和 其 他 软件 都 出 自 他 手 。Jens 审 校 的 章节 之 多 ， 在 技术 方面 跨度 之 大 ， 痢 实 令 人 胜 目 ， 
他 对 各 草 内 容 的 改进 都 提出 了 独特 而 又 弥 足 珍 贯 的 见解 。 


























































































































还 有 许多 其 他 技术 审 稿 人 也 审 校 了 本 书 的 不 同 内 容 ， 并 提出 了 诸多 宝 贯 意见 。 在 此 ， 作 
者 问 以 下 一 干 技术 审 稿 人 表示 感谢 (以 姓氏 字母 顺序 排列 ): George Anzinger (MontaVista 
Software). Stefan Becher. Krzysztof Benedyczak、 Daniel Brahneborg. Andries Brouwer, Annabel 








Church, Dragan Cvetkovic, Floyd L. Davidson, Stuart Davidson (Hewlett-Packard Consulting), 
Kasper Dupont, Peter Fellinger (jambit GmbH), Mel Gorman (IBM), Niels Góllesch, Claus 
Gratzl, Serge Hallyn CIBMO., Markus Hartinger (jambit GmbH), Richard Henderson (Red Hat), 

Andrew Josey (The Open Group), Dan Kegel (Google), Davide Libenzi, Robert Love (Google), 
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H.J. Lu (Intel Corporation), Paul Marshall. Chris Mason, Michael Matz (SUSE), Trond 
Myklebust, James Peach, Mark Phillips (Automated Test Systems), Nick Piggin (Novell SUSE 
SKZ), Kay Johannes Potthoff, Florian Rampp, Stephen Rothwell (IBM Linux 技术 中 心 )、 
Markus Schwaiger, Stephen Tweedie (Red Hat), Britta Vargas, Chris Wright, Michal Wronski 
以 及 Umberto Zamuner. 

除了 技术 审 稿 人 之 外 ， 作 者 还 得 到 了 各 界 人 士 及 组 织 在 其 他 方面 的 帮助 。 

我 要 感谢 以 下 人 等 为 我 解答 技术 难题 ， 他 们 是 : Jan Kara, Dave Kleikamp 和 Jon Snader. 
我 要 感谢 Claus Gratzl 和 Paul Marshall 在 系统 管理 方面 对 我 的 帮助 。 

我 要 感谢 Linux 基金 会 (LF)。2008 EH, LF 资助 我 作为 一 名 全 职 研究 人 员 参 与 man-pages 
项 目 ， 并 从 事 Linux 编程 接口 的 测试 和 设计 评审 工作 。 虽 然 LF 全 职 研究 员 的 号 份 不 能 为 本 书 
的 写作 提供 直接 的 资金 文 持 ， 但 却 使 作者 得 以 养家 糊口 ， 这 一 助力 本 意 在 于 令 我 全 身心 投入 
对 Linux 编程 接口 的 测试 以 及 对 文档 的 编 掠 工作 ， 却 也 患 及 作者 的 “ 私 活 ”。 抛 开 公 事 不 谈 ， 
我 要 感谢 Jim Zemlin 一 一 我 在 LE 的 “接口 ”人 ， 还 要 感谢 LF 技术 咨询 委员 会 的 一 干 专家 ， 
感谢 他 们 对 我 的 聘任 。 


感谢 Alejandro Forero Cuervo 对 本 书 书 名 的 建议 | 


25 年 前 ， 在 我 为 第 一 个 学 位 拼搏 之 时 ，Robert Biddle 激 起 了 我 对 UNIX、C 以 及 Ratfor 的 兴 
趣 ， 谢 谢 你 ， 老 兄 。 虽 然 以 下 诸 君 与 本 书 并 无 直接 干系 ， 但 当 我 在 狐 西 兰 坎 特 伯 雷 大 学 攻读 第 二 
学 位 时 ， 他 们 就 或 励 我 在 写作 道路 上 坚持 下 去 ， 在 此 ， 我 要 癌 他 们 表示 感谢 ,他 们 是 Michael 
Howard, Jonathan Mane-Wheoki、Ken Strongman, Garth Fletcher. Jim Pollard, 以 有 Brian Haig. 

由 Richard Stevens 所 著 的 儿 部 关于 UNIX 编程 和 TCP/P 方面 的 杰作 , 数 年 来 一 直 被 我 非 程 
序 员 奉 为 直 果 ， 只 可 惜 先贤 已 滔 。 几 是 谈 过 上 述 书 籍 的 读者 势必 会 注意 到 ， 本 书 与 Richard 
Stevens 的 那 几 本 巨著 看 起 来 有 些 相 似 。 这 并 非 偶然 。 在 构思 本 书 时 ， 作 者 曾 从 较为 宏观 的 角 
度 束 书籍 设计 反复 其 酌 ， 可 最 终 发 现 Richard Stevens 所 采用 的 方法 才 是 正解 ， 正 因 如 此 ， 本 
书 采用 了 与 其 相同 的 展示 方式 。 

感谢 下 列 人 士 和 组 织 为 我 提供 UNIX 系统 ， 使 我 得 以 运行 测试 程序 ， 并 验证 其 他 UNIX 实 
MAJA, XH} Anthony Robins 和 Cathy Chandra 在 新 西 兰 Otago 大 学 所 提供 的 多 种 UNIX 测试 
系统 ， 感 谢 Martin Landers, Ralf Ebner 和 Klaus Tilk 在 德国 茶 尼 墨 技术 大 学 (Technische 
Universität) 所 提供 的 多 种 UNIX 测试 系统 ， 感 谢 HP 公司 在 Internet 上 人 免费 开放 他 们 的 testdrive 
系统 ， 感 谢 Paul de Weerd 使 我 得 以 访问 OpenBSD 系统 。 

要 衷心 感 戎 两 家 和 取 尼 黑 公 司 及 其 老板 ， 这 两 家 公司 除了 为 我 提供 了 工作 机 会 (还 是 弹性 
工作 制 ) 和 热情 的 同事 ,还 格外 开 居 ， 人 允许 我 在 写作 本 书 时 使 用 他 们 的 办 公 室 。 感 斋 exolution 
有 限 公 司 的 Thomas Kahabka 和 Thomas Gmelch， 特 别 要 感谢 jambit 有 限 公 司 的 Peter Fellinger 
和 Markus Hartinger. 

感谢 下 列 人 士 对 我 提供 的 各 种 帮助 ， 他 们 是 Dan Randow, Karen Korrel. Claudio Scalmazzi. 
Michael Schüpbach 和 Liz Wright。 感 谢 Rob Suisted 和 Lynley Cook 为 封面 和 封底 所 提供 的 照片 。 

感谢 下 列 人 证 以 不 同方 式 给 作者 以 薄 励 和 文 持 ， 他 们 是 Deborah Church, Doris Church 和 
Annie Currie. 

感谢 No Starch 出 版 社 大 队 人 马 为 这 一 庞大 创作 项 目 所 提供 的 各 种 玫 助 。Bil Pollock 从 项 
目 之 初 融 一 直 秉 持 和 直言 不 讳 的 风格 ， 始 终 对 本 书 的 完成 充满 信心 ， 并 耐心 地 关注 独 项 目的 进 
展 ， 我 要 对 他 表示 感谢 。 感 谢 本 书 最 初 的 责任 编辑 Megan Dunchak。 感 谢 本 书 的 文字 编辑 
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Marilyn Smith, HERR R 99 Je EA SK XC5E HT lE; — 85. JOH I Be JUS TEES SIN 
书 的 版 面 和 设计 由 Riley Hoffman 全 面 负 责 ， 在 “上 了 同一 条 骨 ” 后 又 挑 起 了 制作 编辑 的 重担 。 
Riley 总 是 不 大 其 烦 地 满足 我 的 请 求 ， 以 求 本 书 的 排版 无 误 一 一 最 终结 果 堪 称 完美 。 谢 谢 你 。 

现在 ， 我 才 体 味 出 下 面 这 句 老 话 的 真正 含义 : 一 人 写作 ， 全 家 受累 。 感 谢 Britta 和 Cecilia 对 
我 的 支持 ， 感 谢 你 们 能 容忍 我 因 写 作 本 书 而 长 时 间 地 不 着 家 。 


许可 

承 绽 IEEE (美国 电气 电子 工程 师 学 会 ) 和 The Open Group 上 串 允 ， 本 书 得 以 引用 IEEE Std 
1003.1, 2004 版 以 及 The Open Group 基础 规范 第 6 (Issue 6) 中 POSIX《〈 可 移植 性 操作 系 
统 接口 ) 一 一 信息 技术 标准 的 部 分 文字 。 可 通过 http://www.unix.org/version3/online. html 在 线 
合 阅 规 冰 的 完整 版 本 。 


Web 站 点 和 程序 示例 的 源码 
读者 可 在 http//man7.org/dpi 上 找到 更 多 有 关 本 书 的 信息 ， 包 括 本 书 的 勘误 表 和 程序 示例 
源码 。 


反馈 

欢迎 读者 提供 BUG 报告 、 对 代码 的 改进 建议 ， 以 及 为 进一步 提高 代码 可 移植 性 而 提出 的 
修订 意见。 同样 欢迎 谈 者 提供 针对 本 书 内 容 的 缺陷 报告 和 改进 叙述 方式 的 一 般 性 建议 。 当 六 
的 勘误 列表 可 参见 http://man7.org/tlpi/errata/, H F Linux 编程 接口 变化 无 常 、 且 变更 有 时 极为 
频 老 ， 仅 任 作 者 一 己 之 力 很 难 “ 与 时 候 进 ”因此 谍 者 融 全 狐 或 已 变更 的 Linux 编程 接口 特性 
所 提供 的 反馈 信息 ， 作 者 也 将 乐于 收 到 ， 并 会 纳入 本 书 的 下 一 版 中 。 
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历史 和 标准 











Linux 是 UNIX 操作 系统 家 族 中 的 一 员 。 就 计算 机 的 发 展 而 言 ，UNIX 历史 悠久 。 本 章 的 
第 一 部 分 会 简要 介绍 UNIX 的 历史 一 一 以 对 UNIX 系统 和 C 编程 语言 起 源 的 回顾 拉 开 序幕 ， 
接着 会 述 及 成 束 今 日 Linux 系统 的 两 大 关键 因素 : GNU 项 目 和 Linux 内 核 的 开发 。 

UNIX 系统 最 引 人 关 注 的 特征 之 一 ， 是 其 开发 不 受 控 于 某 一 厂商 或 组 织 。 相 反 ， 许 多 团 
体 一 一 既 有 商业 团体 ， 也 有 非 商 业 团 体 一 一 都 曾 为 UNIX 的 演进 做 出 过 页 献 。 这 一 渊源 使 
UNIX 集 多 种 开创 性 的 特性 于 一 身 ， 但 同时 也 带 来 了 负面 影响 一 一 随 着 时 间 的 推移 ，UNIX 
的 实现 渐 趋 分 裂 。 因 此 ， 要 编写 出 能 够 运行 于 所 有 UNIX 实现 之 上 的 应 用 程序 愈 发 困难 。 这 
又 导致 了 人 们 对 UNIX 实现 的 标准 化 呼声 越 来 越 高 ， 本 章 的 第 二 部 分 将 讨论 这 一 问题 。 





























对 UNIX 的 定义 通常 有 两 种 。 其 一 是 指 通 过 SUS 所 规范 的 官方 一 致 性 测试 ， 且 由 
OPEN GROUP (UNIX 商标 的 持 有 者 ) 正式 授权 冠 以 “UNIX” 的 操作 系统 。 在 写作 本 
书 之 际 ， 尚 无 开源 的 UNIX 实现 (比如 ，Linux 和 FreeBSD) 获得 了 “UNIX” 冠 名 。 

在 第 二 种 定义 中 ，UNIX 是 指 那 种 运作 方式 类 似 于 经 典 UNIX 系统 〈 比 如， 最 初 的 Bell 
实验 室 UNIX 系统 ， 及 其 后 来 的 主要 分 支 System V 和 BSDO. 的 操作 系统 。 根 据 这 一 定义 ， 
一 般 将 Linux 视 为 UNIX 系统 (如 同 现代 BSD 系统 一 样 )。 尽 管 本 书 会 密切 关注 SUS， 但 
也 会 遵循 对 UNIX 的 第 二 种 定义 ， 因 此 诸如 “Linux， 像 其 他 UNIX 实现 一 样 ……” 这 样 的 
说 法 ， 会 在 书 中 频繁 出 现 。 














1.1 UNIX 和 C 语言 简 史 


1969 年 ， 在 AT&T 电话 公司 下 辖 的 bell 实验 室 中 ，Ken Thompson 开 友 出 了 首 个 UNIX 实 
现 。 该 实现 是 使 用 Digital PDP-7 小 型 机 的 汇编 语言 开发 而 成 的 。 其 名 称 UNIX 是 “MULTICS 
(多 信息 及 计算 服务 ，Multiplexed Information and Computing Service )” 一 词 的 双关 语 ， 
MULTICS 之 名 则 出 目 一 个 早期 的 操作 系统 开发 项 目 ， 访 项目 由 AT&T、MIT〔 麻 省 理工 学 院 ) 
以 及 通用 电器 公司 联合 开发 。( 因 为 未 能 开发 出 一 于 经 济 实用 的 操作 系统 ， 该 项目 站 战 失利 。 
HEZA, AT&T 随即 退出 这 一 项 目 中 。) Thompson 设计 新 操作 系统 的 某 些 灵感 正 源 于 




















异步 社区 会 员 flyman150(2410757683 (9 qq.com) EF 尊重 版 权 


MULTICS， 其 中 包括 : 树 形 结 构 的 文件 系统 、 设 立 单 独 的 程序 用 于 解释 命令 (shell)， 以 及 将 
文件 作为 无 结构 字 蔬 流 看 生 的 概念 。 

1970 ^E, AT&T 的 工程 师 们 又 在 刚 购 进 的 Digital PDP-11 小 型 机 上 ， 以 汇编 语言 重 写 了 
UNIX， 当 时 ，Digital PDP-11 算得 上 是 最 狐 闲 、 功 能 也 最 为 强劲 的 计算 机 了 。 从 大 多 数 UNIX 
实现 (包括 Linux) 沿用 人 至今 的 各 种 名 称 上 ， 仍 能 发 现 这 一 PDP-11 实现 所 残留 的 历史 遗迹 。 

KILA, Dennis Ritchie (Thompson 在 bell 实验 宇 的 同事 ，UNIX 开发 的 早期 合作 者 ) 
设计 并 实现 出 了 C 编程 语言 。 这 里 有 一 个 演变 过 程 : C 语言 传承 自 早 期 的 解释 型 语言 一 一 B 
语言 ; B 语言 最 初 由 Thompson 实现 , 但 其 所 包含 的 许多 理念 却 来 日 于 更 早期 的 编程 语言 一 一 
BCPL。 到 了 1973 年 ，C 语言 步 入 了 成 部 期， 人 们 能 够 使 用 这 一 新 语言 重 写 几 乎 整个 UNIX 内 核 。 
UNIX 因此 也 一 变 而 为 最 早 以 高 级 语言 开发 而 成 的 操作 系统 之 一 , 这 也 促成 了 UNIX 系统 后 续 
器 其 他 便 件 染 构 的 移植 。 

从 C 语言 的 起 源 不 难看 出 为 什么 C 语言 及 其 “后 裔 ”C++ 是 当今 使 用 最 为 三 泛 的 系统 编 
程 语言 。 早 期 流行 的 编程 语言 其 设计 初衷 并 不 在 于 此 ， 例 如 : FORTRAN 语言 意 在 帮助 工程 师 
和 科研 工作 者 们 进行 数学 计算 ，COBOL 语言 则 是 在 商业 系统 中 用 来 处 理 面 问 记 录 的 数据 流 。 
C 语言 的 出 现 ， 填 补 了 当时 系统 编程 方面 的 语言 空白 。 与 FORTRAN 和 COBOL 不 同 〈 这 两 
种 编程 语言 均 由 大 型 组 织 设 计 开 发 )，C 语言 的 设计 理念 和 设计 需求 出 目 于 几 位 程序 员 的 构思 ， 
他 们 的 目标 很 单纯 : 为 实现 UNIX. 内 核 及 其 相关 软件 而 开发 一 种 高 层 语言 。 像 UNIX 操作 系 
统 本 映 一 样 ,， C 语言 由 专业 程序 员 设 计 而 为 已 用 。 其 最 终结 果 堪 称 完 美 : C 语言 的 设计 前 后 连 
贯 ， 且 文 持 模块 化 设计 ， 成 为 短小 精干 、 局 效 实 用 、 功 能 强大 的 编程 语言 。 



















































































UNIX 的 第 一 版 到 第 六 版 


1969—1979 年 间 ，UNIX 历经 了 多 次 发 布 ， 也 称 为 版 本 (edition)。 实 质 上 ， 这 些 发 布 是 AT&T 
对 UNIX 进行 演进 开发 时 的 一 系列 版 本 快照 。[Salus，1994] 记 录 了 UNIX 前 六 版 的 发 布 日 期 如 下 。 

。 1971 4E 11 月 发 布 的 第 一 版 : 当时 ，UNIX 还 运行 在 PDP-11 E, 但 已 附带 了 FORTRAN 

编译 上 费 ， 许 多 被 沿用 到 今 的 程序 都 已 有 了 了 雏形， 这 包括 : ar、cat、chmod、chown、cp、 
dc. ed. find, In, ls, mail, mkdir, mv, rm, sh, su 以 及 who. 

e 1972 年 6 月 发 布 的 第 二 版 :当时 ，AT&T 内 有 10 台 计 算 机 安装 了 UNIX。 

e 1973 年 2 月 发 布 的 第 三 版 : 该 版 本 包括 了 C 编译 器 ， 以 及 管道 的 首 个 实现 。 

e 1973 年 11 月 发 布 的 第 四 版 : 这 也 是 几乎 完全 以 C 语言 重 写 的 首 个 UNIX 版 本 。 

e 1974 年 6 月 发 布 的 第 五 版 : 当时 ，UNIX 的 装机 数 已 经 超过 了 50 台 。 

e 1975 年 3 月 发 布 的 第 六 版 : 这 也 是 在 AT&T 之 外 广泛 使 用 的 首 个 UNIX 版 本 。 

在 此 期 间 ，UNIX 使 用 范围 从 ATAT 上 自 内 而 外 逐步 扩展 ， 声 名 也 随 之 远 播 。 读 者 其 众 的 
(ACM 通信 》 杂 志 刊 载 了 一 篇 关于 UNIX 的 论文 C[Ritchie & Thompson, 1974])， 这 对 UNIX 
AI144 BENI T 1] 9E NC S o 

当时 ， 在 美国 政府 的 授权 下 ，AI&T MEEK HEET. AT&T 与 美国 政府 达成 的 协议 
FREIE ATAT 涉足 软件 销售 行业 一 一 这 意味 着 ，AI&T 不 能 将 UNIX 作为 产品 销售 。 相 反 ， 
从 1974 年 的 UNIX 第 五 版 开始 ，AI&T 准许 高 校 在 文 付 象征 性 的 发 布 费 用 后 使 用 UNIX 系 
统一 一 这 一 现象 尤 以 第 六 版 为 烈 。UNIX 系统 的 高 校 发 布 版 包括 了 相关 文档 及 内 核 源码 (当时 ， 
内 核 源 码 约 为 10 000 行 左 右 )。 

AT&T ora B UNIX 极 大 促进 了 这 一 操作 系统 的 普及 和 使 用 。 时 全 1977 年 ，UNIX 
已 经 在 约 500 个 站 点 中 运行 ， 其 中 包括 了 全 美 及 其 他 国家 的 125 所 大 学 。 当 时 的 商业 操作 系 
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IET Epp, UNIX WS PADE Y —hr5c HH RER, TIBIAE. WE. RERE 
机 系 还 籍 此 获得 了 “ 饼 活 ”的 操作 系统 源码 ， 可 以 对 源码 进行 修改 ， 还 可 供 学 生 们 学 习 、 实 验 之 用 。 
一 些 以 UNIX 知识 为 武装 的 学 生 后 来 成 为 UNIX“ 传 教士 ”。 夯 外 一 些 学 生 则 组 建 或 加 盟 了 大 量 新 兴 
公司 ， 其 业务 主要 是 销售 廉价 的 计算 机 工作 站 ， 而 运行 于 其 上 的 正 是 易于 移植 的 UNIX 操作 系统 。 

















BSD 和 System V 的 诞生 


发 布 于 1979 年 1 月 的 UNIX 第 七 版 改善 了 系统 的 可 徘 性 ， 配 备 了 增强 型 的 文件 系统 。 访 
版 本 还 附带 了 不 少 新 的 工具 软件 ， 其 中 包括 : awk, make, sed, tar, uucp, Bourne shell 以 及 
FORTRAN 77 编 诺 器 。 第 七 版 UNIX 发布 的 重要 意义 还 在 于 ， 从 该 版 本 起 ，UNIX 分 裂 为 了 两 
KIX: BSD 和 System V。 接 下 来 会 简要 描述 二 者 的 由 来 。 

FRERE KFA ARLA, Thompson 于 1975/1976 学 年 曾 担任 该 校 的 客座 教授 。 
在 此 期 间 ， 他 与 研究 生 们 一 起 为 UNIX 开发 了 许多 狐 特性 。( 他 的 学 生 之 一 ，Bill Joy， 后 来 与 
人 共同 组 建 了 SUN 微 系统 公司 一 家 最 早 涉 足 UNIX 工作 站 市 场 的 公司 。) 光阴 在 再 ， 许 
多 UNIX 的 新 工具 和 新 特性 又 陆续 在 伯克利 分 校 问 世 ， 这 包括 : C shell. vi 编辑 器 、 一 种 改进 
型 的 文件 系统 (伯克利 快速 文件 系统 )、sendmail、Pascal 语言 编译 器 ， 以 及 用 于 新 型 Digital VAX 
染 构 的 虚拟 内 存 官 理 机 制 。 

这 一 命名 为 BSD 伯克利 软件 发 布 ，Berkeley Software Distribution? 的 UNIX 版 本 (包括 
源码 在 内 ) DE o 1979 年 12 月 ， 诞 生 了 首 个 完整 的 UNIX 发 布 版 3BSD.. C Bi ARH 
Berkeley-BSD 和 2BSD 并 非 完 整 的 UNIX 发 布 版 ， 仅 含 由 伯克利 分 校 开 发 的 新 工具 。) 

1983 年 ， 加 州 大 学 伯克利 分 校 的 计算 机 系统 研究 组 “Computer Systems Research Group) 发布 
了 4.2BSD。 访 版本 的 发布 意义 深远 ， 因 为 其 包含 了 完整 的 TCP/P 实现 ， 其 中 包括 套 接 字 应 用 编程 
接口 (API) 以 及 各 种 网 络 工 具 。4.2BSD 及 其 前 身 4.1BSD 在 世界 上 多 所 大 学 开始 广 为 流 传 。 以 这 
两 者 为 基础 ， 还 形成 了 SunOs HERA ARF 1983 E) 一 一 这 一 由 SUN 公司 销售 的 UNIX 变 
种 。 其 他 重要 的 BSD 版 本 还 有 友 布 于 1986 年 的 4.3BSD， 以 及 发 布 于 1993 年 的 最 终 版 本 4.4BSD。 


首 批 UNIX 向 非 PDP-11 硬件 机 型 的 移植 发 生 在 1977 年 和 1978 年 ， 当 时 ，Dennis Ritchie 
和 Steve Johnson 将 UNIX 移植 到 了 Interdata 8/32 上 ， 与 此 同时 ， 澳 大 利 亚 Wollongong 大 学 的 
Richard Miller 也 将 其 移植 到 了 Interdata 7/32 Eo 伯克利 分 校 针对 Digital Vax 架构 的 移植 
也 称 为 32V， 则 基于 John Reiser 和 Tom Lodon 较 早 前 (1978 年 ) 的 工作 成 果 。 该 移植 本 质 


与 此 同时 ， 美 国 的 反 托 拉 斯 法 案 强制 对 AT&T 进行 拆 分 (于 20 世纪 70 年 代 中 期 开始 立 
案 ， 到 1982 年 ATAT 正式 解体 )。 随 着 其 在 电话 系统 市 场 芍 断 地 位 的 丧失 ，ATI&T 也 因而 获 
准 销售 UNIX。 这 也 催生 了 1981 年 System III (3) 的 发 布 。System III 由 AT&T 所 属 的 UNIX 
文 撑 团队 (UNIX Support Group, USG) 研发 , 该 团队 雇佣 了 数 以 百 计 的 研 及 人员 来 从 事 UNIX 
系统 的 增强 以 及 应 用 开发 〈 尤 其 针对 文档 预备 软件 包 和 软件 开 友 工具 )。1983 Œ, System V 
的 首 个 发 布 版 又 接 旺 而 全 ， 在 经 过 一 系列 有 友 布 后 ，USG 最 终于 1989 年 推出 了 System V Release 
4 〈SVR4)， 此 时 的 System V 纳入 了 BSD 的 诸多 特性 ， 包 含 联 网 能 力 。AT&T 将 System V 授 
RADH) A, AE) AKRE AA UNIX 实现 的 基础 。 

因此 ， 除 了 通 布 于 学 术 界 的 各 种 BSD 发 布 版 外 ， 到 20 世纪 80 EFRR, PRSETER] UNIX 
实现 在 各 种 便 件 架构 上 都 有 了 广泛 应 用 。 这 包括 : SUN 公司 的 SunOS， 以 及 后 来 的 Solaris; 
Digital 公司 的 Ultrix 和 OSF/1 在 历经 一 系列 更 名 和 收购 后 ， 现 称 为 HP Tru64 UNIX); IBM 
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公司 的 AIX; HP 公司 的 HP-UX; NeXT 公司 的 NeXTStep; 在 Apple Macintosh 机 上 的 A/UX; 
以 及 Microsoft 和 SCO 公司 联合 为 Intel x86-32 架构 开发 的 XENIX。 CHF AB, KIJI x86-32 
架构 上 的 Linux 实现 称 为 Linux/x86-32。) 这 一 局 面 与 当时 典型 的 专 有 便 件 搭配 专 有 操作 系统 的 
模式 形成 了 鲜明 对 照 ， 那 时 ， 每 个 厂商 只 生产 一 种 或 至 多 儿 种 专 有 的 计算 机 心 片 染 构 ， 然 后 再 
销售 运行 于 该 便 件 架构 之 上 的 专 有 操作 系统 。 大 多 数 广 商 系统 的 这 种 专 有 性 ， 意 味 看 消费 者 只 
能 在 一 柠 树 上 “ 吊 死 ” 转换 到 夯 一 专 有 操作 系统 和 便 件 平台 ， 其 代价 十 分 高 书 ， 不 但 需要 移植 
现 有 应 用 ， 还 需要 对 操作 人 员 进 行 重 狐 培 训 。 从 商业 角 虔 来 看 ， 考 虑 到 上 述 因素 ， 加 之 各 广 A 
纷纷 推出 了 廉价 的 单 用 户 UNIX 工作 站 ， 具 备 可 移植 性 的 UNIX 系统 魅力 逐渐 开始 “四 显 ”。 
































1.2 Linux 简 史 

术语 Linux 通常 用 来 指 代 完整 的 类 UNIX. CUNIX-like) 操作 系统 ，Linux 内 核 只 是 其 中 的 
一 部 分 。 这 么 定义 多 少 有 些 措 群 不 当 , 因为 一 般 商 业 Linux 发 布 版 中 所 含 的 诸多 关键 组 件 实 际 
上 发 源 于 另 一 项 目 ， 早 在 Linux H RE Bi LAE SEO ZEB AJ D. 


1.2.1 GNU 项 目 


1984 年 ，Richard Stallman 之 前 一 直 供 职 于 MIT 的 一 位 天 赋 寞 京 的 程序 员 ， 开始 看 手 创 建 
一 个 “自由 的 (free)”UNIX 实现 。Stallman 的 观点 属于 道德 层面 ， 而 对 “free” 一 词 的 定义 
则 属于 法 律 范畴 而 非 经 阐 范 畴 〈 请 参见 http://www.gnu.org/philosophy/free-sw.html)。 然 而 ， 
Stallman 所 擂 述 的 这 一 法 律 意义 上 的 “上 自由 (freedom)” 却 强 含 着 言 外 之 意 : 应 可 免费 或 以 低 
价 获得 诺 如 操作 系统 之 类 的 软件 。 

对 于 那些 在 专 有 操作 系统 上 强加 限制 条 于 的 计算 机 厂商 来 说 ，Stallman 的 这 一 举动 无 疑 妨 
害 了 他 们 。 所 谓 的 限制 条 于 是 指 : 在 一 般 情 况 下 ， 计 算 机 软件 的 消费 者 不 但 无 权 了 阅读 目 己 所 
购 软 件 的 源码 ， 而 且 还 不 能 复制 、 更 改 及 重新 发 行 所 购 软件 。Stalman 指出 ， 在 这 种 体制 之 下 ， 
只 会 造成 程序 员 之 间 勾 心 斗 月 、 小 般 自 珍 的 局 面 ， 无 法 实现 工作 协同 和 成 果 共 享 。 

与 乙 针 锋 相 对， 为 开发 出 一 依 完 整 而 又 可 自由 获取 ， 包 含 内 核 以 及 所 有 相关 软件 包 的 关 
UNIX 系统 ，Stallman 发 起 了 GNU MH (“GNU’s not UNIX” 的 递归 缩写 形式 )， 并 积极 邀请 
TZ LEV. 1985 Æ, Stallman 创立 了 非 盘 利 机 构 一 一 目 由 软件 基金 会 (FSF)， 以 文 持 GNU 
项 目 和 广义 意义 上 的 自由 软件 开发 。 


GNU 项 目的 重要 成 果 之 一 是 制定 了 GNU GPL (通用 公共 许可 协议 )， 这 也 是 Stallman 倡导 
的 自由 Cree) 软件 概念 在 法 律 上 的 体现 。Linux 发 布 版 中 的 大 多 数 软 件 ， 包 括 Linux 内 核 ， 都 
是 以 GPL 或 与 之 类 似 的 许可 协议 发 布 的 。 以 GPL 许可 协议 发 布 的 软件 不 但 必须 开放 源码 ， 而 
日 应 能 在 GPL 条 球 的 约束 下 日 由 对 其 进行 章 狐 发 布 。 可 以 不 受 限 制 的 修改 以 GPL 许可 协议 友 
布 的 软件 ， 但 任何 经 修改 后 发 布 的 软件 仍 需 遵守 GPL 条 球 。 若 经 过 修改 的 软件 以 二 进 制 (可 执 
41) 形式 发 布 ， 那 么 软件 的 修改 者 必需 满足 软件 使 用 者 的 以 下 要 求 : 以 不 高 于 发 行 成 本 的 价格 ， 
获得 修改 后 的 软件 源码 。GPL 的 第 一 版 发 布 于 1989 年 。 当 前 的 许可 协议 版 本 为 2007 年 发 布 的 
第 三 版 。 此 许可 协议 的 第 三 版 于 1991 年 发 布 ， 至 今 仍 在 广泛 使 用 ，Linux 内 核 就 是 以 该 版 许可 
协议 发 布 的 。( 对 各 种 自由 软件 许可 协议 的 讨论 可 见 诸 于 [St Laurent, 2004] 和 [Rosen, 2005]. ) 
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最 初 ，GNU 项 目 未 能 开发 出 能 够 有 效 运 作 的 UNIX 内 核 ， 但 却 开发 了 大 量 其 他 程序 。 由 于 
这 些 程序 全 都 针对 类 UNIX 系统 而 设计 ， 因 此 (理论 上 ) 均 有 可 能 在 现 有 的 UNIX 实现 上 运 
行 〈《 实 际 情况 也 的 确 如 此 )， 更 有 甚 者， 有 时 还 被 移植 到 了 其 他 操作 系统 上 。Emacs 文本 编辑 
器 、GCC (原名 为 GNU C 编译 器 ， 现 更 名 为 GNU 编译 器 集合 ， 集 C、C++， 以 及 其 他 编程 
语言 的 编译 器 于 一 身 )、bash shell 以 及 glibe (GNU C 语言 库 ) 便 是 GNU 项 目 结 出 的 硕果 。 

到 了 20 世纪 90 年 代 早 期 , GNU 项 目 已 经 开发 出 了 一 套 几 乎 完整 的 操作 系统 ， 除 了 还 缺少 其 
中 最 重要 的 一 环 : 能 够 有 效 运转 的 UNIX 内 核 。 于 是 ，GNU 项 目 以 Mach 微 内 核 为 基础 ， 发 起 了 
一 项 雄心 勃勃 的 内 核 设计 计划 ， 史 称 GNU/HURD 计划 。 然 而 ， 时 至 今日 ，HURD 的 发 布 还 遥遥 
无 期 〈 写 作 本 书 之 际 ，HURD 的 研发 沿 在 进行 中 ， 该 内 核 目前 只 能 运行 于 x86-32 架构 之 上 )。 






































在 构成 通常 所 说 的 “Linux 系统 ”的 程序 代码 中 ， 由 于 有 相当 一 部 分 都 源 自 GNU 项 目 ， 
因此 Stallman 更 愿意 用 “GNU/Linux” 一 词 来 称呼 整个 系统 。 这 一 称谓 问题 (Linux Vs. 
GNU/Linux)) 也 在 目 由 软件 社区 中 引发 了 一 些 口舌 之 和 争 。 因 为 本 书 主要 关注 Linux 内 核 的 
API， 故 而 通 香 会 采用 术语 “Linux ”。 








万 事 具 备 ， 独 缺 内 核 。 只 要 再 拥有 一 个 能 够 有 效 运作 的 内 核 ， 吏 能 使 GNU 项 目 开 发 出 的 
UNIX 系统 “功德 圆满 ”。 


1.2.2 Linux 内 核 


1991 Œ, Linus Torvalds， 一 位 分 兰 赫 尔 羡 基 大 学 的 学 生 ， 在 外 界 的 激励 下 为 目 己 的 Intel 
80386 PC 开发 了 一 个 操作 系统 。 在 一 门 学 习 读 程 中 ，Torvalds 开始 接触 Minix 由 荷兰 大 学 
教授 Andrew Tanenbaum 于 20 世纪 80 年 代 中 期 开 友 的 一 球 小 型 、 类 UNIX 的 操作 系统 内 核 。 
Tanenbaum 将 Minix 连同 源码 完全 开放 , 作为 大 学 操作 系统 设计 诛 程 的 教学 工具 。 人 们 可 以 在 
386 系统 上 构建 并 运行 Minix 内 核 。 当 然 ， 正 因为 其 主要 用 于 教学 ，Minix 在 设计 上 几乎 独立 
于 硬件 架构 ， 故 而 也 未 对 386 处 理 器 的 能 力 充 分 加 以 利用 。 

办 此， 为 了 开发 出 一 个 高 效 而 义 功能 齐备 的 UNIX 内 核 ，Torvalds 开始 “ 目 力 更 生 ” 数 
月 之 后 ，Torvalds 开发 出 一 个 内 核 “ 雏 形 ” 可 以 编译 并 运行 各 种 GNU 程序 。 随 之 ， 于 1991 
年 10 月 5 日， 为 求 得 其 他 程序 员 的 帮助 ，Torvalds 在 Usenet 新 闻 组 comp.os.minix 上 就 其 内 
核 0.02 版 有 发表 了 如 下 申明 ， 如 今 已 被 广 为 引 用 。 









































VETE UJ minixl.1 的 好 日 子 一 一 人 人 都 能 给 日 个 儿 写 设备 驱动 ， 不 用 看 别人 的 脸色 ? 
手头 没有 称心 的 项 目 ? 是 不 是 特 想 有 一 个 操作 系统 ， 能 依 大 目 个 的 想法 来 回 折腾 ， 还 能 长 
见识 ? IIE minix 上 面 跑 的 那些 玩意 吧 ， 是 不 是 挺 没劲 ?不 想 再 为 调 个 酪 结 了 的 程序 ， 一 
人 a a a T dXIETES — PE 
作 系 统 ， 在 AT-386 KE, AHI, ER minix. MESAI TZIRE, RERA A, 
这 得 看 您 想 干吗 )。 现 在 ， 我 愿意 公布 系统 的 源 个 ， 请 大 家 多 隔 隐 ， 多 用 用 。 系 统 版 本 只 是 
0.02， 不 过 bash, gcc, gnu-make, gnu-sed 还 有 compress 等 等 倒是 都 跑 通 了 。 




















为 了 传承 UNIX 历史 悠久 的 光荣 传统 ， 在 为 UNIX 系统 克隆 命名 时 ， 总 以 字母 “X” 结 尾 ， 
故而 ， 人 们 最 终 将 这 一 内 核 命名 为 Linux。 最 初 ，Linux 的 使 用 许可 协议 要 严格 得 多 ， 但 Torvalds 
很 快 就 将 其 归于 GNU GPL 阵营 。 

Torvalds 做 到 了 一 呼 百 应 。 其 他 程序 员 与 Torvalds 一 起 加 入 到 Linux 的 开发 行列 ， 添 加 了 
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很 多 新 特性 ， 诸 如 : MERER WARRE RAFET UOS] AR AERES 
持 等 。 到 了 1994 年 3 月 ， 开 发 者 们 发 布 了 Linux 1.0 版 本 。 随 之 ，Linux 1.2 发 布 于 1995 年 3 
H, Linux 2.0 发 布 于 1996 年 6 H, Linux 2.2 发 布 于 1999 年 1 H, Linux 2.4 发 布 于 2001 年 1 
月 。 对 内 核 2.5 版 本 的 开发 始 于 2001 年 11 月 ， 并 最 终于 2003 年 12 HAB f Linux 内 核 2.6。 





题 外 话 : BSD 


值得 一 提 的 是 ，20 世纪 90 年 代 初 ， 男 一 种 可 以 免费 获得 的 UNIX 也 能 在 x86-32 fif FAS 
MJ Lis fy. Bill 和 Lynne Jolitz 将 业已 成 熟 的 BSD 系统 移植 到 32 位 的 x86 cpu 上 ， 命 名 为 
386/bsd。 这 项 移植 工作 基于 BSD Net/2 发 布 于 1991 年 6 月 )， 即 4.3BSD 源码 的 版 本 之 一 ， 
该 版 本 中 残存 的 所 有 ATAT 专 有 源码 要 么 被 全 部 蔡 换 ， 要 么 予以 删除 一 一 主要 针对 6 个 无 法 
轻易 更 换 的 源码 文件 而 言 。Jolitzes 夫妇 将 Net/2 代码 移植 到 了 x86-32 硬件 架构 ， 重 写 了 缺失 
的 源码 ， 并 于 1992 年 2 月 发 布 了 386/BSD 的 首 个 版 本 (0.0 版 本 )。 

在 初战 告捷 后 ， 对 386/BSD 的 开 友 工作 便 出 于 各 种 原因 而 停 涡 不 前 。 和 耐 对 日 潮 积 压 的 大 
量 补丁 程序 ， 另 外 两 组 开发 团队 相机 而 动 ， 基 于 386/BSD 分 别 创建 了 目 己 的 版 本 : NetBSD 和 
FreeBSD。 前 者 侧重 于 对 大 量 便 件 平 台 的 可 移植 性 ， 后 者 则 主要 关注 性 能 ， 并 成 为 如 今 应 用 最 
2j] ZHI BSD. 1993 年 4 月 ，NetBSD HJ CHUA 5 7g 0.8) 发 布 。FreeBSD 的 首 个 CD-ROM 
版 本 (版 本 号 为 1.0) 则 发 布 于 1993 年 12 H. 1996 Æ, OpenBSD 在 从 NetBSD 项 目 分 离 出 
去 之 后 ， 也 发 布 了 最 初版 本 《〈 版 本 扎 2.0)。 相 比较 而 言 ，OpenBSD 偏重 于 安全 性 。2003 年 中 
段 , 在 与 FreeBSD 4.x 分 道 扬 镰 之 后 ,一 于 新 型 BSD DragonFly BSD 又 浮 出 水 面 。.DragonFly 
BSD 采用 的 设计 方法 与 FreeBSD 5.x 有 所 不 同 ， 能 够 文 持 对 称 多 处 理 器 (SMP) 架构 。 

若是 不 提 及 20 世纪 90 年 代 初 UNIX System Laboratories (USL, RÆ H AT&T 的 子 公司 ， 
专门 从 事 UNIX 的 开发 和 销售 ) 和 Berkeley 之 间 的 那 场 官司 ， 那 么 对 BSD 的 介绍 恐怕 就 算 不 
得 完整 。1992 年 初 ，Berkeley Software Design, Incorporated 公司 (BSDi， 如 今 隶属 于 Wind River 
公司 ) 开始 发 行 受 商业 支持 的 BSD UNIX 一 一 BSD/OS 一 一 以 Net/2 发 布 版 以 及 Jolitze 夫妇 所 
开发 的 386/BSD 特性 为 基础 。 BSDi 的 发 布 版 包含 二 进 制 和 源 代码, 售 价 995 美元 , 此 外 ,BSDi 
还 建议 潜在 客户 使 用 其 电话 写 人 友 1-800-ITS-UNIX。 

1992 年 4 月，USL 对 BSDi 发 起 诉讼 ， 诉 状 称 BSDi 售 出 产品 中 含有 USL 专 有 源码 及 商 
业 机 密 ， 要 求 其 停止 销售 。 此 外 ， 诉 状 还 指称 BSDi 的 电话 号 人 码 容易 误导 消费 者 ， 要 求 BSDi 
停止 使 用 。 这 场 诉 讼 愈 演 合 烈 ， 最 终 还 加 入 了 对 加 州 大 学 的 索 财 请求。 法 院 最 终 驶 加 了 USL 
几乎 所 有 的 诉讼 请 求 ， 仪 对 其 中 的 两 项 请 求 巴 以 支持 。 随 后 ， 加 州 大 学 义 针 对 USL 发 起 友 诉 ， 
诉 称 : USL 没有 为 System V 中 使 用 的 BSD 代码 文 付费 用 。 

这 场 诉 讼 悬而未决 之 际 ，USL 已 被 Novell 收购 ，Novell 时 任 CEO Ray Noorda 公开 
声称 : RLRE, BOEAMEBEGGGm T. 7 mx T 1994 年 1 HARKE 
外 和 解 。 在 删除 Net/2 release 源码 18000 个 文件 中 的 3 个 文件 , 对 若干 其 他 文件 做 出 细微 改 
动 ， 并 为 其 他 大 约 70 个 文件 添加 USL 版 权 注 意 事项 后 ， 加 州 大 学 仍 可 继续 目 由 发 布 BSD. 
1994 年 6 月 ， 经 过 修改 的 系统 以 4.4BSD-Lite 之 名 发 布 (1995 年 6 月 ， 加 州 大 学 发 布 了 最 
后 一 版 4.4BSD-Lite， 乒 本 号 为 Release 20. JE], TRIN AU ASK, BSDi. FreeBSD 以 及 NetBSD 
纷纷 以 经 过 修改 的 4.4BSD-Lite 源 公告 换 了 各 目的 Net/2 基础 源码 。 据 [McKusick et al., 1996] 
一 书记 述 ， 尽 管 这 在 一 定 程度 上 延误 了 BS 衍生 系统 的 开发 ， 但 也 有 其 积极 意义 。 加 州 大 
学 计算 机 研究 组 (Computer Systems Research Group) 自 Net/2 发 布 后 3 年 的 开发 成 果 ， 被 重 
SEFE ERRAR. 
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Linux 内 核 版 本 号 


与 大 多 自由 软件 项 目 一 样 ，Linux 也 遵循 及 早 、 经 常 的 发 布 模式 ， 因 而 对 内 核 的 修订 会 频 
繁 出 现 ( 有 了 时 甚至 是 每 天 都 有 )。 随 看 Linux 用 户 群 的 激增 ， 对 这 一 发 布 模式 有 所 调整 ， 意 在 
降低 对 现 有 用 户 的 干扰 。 具 体 来 说 ， 在 Linux1.0 版 本 之 后 ， 内 核 开 发 者 针对 每 次 发 布 所 采用 
的 内 核 版 本 编写 方案 为 xX.y.z。X 表示 主 版 本 号 ，y 为 附属 于 主 版 本 号 的 次 版 本 写 ，z 是 从 属于 
次 版 本 号 的 修订 版 本 号 《细微 的 改进 和 BUG 修复 )。 

采用 这 一 发 布 模式 ， 内 核 的 两 个 版 本 会 一 直 处 于 开发 之 中 。 一 个 是 用 于 生产 系统 的 稳定 
(stable) 分 文 ， 其 次 版 本 号 为 偶数 ; 另 一 个 是 经 常 变 动 的 开发 〈development) 分 支 ， 其 次 版 本 
号 为 奇数 〈 当 前 稳定 版 次 版 本 号 +1)。 指 导 思 想 是 〈 在 实践 中 并 未 严格 执行 ) 应 将 所 有 新 特性 添 
加 到 内 核 当 前 的 开发 分 文系 列 中 ， 而 对 内 核 稳定 分 文系 列 的 修订 应 严格 限定 为 细微 的 改进 及 bug 
修复 。 当 开发 者 认为 当前 的 开发 分 支 已 宜 于 发 布 时 ， 会 将 该 开发 分 支 转换 成 新 的 稳定 分 支 ， 并 
为 其 分 配 一 个 偶数 的 次 版 本 号 。 例 如 ， 内 核 开 发 分 文 2.3.z 会 “进化 ”为 内 核 稳定 分 文 2.4。 

随 着 2.6 内 核 的 发 布 ， 内 核 开 发 模式 再 次 发 生 改 变 。 稳 定 内 核 版 本 之 间 发 布 间 隔 过 长 ， 因 
而 导致 诸 多 问题 和 不 便 ， 这 是 内 核 开发 模型 改变 的 主要 原因 (从 Linux 2.4.0 到 2.6.0 的 发 布 历 
时 近 3 年 )。 昌 然 还 会 就 该 模型 的 微调 定期 开展 讨论 ， 但 基本 细节 已 经 确定 如 下 。 

。 不 再 有 稳定 内 核 和 开发 内 核 的 概念 。 每 个 新 的 2.6.z 发 布 版 都 可 以 包含 狐 特 性 ， 其 生 

命 周期 始 于 对 新 特性 的 退 加 ,然后 历经 一 系列 候选 发 布 版 本 让 新 特性 稳定 下 来 。 当 开发 
者 认为 某 个 候选 版 本 足够 稳定 时 ， 便 可 将 其 作为 内 核 2.6.z 发 布 。 一 般 情 况 下 ， 发 布 
周期 约 为 3 个 月 。 

e 有 上 时， 也 可 能 需要 为 某 个 稳定 的 2.6.z 发 布 版 打上 些小 补丁 程序 ， 以 修复 bug 或 安全 

问题 。 如 果 这 样 的 修复 工作 具有 足够 高 的 优先 级 ， 并 且 补 丁 程序 的 正确 性 也 “ 算 良 置疑 罗 
那么 无 需 等 待 下 一 个 2.6.z 发 布 版 ， 可 以 直接 应 用 补丁 创建 一 个 版 本 号 形 如 2.6.z.r 的 发 
布 版 本 ， 其 中 , r 作为 该 2.6.z 内 核 版 本 的 次 修订 版 序号 。 

o 额外 贡 任 将 转 尹 给 Linux 发 行 厂商 ， 由 他 们 来 确保 随 Linux 发 行 版 一 同 发 行内 核 的 稳定 性 。 

本 书后 续 各 章 有 时 会 提 及 API 发 生 特定 变化 〈 比 如 ， 新 增 了 系统 调用 或 者 系统 调用 发 生 
变化 时 ) 的 相应 内 核 版 本 。 在 2.6.z 系列 之 前 ， 虽 然 大 多 数 内 核 变化 都 见 诸 于 具有 奇数 版 本 号 
的 开发 分 文 ， 但 本 书 通 党 所 指 的 是 那些 变化 初次 出 现 的 稳定 内 核 版 本 ， 这 是 因为 大 多 数 应 用 
开发 者 一 般 都 会 使 用 稳定 版 的 内 核 ， 而 非 开 发 版 本 。 很 多 情况 下 ， 手 册页 会 注 明 某 一 具体 特 
性 出 现 或 发 生变 化 时 开 友 版 内 核 的 确切 版 本 号 。 

对 2.6.z 系列 内 核 所 发 生 的 改变 ， 本 书 会 注 明 确切 的 内 核 版 本 写 。 当 书 中 言及 2.6 版 本 内 核 
的 新 特性 ， 且 版 本 与 义 不 带 “z” 这 一 修订 版 本 与 时 ， 意 指 访 特性 是 在 2.5 开发 版 内 核 中 实现 ， 
并 首 度 出 现 于 稳定 内 核 版 本 2.6.0。 

写作 本 书 之 际 ，Linux 内 核 2.4 的 稳定 版 尚 处 于 维护 期 ， 维 护 者 们 仍 在 将 关键 性 的 补丁 


和 缺陷 修正 合并 起 来 ， 定 期 发 布 新 的 修订 版 。 这 使 得 已 安装 系统 能 继续 使 用 2.4 内 核 ， 而 不 
必 非 要 升级 到 新 的 内 核 系 列 《 有 时 候 ， 升 级 起 来 并 不 轻松 )。 























































































































向 其 他 硬件 架构 的 移植 


Linux 开发 之 初 ， 主 要 目标 是 针对 Intel 80386 的 高 效 系统 实现 ， 而 非 癌 其 他 处 理 器 架构 迁 
移 的 可 移植 性 。 然 而 ， 随 看 Linux 的 日 益 普 及 ,针对 其 他 处 理 占 架构 的 移植 版 本 开始 出 现 ， 痛 
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完 束 是 问 Digital Alpha 心 上 户 的 移植 。Linux PrsckrEBJBETEZSRJBATUEREFACHOK, Hop mud: 
x86-64. Motorola/IBM PowerPC 和 PowerPC64, Sun SPARC 和 SPARC64 (UltraSPARC), MIPS, 
ARM (Acorn), IBM zSeries (formerly System/390), Intel IA-64 (Itanium， 请 参阅 [Mosberger 
& Eranian, 2002]). Hitachi SuperH, HP PA-RISC， 以 及 Motorola 68000. 

Linux 发 行 版 

准确 说 来 ， 术 语 Linux 只 是 指 由 Linus Torvalds 和 其 他 人 所 开发 出 的 内 核 。 可 是 ， 也 常 使 
用 该 术语 来 指 代 内 核 外 加 一 大 堆 其 他 软件 (工具 和 库 〉 所 构成 的 完整 操作 系统 。Linux 草创 之 
际 ， 禹 要 用 户 上 日 行 组 闭 上 述 所 有 软件 ， 创 建文 件 系 统 ， 在 文件 系统 上 正确 地 安置 并 配置 所 有 
软件 。 用 户 不 但 要 具备 专业 知识 ， 还 需 为 此 耗费 大 量 时 间 。 如 此 一 来 ， 这 便 为 Linux 发 行商 们 
开 司 了 市 场 ， 他 们 创建 软件 包 《〈 发 行 片 )， 来 目 动 完成 大 部 分 安 钱 过 程 ， 其 中 包括 了 建立 文件 
系统 以 及 安 闭 内 核 和 其 他 所 需 软 件 等 。 

Linux 的 发 行 版 最 早出 现 于 1992 年 ， 包 括 MCC Interim Linux. (英国 ， 曼 彻 斯 特 计 算 机 中 
©), TAMU (np A&M KÆ) 以 及 SLS CSoftLanding Linux System). ESEE AI AAM. 
发 行 版 Slackware 诞生 于 1993 年 。 几 乎 与 此 同时 ， 也 诞生 了 非 商 业 的 Debian 发 行 版 ，SUSE 
和 Red Hat 紧 随 其 后 。 时 下 最 流行 的 Ubuntu 发 行 版 问世 于 2004 年 。 如 今 ， 对 于 那些 在 日 由 软 
件 项 目 中 表现 活跃 的 程序 员 ， 许 多 Linux 发 行 公司 也 会 加 以 雇佣 。 


1.3 标准 化 


20 世纪 80 年 代 末 ， 可 用 的 UNIX 实现 层出不穷 ， 由 此 也 带 来 了 种 种 次 端 。 有 些 UNIX 实 
现 基于 BSD， 而 另 一 些 则 基于 System V， 还 有 一 些 则 是 对 两 大 “流派 "“ 兼 容 并 蓄 ”。 更 有 其 者 ， 
每 个 厂商 都 在 自己 的 UNIX 实现 中 添加 了 额外 特性 。 其 结果 是 将 软件 及 技术 人 员 在 不 同 UNIX 
实现 间 转 移 就 变 得 异常 困难 。 这 一 形式 有 力 地 推动 了 C 语言 和 UNIX 系统 的 标准 化 进程 ， 使 得 
应 用 程序 能 够 在 不 同 操作 系统 间 很 方便 地 进行 移植 。 接 下 来 ， 将 介绍 由 此 而 产生 的 各 种 标准 。 


1.3.1 C 编程 语言 


20 世纪 80 年 代 初 ，C 语言 问世 已 达 10 EPZA, EKE UNIX 系统 以 及 其 他 操作 系统 上 
都 有 实现 。 各 种 C 语言 的 实现 之 则 存在 大 细微 差别 ， 这 部 分 是 由 于 在 当时 C 语言 事实 上 的 标 
准 Kernighan 和 Ritchie 于 1978 FFÆ HJ The C Programming Language 一 书 中 (有 时 ， 人 
们 将 书 中 所 记载 的 老式 C 语言 语法 称 为 传统 C 或 K&R C), JP C 语言 在 某 些 方面 的 运作 
方式 进行 细 化 。 此 外 ， 借 鉴于 1985 年 面世 的 C++ 语言 ， 在 不 破坏 现 有 程序 的 前 提 下 ，C 语言 
得 以 进一步 丰富 和 完善 ， 其 中 最 知名 的 喘 过 于 函数 原型 、 结 构 赋 值 、 类 型 限定 从 Cconst and 
volatile), MSK K void 关键 字 。 

上 述 因 素 形 成 了 C 语言 标准 化 进程 的 强力 推手 ，ANSI (美国 国家 标准 委员 会 ) C 语言 标 
准 (X3.159-1989) 最 终于 1989 年 获 批 ， 随 之 于 1990 年 被 IO (国际 标准 化 组 织 ) 所 采纳 ISO/EC 
9899:1990)。 这 份 标准 在 定义 C 语言 语法 和 语义 的 同时 ， 还 对 标准 C 语言 库 操 作 进 行 了 描述 ， 
这 包括 stdio 函数 、 衬 符 串 处 理 函 数 、 数 学 函数 、 各 种 头 文件 等 等 。 通 第 将 C 语言 的 这 一 版 本 称 
为 C89 iké CAR WU]? ISO C90, Kernighan 和 Ritchie PTH The C Programming Language 
第 2 版 (1988) 对 其 有 完整 描述 。 

1999 Œ, ISO 又 正式 批准 了 对 C 语言 标准 的 修订 版 ISO/EC 9899:1999， 请 见 http://www. 
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open-std.org/jtcl/sc22/wg14/www/standards )。 通 和 常 将 这 一 标准 称 为 C99， 其 中 包括 了 对 C 语言 
及 其 标准 库 的 一 系列 修改 ， 诺 如， 增加 了 long long 和 布尔 数据 类 型 、C++ 风 格 的 注释 UID. 
受 限 指 针 以 及 可 变 长 数组 每 。 写作 本 书 之 际 , 对 C 语言 标准 的 进一步 修订 〈 非 正式 命名 为 C1X) 
仍 在 进行 之 中 ， 预 计 将 于 2011 FERH. 

C 语言 标准 独立 于 任何 操作 系统 ， 换 言 之 , C 语言 并 不 依附 于 UNIX 系统 。 这 也 意味 着 仅仅 利 
用 标准 C 语言 库 编 写 而 成 的 C 语言 程序 可 以 移植 到 文 持 C 语言 实现 的 任何 计算 机 或 操作 系统 上 。 














回顾 历史 ， 过 去 的 ANSI C 通常 指 C89， 时 至 今日 ， 这 一 用 法 还 时 有 所 见 。GCC dx 
一 例 ， 其 限定 符 -ansi 意 指 “支持 所 有 ISO C90 程序 ” 然而 ， 本 书 会 避免 这 种 用 法 ， 因 为 如 
今 该 术语 的 含义 有 些 含糊 不 清 。 自 从 ANSI 委员 会 批准 了 C99 修订 版 之 后 ， 确 切 说 来 ， 现 
在 的 ANSI C 应 该 是 C99。 





1.3.2 HT POSIX 标准 

术语 “POSIX (可 移植 操作 系统 Portable Operating System Interface 的 缩写 )” 是 指 在 IEEE (H, 
器 及 电子 工程 师 协 会 )， 确 切 地 说 是 其 下 属 的 可 移植 应 用 标准 委员 会 (PASC, http://www.pasc.org/) 
赞助 下 所 开发 的 一 系列 标准 。PASC 标准 的 目标 是 提升 应 用 程序 在 源码 级 别 的 可 移植 性 。 














POSIX ZZ 44K H F Richard Stallman 的 建议 。 最 后 一 个 字母 之 所 以 是 “X” 是 因为 大 多 
数 UNIX 变 体 乙 名 总 以 “X” 结 尾 。 该 标准 特别 注 明 ，POSIX 应 发 首 为 “pahz-icks”， 类 似 
T "positive", 





本 书 会 天 注 名 为 POSIX.1 的 第 一 个 POSIX 和 标准， 以 及 后 续 的 POSIX2 标准 。 


POSIX.1 和 POSIX.2 


POSIX.1 于 1989 年 成 为 IEEE 标准 ， 并 在 稍 作 修订 后 于 1990 年 被 正式 采纳 为 ISO 标准 CISO/ 
IEC 9945-1:1990)。 无 法 在 线 获 得 这 一 POSIX 标准 ， 但 能 从 IEEE (http://www. ieee.org/) 购 得 。 





POSIX.1 一 开始 是 基于 一 个 更 早期 的 (1984 年 ) 非 官方 标准 , 由 名 为 /usrgroup 的 UNIX 
厂商 协会 制定 。 








符合 POSIX.1 标准 的 操作 系统 应 回程 序 提供 调用 各 项 服务 的 API，POSIX.1 文档 对 此 作 了 
规范 。 几 是 提供 了 上 述 API 的 操作 系统 都 可 被 认定 为 符合 POSIX.1 标准 。 

POSIX.1 基于 UNIX 系统 调用 和 C 语言 库 消 数 ， 但 无 需 与 任何 特殊 实现 相关 。 这 意味 看 任 
何 操作 系统 都 可 以 实现 该 接口 ， 而 不 一 定 要 是 UNIX 操作 系统 。 实 际 上 ， 在 不 对 底层 操作 系统 
大 加 改动 的 同时 ， 一 些 厂 商 通过 添加 API 已 经 使 自己 的 专 有 操作 系统 符合 了 POSIX.1 标准 。 

对 原 有 POSIX.1 标准 的 若干 扩展 也 同样 重要 。 正 式 获 批 于 1993 H IEEE POSIX 1003.1b 
(POSIX.1b， 原 名 POSIX.4 或 POSIX 1003.4) 包含 了 一 系列 对 基本 POSIX 标准 的 实时 性 扩展 。 
正式 获 批 于 1995 年 的 IEEE POSIX 1003.1c CPOSIX.1c) 对 POSIX 线程 作 了 定义 。1996 年 ， 
一 个 经 过 修订 POSIX.1 厂 本 诞生 ， 在 核心 内 容 保持 不 变 的 同时 ， 并 入 了 实时 性 和 线程 扩展 。 
IEEE POSIX 1003.1g (POSIX.1g) 定义 了 包括 套 接 字 在 内 的 网 络 API。 分 别 获 批 于 1999 年 和 
2000 年 的 IEEE POSIX 1003.1d (POSIX.1d) 和 POSIX.1j 在 POSIX 基本 标准 的 基础 上 ， 定 义 
了 附加 的 实时 性 扩展 。 






































第 1 章 ”历史 和 标准 9 
异步 社区 会 员 flyman150(2410757683@qq.com) zzz 尊重 版 权 








POSIX.Ib 实时 性 扩展 包括 文件 同步 、 异 步 JO、 进 程 调 度 、 高 精度 时 钟 和 定时 器 、 采 用 
言 号 量 、 共 享 内 存 ， 以 及 消息 队列 的 进程 间 通 信 。 这 3 种 进程 间 通 信和 方法 的 称谓 前 通 凋 冠 以 
POSIX， 以 示 其 有 别 于 与 之 类 似 而 又 较为 古老 的 System V 信号 、 共 享 内 存 以 及 消息 队列 。 
POSIX.2 (1992, ISO/IEC 9945-2:1993) 这 一 与 POSIX.1 相关 的 标准 ， 对 shell 和 包括 C 
编译 器 命令 行 接口 在 内 的 各 种 UNIX 工具 进行 了 标准 化 。 

















F151-1 和 FIPS 151-2 


FIPS 是 Federal Information Processing Standard. 〈 联 邦 信息 处 理 标 准 ) 的 缩写 ， 这 套 标 准 由 美 
国政 府 为 规范 其 对 计算 机 系统 的 采购 而 制定 。FIPS 151-1 于 1989 年 发 布 。 这 份 标准 基于 1988 年 
HJ IEEE POSIX.1 标准 和 ANSI C 语言 标准 草案 。FIPS 151-1 和 POSIX.1 (1988) 之 间 的 主要 差别 
在 于 : 某 些 对 后 者 来 说 是 可 选 的 特性 ， 对 于 前 者 来 说 是 必须 的 。 由 于 美国 政府 是 计算 机 系统 的 “大 
买 家 ”， 大 多 数 计算 机 广 商都 会 确保 其 UNIX 系统 符合 FIPS 151-1 版 本 的 POSIX.1 规范 。 

FIPS 151-2 与 POSIX.1 的 1990 ISO 版 保持 一 致 ， 但 在 其 他 方面 则 保持 不 变 。2000 4E 2 H, 
已 然 过 时 的 FIPS 151-2 标准 被 废止 。 


1.3.8 X/Open 公司 和 The Open Group 


X/Open 公司 是 由 多 家 国际 计算 机 广 商 所 组 成 的 联盟 ， 致 力 于 采纳 和 改进 现 有 标准 ， 以 制 
定 出 一 套 全 面 而 又 一 化 的 开放 系统 标准 。 该 公司 编 咎 的 《X/Open 可 移植 性 指南 》 是 一 套 基 于 
POSIX 标准 的 可 移植 性 指导 从 书 。 这 份 指 阔 的 站 个 重要 版 本 是 1989 年 发 布 的 第 三 号 (XPG3)， 
XPG4 随 之 于 1992 年 发 布 。1994 年 ，X/Open 又 对 XPG4 做 了 修订 ， 从 而 诞生 了 XPG4 版 本 2， 
其 中 吸收 了 1.3.7 WIR ATAT System V 接口 定义 第 三 号 中 的 重要 内 容 。 也 将 这 一 修订 版 称 为 
Spec 1170， 而 1170 是 指标 准 中 所 定义 的 接口 《函数 、 头 文件 及 命令 ) 数量 。 

1993 ŒH], Novell 从 AT&T 收购 了 UNIX 系统 的 相关 业务 ， 又 在 稍 后 放弃 了 这 项 业务 ， 并 将 
UNIX 商标 权 转 让 给 了 X/Open。( 这 一 转让 计划 公布 于 1993 年 ， 但 法 律 限 制 将 这 一 转让 推迟 到 
1994 4E4].) 随后 ，X/Open 又 将 XPG4 fils 2 gr Bl" 7g SUS (Single UNIX Specification) 
《有 了 时， 也 岂 SUSv1) 或 称 之 为 UNIX95。 其 内 容 包 括 : XPG4 版 本 2，X/Open Curses 规范 第 4 
写 版 本 2， 以 及 X/Opena 联网 服务 (XNS) 规范 第 4 写 。SUS 有 版 本 2 (SUSvV2, http;//www.unix. 
org/version2/online.html) 发 布 于 1997 年 ， 人 们 也 将 经 过 该 规范 认证 的 UNIX 实现 称 为 UNIX 98。 
(有 时 ， 该 规范 也 被 称 之 为 XPG5. ) 

1996 年 ，X/Open 与 开放 软件 基金 会 (OSF) 合并 ， 成 立 The Open Group。 如 今 ， 几 乎 每 家 与 
UNIX 系统 有 天 的 公司 或 组 织 和 都 是 The Open Group 的 会 员 ， 访 组 织 持续 看 对 API 标准 的 开发 。 





















































OSF 是 20 世纪 80 FAR UNIX 纷争 期 间 成 立 的 两 家 厂商 联 盟 之 一 。OSF 的 主要 成 员 
包括 Digital. IBM, HP, Apollo. Bull, Nixdorf 和 Siemens, OSF 成 立 的 主要 目的 是 为 了 
应 对 由 AT&T (UNIX 的 发 明 者 ) 和 SUN 公司 (UNIX 工作 站 市 场 的 领跑 者 ) 结盟 所 带 来 的 
Ri BEZ, AT&T, SUN 和 其 他 公司 结 成 了 与 OSF 对 抗 的 UNIX International 联盟 。 


1.3.4 SUSv3 和 POSIX.1-2001 


始 于 1999 ^E, 出 于 修订 并 加 强 POSIX 标准 和 SUS 规范 的 目的 , IEEE. Open 集团 以 及 ISO/ 
IEC 联合 技术 委员 会 共同 成 并 了 奥 斯 本 公共 标准 修订 工作 组 (CSRG,，http://www. opengroup.org/ 
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austin/)。《〈 访 工作 组 的 首次 会 议 于 1998 年 9 月 在 德州 奥 斯 ] AEF, xxt ze REEL] TRAZER 
的 由 来 。) 2001 年 12 月 ,该 工作 组 正式 批准 了 POSIX 1003.1-2001， 有 时 简称 为 POSIX.1-2001 
(随后 ， 又 获 批 为 ISO 标准 : ISO/IEC 9945:2002). 
POSIX 1003.1-2001 取代 了 SUSv2、POSIX.1、POSIX.2 以 及 大 批 的 早期 POSIX 标准 。 有 时 ， 
人 们 也 将 该 标准 称 为 Single Unix Specification 版 本 3， 本 书 在 后 续 内 容 中 将 称 其 为 SUSv3。 
SUSv3 ÆR WAA 3700 页 ， 分 为 以 下 4 部 分 。 
e 基本 定义 (XBD)， 包 含 了 定义 、 术 语 、 概 念 以 及 对 头 文件 内 容 的 规范 。 总 计 提 供 了 
84 个 头 文 件 的 规范 。 
。 系统 接口 CXSH)， 首 先 介 绍 了 各 种 有 用 的 背景 信息 。 主 要 内 容 包 含 对 各 种 函数 〈 在 特 
定 的 UNIX 实现 中 ， 这 些 函 数 要 么 是 作为 系统 调用 ， 要 么 是 作为 库 函 数 来 实现 的 ) 的 定 
义 。 忆 计 包 括 了 1123 个 系统 接口 。 
e Shell 和 实用 工具 (XCU)， 明 确定 义 了 shell 和 各 种 UNIX 命令 的 行为 。 忆 共 定 义 了 
160 个 实用 工具 的 行为 。 
。 FRH (XRAT)， 包 括 了 与 前 三 部 分 有 关 的 摘 述 性 文字 和 有 原理 说 明 。 
此 外 ，SUSv3 还 包含 了 X/Open CURSES 第 4 号 版 本 2 (XCURSES) 规范 ， 该 规范 针对 
curses 屏幕 人 处理 API 定义 了 372 个 函数 和 3 个头 文 件 。 
在 SUSv3 中 共计 定义 了 1742 个 接口 。 与 之 形成 鲜明 对 照 的 是 ，POSIX.1-1990〈 连 同 FIPS 
151-2) 定义 了 199 个 接口 ，POSIX.2-1992 定义 了 130 个 实用 工具 。 
SUSv3 规范 可 在 线 获 得 ， 网 址 是 http://www.unix.org/version3/online.html。 通 过 SUSv3 iA 
证 的 UNIX 实现 可 被 称 为 UNIX 03. 
H SUSv3 获 批 以 来 ， 人 们 针对 规范 文本 中 所 发 现 的 问题 进行 了 多 次 小 规模 的 修复 和 改进 。 
因此 而 诞生 的 1 号 技术 勘误 表 并 入 了 2003 年 发 布 的 SUSv3 修订 版 ， 而 2 号 技术 勘误 表 的 改进 
成 果 则 并 入 了 SUSv3 2004 修订 版 。 























符合 POSIX. XSI 规范 和 XSI 扩展 


回顾 历史 ，SUS (和 XPG) 标准 顺应 了 相应 POSIX 标准 , 并 被 组 织 为 POSIX 的 功能 超 集 。 
除了 对 许多 额外 接口 作出 规范 外 ，SUS 标准 还 将 诸多 被 POSIX 视 为 可 选 的 接口 和 行为 规范 作 
为 必 有 备 项 。 

XI FFA IEEE 标准 和 OPEN 集团 技术 标准 的 POSIX 1003.1-2001 来 说 (如 前 所 述 ，POSIX 
1003.1-2001 是 由 早期 的 POSIX 和 SUS 标准 合并 而 成 )， 上 述 区 别 的 存在 方式 更 显 微 妙 。 该 文 
档 定 义 了 对 规范 的 两 级 符合 度 。 

e POSIX 规范 符合 度 ， 就 符合 该 规范 的 UNIX 实现 所 必须 提供 的 接口 定义 了 基线 。 规 范 

允许 符合 度 达 标的 UNIX 实现 提供 其 他 可 选 接口 。 

e XSI (X/Open 系统 接口 [X/Open System Interface]) 规范 符合 度 ， 对 UNIX 实现 来 说 ， 

要 想 完全 符合 XSI 规范 ， 除 了 必须 满足 POSIX 规范 的 所 有 规定 之 外 ， 还 要 提供 若干 
POSIX 规范 中 的 可 选 接口 和 行为 。 只 有 这 一 规范 符合 度 达 标 ， 才 能 从 OPEN GROUP 
获得 UNIX03 称号 。 

人 们 将 XSI 规范 符合 度 达 标 所 需 的 额外 接口 和 行为 统称 为 XSI 扩 展 。 这 些 扩展 支持 以 下 特 
性 : 线程 、mmapO0 和 munmapO., dlopen API, KIPRE Ain System V IPC, syslog API, 
pollO 以 及 登录 记 账 。 

后 续 各 章 所 言及 的 “符合 SUSv3 规范 ”是 指 “ 符 合 XSI 规范 ”。 
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由 于 POSIX 和 SUSv3 目前 由 同一 份 文 档 描述 ， 故 而 在 文档 的 正文 中 ， 对 于 满足 SUSv3 
符合 度 所 需 的 额外 接口 和 强制 选项 都 以 阴影 和 边 注 形式 加 以 标明 。 





未 定义 和 未 明确 定义 的 接口 


有 时， 我 们 会 称 某 些 接口 在 SUSv3 中 “未 定义 ”或 “未 明确 定义 ”。 

未 定义 的 接口 是 指 尽管 倘 尔 会 在 背景 和 诛 理 描述 中 提 及 ， 却 根本 未 经 正式 标准 定义 过 的 接口 。 

未 明确 定义 的 接口 是 指标 准 虽 然 包 括 了 该 搁 口 ， 但 却 未 对 其 重要 细 记 进行 规范 。( 通 币 是 
由 于 现 有 接口 的 实现 差异 导致 标准 委员 会 成 员 无 法 达成 一 致 性 意见 。) 

“未 定义 ”或 “未 明确 定义 ”的 接口 一 经 使 用 ， 在 不 同 UNIX 实现 间 移 西 应 用 融 很 难得 到 
保证 。 尽 管 如 此 ， 少 数 此 类 接口 在 不 同 实 现下 的 表现 义 相 当 一 致 。 针 对 这 些 接口 ， 本 书 通 种 
会 在 提 有 及 时 一 一 指出 。 



































LEGACY 传 统 ) 特性 


书 中 有 时 会 指出 SUSv3 将 某 个 特定 特性 标记 为 LEGACY。 这 一 术语 意味 着 保留 此 特性 意 
在 与 老 应 用 程序 保持 兼容 ， 而 在 新 应 用 程序 中 应 避免 使 用 。 这 也 是 标准 对 此 特性 的 限制 所 在 。 
大 多 数 情况 下 ， 都 能 找到 与 LEGACY 特性 等 效 的 其 他 API. 


1.3.5 SUSv4 和 POSIX.1-2008 


2008 年 ， 奥 斯 丁 工作 组 完成 了 对 已 合并 的 POSIX 和 SUS 规范 的 修订 工作 。 较 之 于 之 先 
前 版 本 ， 该 标准 包含 了 基本 规范 以 及 XSI 扩 展 。 人 们 将 这 一 修订 版 本 称 为 SUSv4。 

与 SUSv3 的 变化 相 比 ，SUSv4 的 变化 范围 不 算 太 大 。 最 显 闭 的 变化 如 下 所 示 。 

e| SUSv4 为 一 系列 函数 添 加 了 狐 规 范 。 本 书 将 会 介绍 以 下 新 标准 中 定义 的 如 下 函数 : dirfd0、 
fdopendir(), fexecve(). futimens(). mkdtemp(). psignal(), strsignal) EA utimensat(Q. 5j— 
组 与 文件 相关 的 函数 ， 例 如 : openatO, A 18.11 $, MMA KAG Pa: openO. 
功能 相同 ， 其 区 别 在 于 前 者 对 相对 路 径 的 解释 是 相对 于 打开 文件 描述 符 的 捷 属 目录 而 
言 ， 而 非 相对 于 进程 的 当前 工作 目录 。 

e Afr SUSv3 中 被 定义 为 可 选 的 函数 在 SUSv4 中 成 为 基本 标准 的 必 备 部 分 。 例 如, 菏 些 
原本 在 SUSv3 中 属于 XSI 扩展 的 函数 ， 在 SUSv4 中 转 而 隶属 于 基本 标准 。 在 SUSv4 
中 转变 为 必 备 的 函数 中 包括 了 dlopen API (42.1 节 )、 实 时 信号 API (22.8 节 )、POSIX 
d 5t API (53 章 ) 以 及 POSIX 定时 器 API (23.6 节 )。 

e SUSv4 废止 了 SUSv3 中 的 某 些 困 数 ， 这 包括 asctimeO0、ctimeO、ftwO、gettimeofdayO、 
getitimer()、setitimer() 以 及 SiginterruptO 。 

e SUSv4 删除 了 在 SUSv3 中 被 标记 为 作废 的 一 些 图 数 ， 这 包括 gethostbyname()、 
gethostbyaddrO 以 及 vfork(). 

e SUSv4 对 SUSv3 现 有 规范 的 各 方面 细 市 进行 了 修改 。 例 如 ， 对 于 应 满足 异步 信号 安 
全 (async-signal-safe〉 的 函数 列表 ， 二 者 内 容 束 有 所 不 同 ( 见 表 21-1)。 

本 书后 文 会 就 所 论 及 的 相关 主题 指出 其 在 SUSv4 中 的 变化 。 


1.3.6 UNIX 标准 时 间 表 
图 1-1 总 结 了 上 述 各 节 所 述 及 各 种 标准 之 间 的 关系 ， 并 按时 间 顺 序 对 标准 进行 了 了 排列。 图 
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"PRISE TN NTETRI IT] ECOSSE ERRARE EA — BE BRA, AAA AP: Ho, 
一 个 标准 被 并 入 了 为 一 标准 ; 其 二 ， 一 个 标准 依附 于 太一 个 标准 。 


POSIX.1 
(1988, IEEE) 
[POSIX 1003.1] N 
一 | ANSI C 


(1989) 
[C89, ISO C 90] 


POSIX.1 
(1990, ISO) 


POSIX.2 
(1999) 
 POSIX.Ib Shell 和 实用 工具 
(1993) 
实时 


POSIX.1c Sockets (1994) 
(1995) [SUS, UNIX 
线程 95, Spec 1170] 


POSIX.1 7 | 
(1996, ISO) | SUSv2 
(1997) 
[UNIX 98, 
XPG5] 





POSIX. 1d | ISO C 99 
(1999) (1999) 
额外 的 实时 
性 扩展 


POSIX.jj 
(2000) 
高 级 实时 性 | POSIX.1-2001 / SUSv3 
扩展 | (2001, Austin CSRG) 
[UNIX 03] 


POSIX.1-2008 / SUSv4 - 
(2008, Austin CSRG) 


1-1: 各 种 UNIX 和 C 标准 之 间 的 关系 图 


在 网 络 标准 方面 ， 情 况 稍微 有 些 复杂 。 该 领域 的 标准 化 工作 始 于 20 世纪 80 年 代 末 期 ， 成 
立 了 POSIX 1003.12 委员 会 ， 对 套 接 字 API, XTI (X/Open 传输 接口 ) API( 另 一 套 基 于 System 
V 传输 层 接 口 的 网 络 编程 API 以 及 各 种 相关 的 API 进行 规范 。 该 标准 的 酝酿 历时 数 年 ， 并 
于 2000 年 获得 了 批准 。 其 间 ，POSIX 1003.12 被 更 名 为 POSIX 1003.1g. 

在 开发 POSIX 1003.1g 的 同时 ，X/Open 也 在 开发 目 己 的 X/Open 网 络 规范 〈(XNS )。 访 规 
1598 —hk XNS 第 4 号 隶属 于 SUS 上 自 版 。 其 后 继 版 本 为 XNS 第 5 号 ， 隶 属于 SUSv2。XNS 
第 5 号 与 当时 的 POSIX.1g ER (06.60 基本 相同 。 紧 随 其 后 的 XNS 第 5.2 号 与 XNS 第 5 号 以 
及 获 批 为 标准 的 POSIX.1g 有 所 不 同 , 将 XTIAPI 标记 为 作废 ， 并 纳入 了 于 20 世纪 90 年 代 中 
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期 开发 出 的 IPv6。XNS 第 5.2 号 构成 了 SUSv3 中 网 络 编程 相关 内 容 的 基础 ， 如 今 已 被 取代 。 
出 于 类 似 原 因 ，POSIX.1g 在 获 批 后 不 久 也 退出 了 历史 舞台 。 


1.3.7 ”实现 标准 

除了 由 独立 或 多 边 组 织 所 制定 的 标准 以 外 ， 有 时 ， 人 们 也 会 提 到 由 4.4BSD (BSD 的 最 终 
版 ) 和 SVR4 (AT&T 的 System V Release 4) 所 定义 的 两 种 实现 标准 。 后 者 随 AT&T 所 发 布 的 
SVID (System V 定义 ) 而 正式 出 台 。1989 4E, AT&T 发 布 『 SVD 第 3 号 , 定义 了 自称 为 System 
V Release 4 的 UNIX 实现 所 必须 提供 的 接口 。( 从 http://www.sco.com/ developers/devspecs/ 可 以 
下 载 到 SVID 。) 


在 BSD 和 SVR4 之 间 ， 某 些 系统 调用 和 库 函 数 的 行为 各 不 相同 ， 因 此 ， 许 多 UNIX 实 
现 都 提供 了 兼容 函数 库 和 条 件 编译 工具 ， 可 仿效 并 非特 定 UNIX 实现 “本 色 ” 的 任意 一 种 
UNIX 特性 请 参见 3.6.1 节 )。 这 减轻 了 从 另 一 UNIX 实现 移植 应 用 程序 的 负担 。 














1.83.8 Linux、 标 准 、Linux 标准 规范 ( Linux Standard Base ) 


遵守 各 种 UNIX 标准 ， 尤 其 是 符合 POSIX 和 SUS 规范， 是 Linux 〈 即 内 核 、glibc URE 
HO 开发 的 总 体 目标 。 可 是 ， 在 写作 本 书 之 际 ， 尚 无 Linux 发 行 版 被 The Open group 授予 “UNIX” 
商标 。 造 成 这 一 问题 的 主要 原因 不 外 乎 是 时 间 和 费用 。 为 了 获得 这 一 冠 名 ， 每 个 三 商 的 发 行 
版 都 要 经 受 规范 符合 度 检 查 ， 每 当 有 新 的 发 行 厂 诞生 ， 还 需 重 复 执行 上 述 检查 。 不 过 ， 正 是 
由 于 Linux 实际 上 几 近 于 符合 各 种 UNIX 标准 ， 才 令 其 在 UNIX 市 场 上 如 此 成 功 。 

对 于 大 多 数 商 业 UNIX 实现 来 说 ， 都 是 由 同一 家 公司 来 开发 和 发 布 操作 系统 的 。Linux 则 
有 所 不 同 ， 其 实现 与 太行 是 分 开 的 ， 多 家 组 织 一 一 无 论 是 商业 性 质 还 是 非 商 业 性 质 一 一 都 握 有 
Linux 的 发 行 权 。 

Linus Torvalds 并 不 参与 或 文 持 任 一 特定 Linux 发 行 版 的 发 行 。 然 而 ， 就 参与 Linux 开发 
的 其 他 人 而 言 , 情况 更 为 复杂 。 许 多 从 事 Linux. 内 核 及 其 他 目 由 软件 项 目 开 发 的 人 员 要 么 受 雇 
于 各 家 Linux 发 行 疝 ， 要 人 么 就 职 于 对 Linux 抱 有 浓厚 兴趣 的 某 些 公司 (诸如 IBM 和 HP). iX 
些 公 司 允 许 其 程序 员 为 特定 Linux 项 目的 开发 投入 一 定 的 工作 时 间 ， 这 虽然 对 Linux 的 发 展 方 
向 有 上 所 影响 ， 但 还 没有 哪 家 公司 能 够 真正 左右 Linux 的 开发 。 更 何况 ， 很 多 参与 Linux 和 GUN 
项 目的 其 他 开发 者 都 是 义工 。 


写作 本 书 之 际 ，Torvalds 受 雇 成 为 Linux 基金 会 会 员 Chttp://www.linux- foundation. org, 
之 前 的 开源 人 码 发 展 实验 室 OSDL)， 该 基金 会 是 一 家 由 多 个 商业 和 非 商 业 组 织 组 成 的 非 赢利 
性 联盟 ， 旨 在 推动 Linux 的 成 长 。 


由 于 Linux 的 发 行商 众多 , 并 且 内 核 的 开发 者 又 无 法 控制 Linux 发 布 版 的 内 容 ， 因 此 还 没 
有 诞生 “标准 ”的 商业 Linux。 一 般 情况 下 ， 每 家 Linux 发 行商 所 提供 的 内 核 都 是 基于 某 特 定 
时 间 点 发 布 的 主要 内 核 〈 比 如 Torvalds) 版 本 的 快照 ， 最 多 不 过 针对 其 打上 几 个 补丁 。 发 行商 
普 志 认为， 这 些 补 丁 所 提供 的 特性 可 以 在 一 定 程 度 上 迎合 商业 需求 ， 从 而 能 够 提高 市 场 竞 争 
力 。 在 某 些 情况 下 ， 主 要 内 核 版 本 稍 后 会 打上 这 些 补 本 。 实 际 上 ， 某 些 新 内 核 特性 最 初 正 是 
由 某 个 Linux 发 行商 开发 而 成 , 最 终 被 纳入 主要 内 核 版 本 之 前 , 这 些 新 特性 早已 随 着 发 行商 的 
Linux 发 布 碑 销售 了 。 人 例如， 被 正式 纳入 主线 2.4 内 核 版 本 之 前 ， 版 本 3 的 Reiserfs 日 志文 件 
服务 器 已 经 随 着 某 些 Linux 发 布 版 销售 很 长 时 间 了 。 
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Er y ie xs Pr LU CAS E IR] Linux 改行 公司 提供 的 系统 《往往 ) 存在 〈 细 微 的 ) zc 
别 。 这 使 人 在 一 定 程 度 上 不 禁 想 起 在 UNIX 发 展 之 初 ， 其 实现 方面 所 存在 的 各 种 甜 异 。 为 了 
保证 不 同 Linux 发 布 版 之 间 的 兼容 性 ，LSB 付出 了 不 懈 的 努力 。 为 了 达成 上 述 愿 望 ，LSB 
(http://www.linux-foundation.org/en/LSB) FEŻ IE f —£ Linux 系统 标准 ， 其 主要 目的 是 用 
来 确保 让 二 进 制 应 用 程序 〈 即 编译 过 的 程序 ) 能 够 在 任何 符合 LSB 规范 的 系统 上 运行 。 




















H LSB 所 推广 的 二 进 制 可 移植 性 与 POSIX 押 推 广 的 源码 可 移植 性 可 谓 “ 一 时 瑜 亮 ” 源 
人 码 可 移植 性 是 指 以 C 语言 编写 的 程序 可 在 任何 符合 POSIX 规范 的 系统 上 编 详 并 运行 。 而 二 
进 制 可 移植 性 则 要 苛刻 得 多 ， 通 第 ， 只 要 便 件 平台 不 一 ， 便 无 法 实现 。 二 进 制 可 移植 性 允 
许 我 们 在 茶 特 定 平台 上 将 程序 一 次 编译 “成 型 ” 然后 ， 便 可 在 任何 符合 LSB 标准 的 Linux 
实现 上 运行 该 编译 好 的 程序 ， 当 然 ， 符 合 LSB 标准 的 Linux 实现 必须 运行 在 相同 的 硬件 平 
ELE. HTE Linx 上 开发 应 用 程序 的 独立 软件 开发 商 来 说 ， 二 进 制 可 移植 性 是 其 生存 
的 基本 前 捉 。 























1.4 ER 


1969 Œ, NRE (AT&T 的 一 个 部 门 ) HJ Ken Thompson 在 Digital PDP-7 小 型 机 上 
首次 实现 了 UNIX. 系统 。 对 该 操作 系统 而 言 ， 无 论 是 理念 还 是 其 双关 语 的 称谓 都 来 源 于 早期 
的 MULTICS 系统 。 时 至 1973 F, UNIX 已 经 被 移植 到 了 PDP-11 小 型 机 上 ， 并 以 C 语言 对 其 
进行 了 重 写 ，C 编程 语言 是 由 贝尔 实验 室 的 Dennis Ritchie 设计 并 实现 的 。 因 为 法 律 禁 |! 上 AT&T 
销售 UNIX， 于 是 ， 在 象征 性 地 收取 了 一 定 的 费用 之 后 ，AT&T 索性 将 UNIX 系统 散布 进 了 大 
和 学。 这 其 中 便 包 括 了 源码 ， 因 为 这 一 廉价 操作 系统 的 代码 可 供 大 学 计算 机 系 的 师 生 研究 和 修 
改 ， 故 而 这 一 操作 系统 在 校园 内 广 受 欢 迎 。 

在 UNIX 系统 的 开发 方面 ， 加 州 大 学 们 克利 分 校 扮 汗 了 “关键 先生 ”。 在 该 校 ，Ken 
Thompson 及 一 干 研 究 生 又 对 这 一 操作 系统 进行 了 “ 精 雕 细 琢 ”到 了 1979 年 ， 这 所 大 学 发 布 
了 属于 上 自己 的 UNIX 发 布 版 一 一 BSD。 这 一 发 布 版 在 学 术 界 广 为 流 传 ， 并 在 日 后 成 为 某 些 商 
业 UNIX 实现 的 基石 。 

在 此 期 间 ， 随 着 AT&T 不 再 对 电信 市 场 形 成 垄断 ， 该 公司 被 获准 销售 UNIX。 这 也 束 众 
生出 了 另 一 种 UNIX 的 变种 一 一 System V， 日 后 ， 它 也 成 为 了 某 些 商业 UNIX 实现 的 基石 。 

有 两 股 不 同 的 漳 流 引领 看 CGNU/D Linux 的 开发 。 其 中 之 一 便 是 由 Richard Stallman Hre 
的 GNU 项 目 。20 世纪 80 年 代 末 ，GNU 项 目 已 经 开发 出 了 一 套 儿 乎 完备 且 可 以 自由 分 发 的 
UNIX 实现 ， 但 独 缺 一 颗 能 够 有 效 运 作 的 内 核 。1991 Œ, Linus Torvalds 被 Minix 内 核 (由 Andrew 
Tanenbaum 编号 )“ 有 灵魂 附 体 ” 于 是 便 开 发 出 了 一 条 能 够 在 Intel x86-32 染 构 上 正常 运作 的 内 
核 。 应 Torvalds 之 邀 ， 许 多 其 他 程序 员 也 加 入 到 了 改进 内 核 的 行列 中 。 随 着 时 光 的 流逝 ， 在 

干 程序 员 的 不 懈 努 力 下 ，Linux 逐渐 发 展 壮大 ， 并 被 移植 到 了 多 种 便 件 架构 之 上 。 

20 世纪 80 FRR, UNIX 和 C 语言 的 实现 “百花 齐 放 ” 所 引发 的 可 移植 性 问题 迫使 人 
们 开展 针对 以 上 两 者 的 标准 化 工作 。1989 年 ， 对 C 语言 的 标准 化 工作 完成 〈C89 WMA), Æ 
1999 年 ， 对 C89 这 一 标准 进行 了 修订 (C99 颁布 )。 在 操作 系统 接口 方面 ， 对 其 标准 化 的 “第 
一 次 吃 螃 蟹 ” 便 催生 出 了 POSIX.1, 1988 年 和 1990 ^E, IEEE 和 ISO 先后 将 POSIX.1 采纳 为 
标准 。20 世纪 90 年 代 ， 人 们 又 开始 酝酿 一 个 蜗 括 各 版 SUS 在 内 的 更 为 详尽 的 标准 。2001 F, 
合 二 为 一 的 POSIX 1003.1-2001 和 SUSv3 标准 颁布 。 该 标准 合并 并 扩展 了 先前 的 POSIX 标准 和 
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各 版 SUS。2008 年 ， 人 们 完成 了 对 该 标准 的 修订 〈 改 动 幅 度 不 算 太 大 ) TE, 于是, 合 二 为 一 的 
POSIX 1003.1-2008 和 SUSv4 标准 浮 出 水 面 。 

与 大 多 数 商 业 UNIX 实现 不 同 ，Linux 的 开发 与 发 行 可 谓 “ 风 蕊 牛 不 相 及 ”。 因 此 ， 并 无 
单一 的 “官方 ”Linux 发 布 版 。 各 家 Linux 发 行商 所 提供 的 只 是 当前 稳定 内 核 的 快照 ， 最 多 人 针 
对 其 打 几 个 补丁 。LSB 开发 并 推广 了 一 套 Linux 系统 标准 ， 其 主要 目的 是 用 来 保证 二 进 制 应 
用 程序 〈 即 编译 过 的 过 程 ) 在 不 同 Linux 发 布 厂 之 间 的 兼容 性 ， 以 便 编 译 过 的 应 用 程序 能 够 运 
行 在 任何 符合 LSB 规范 的 操作 系统 上 ， 但 前 提 是 操作 系统 所 运行 的 便 件 平台 必须 相同 。 























进 阶 阅读 

KELAK UNIX. 历史 及 标准 的 信息 ， 请 参阅 [Ritchie,1984]、[MCcKusick et al.,1996]、 
[McKusick & Neville-Neil, 2005]. [Libes & Ressler,1989]. [Garfinkel et al., 2003]. [Stevens & 
Rago, 2005]. [Stevens, 1999]. [Quartermann & Wilhelm, 1993]. [Goodheart & Cox, 1994] 以 及 
[McKusick, 1999], 

[Salus，1994] 是 一 本 许 尽 的 UNIX 编 午 史 ， 本 革 开 访 的 许多 内 容 均 取 目 该 书 。[Salus, 2008] 回 
Bu f Linux 和 其 他 目 由 软件 项 目的 简 史 。 此 外 ， 与 UNIX 历史 相关 的 许多 细 广 都 可 以 在 Ronda 
Hauben 所 车 的 在 线 书 籍 History of UNIX 中 找到 。 在 http:/www.dei.isep.ipp.pt/~acc/ docs/unix.html 
上 ， 可 下 载 到 该 书 。 在 http:/www.levenez.comunix/ 上 ， 刊 载 了 一 张 非 党 详尽 的 、 显 示 了 各 种 UNIX 
实现 版 本 变迁 的 时 间 表 。 

[Josey，2004] 概 括 了 UNIX 系统 和 SUSv3 发 展 的 历史 ， 在 指导 读者 如 何 使 用 SUSv3 规范 
的 同时 ， 还 提供 了 SUSv3 所 合 接 口 的 汇总 表 ， 除 此 之 外 ， 还 给 出 了 从 SUSv2 和 C89 升级 到 
SUSv3 和 C99 的 迁移 指南 。 

除了 提供 软件 和 文档 之 外 ，GNU Web 站 点 (http://www.enu.org/) 还 刊载 了 许多 与 日 由 软 
件 项 目 有 关 的 哲学 性 文章 。[Williams, 2002] 是 一 本 Richard Stallman 的 个 人 传记 。 

在 [Torvalds & Diamond, 2001] 中 ，Torvalds 提供 了 上 自己 用 作 Linux 开发 的 私人 账户 。 
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A E fE 8] Linux 和 UNIX“ 生 手 ” 们 介绍 一 系列 与 Linux 系统 编程 有 天 的 概念 。 





2.1 操作 系统 的 核心 内 核 


术语 “操作 系统 ” 通 冲 包含 两 种 不 同 侣 义 。 
1. 指 完整 的 软件 包 ， 这 包括 用 来 官 理 计算 机 资源 的 核心 层 软件 ， 以 及 附 市 的 所 有 标准 软 
件 工具 ， 诸 如 命令 行 解 释 硕 、 疼 形 用 户 界 面 、 文 件 操作 工具 和 文本 编辑 需 等 。 

2. 在 更 狭义 的 范围 内 ， 古 指 管理 和 分 配 计算 机 资源 〈 即 CPU、RAM 和 设备 ) 的 核心 层 软件 。 

术语 “和 六 核 ” 通 种 是 第 二 种 人 台 义 ， 本 书 中 的 “操作 系统 ”一 词 也 征 这 层 意思 。 

虽然 在 没有 内 核 的 情况 下 ， 计 算 机 也 能 运行 程序 ， 但 有 了 内 核 会 极 大 简化 其 他 程序 的 纺 
写 和 使 用 ， 令 程序 员 “ 功 力 ” 大 进 、 游 用 有 余 。 这 要 归功 于 内 核 为 管理 计算 机 的 有 限 资源 所 
提供 的 软件 层 。 






































一 般 情 况 下 ，Linux 内 核 可 执行 文件 采用 /boot/vmlinuz 或 与 之 类 似 的 路 径 名 。 而 文件 
名 的 来 历 也 占有 济源。 早期 的 UNIX 实现 称 其 内 核 为 UNIX。 在 后 续 实 现 了 虚拟 内 存 机 制 
的 UNIX 系统 中 ， 其 内 核 名 称 变 更 为 vmunix。 对 Linux 来 说 ， 文 件 名 称 中 的 系统 名 需要 
WA, MWA “z” B “linux” RÆK “x”, 意 在 表明 内 核 是 经 过 压缩 的 可 执行 文件 。 





内 核 的 职责 
内 核 所 能 执行 的 主要 任务 如 下 所 不 。 
。 进程 调度 : 计算 机 内 均 配 备 有 一 个 或 多 个 CPU 【中央 处 理 单元 )， 以 执行 程序 指令 。 
与 其 他 UNIX 系统 一 样 ，Linux 属于 抢占 式 多 任务 操作 系统 。“ 多 任务 ” 意 指 多 个 进 
程 《 即 运行 中 的 程序 ) 可 同时 驻 留 于 内 存 ， 且 每 个 进程 都 能 获得 对 CPU 的 使 用 权 。 
“抢占 ” 则 是 指 一 组 规则 。 这 组 规则 控制 看 哪些 进程 获得 对 CPU 的 使 用 ， 以 及 每 个 
进程 能 使 用 多 长 时 间 ， 这 两 者 都 由 内 核 进程 调度 程序 〈 而 非 进程 本 身 ) 决定 。 
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e AFE: 以 一 二 十 年 前 的 标准 来 看 ， 如 今 计 算 机 的 内 存 容 量 可 谓 相 当 可 观 ， 但 软 
件 的 规模 也 保持 了 相应 地 增长 ， 故 而 物理 内 存 CRAMO 仍然 属于 有 限 资源 ， 内 核 必 
须 以 公平 、 高 效 地 方式 在 进程 间 共 享 这 一 资源 。 与 大 多 数 现 代 操 作 系 统一 样 ，Linux 
也 采用 了 虚拟 内 存 管理 机 制 (6.4 节 )， 这 项 技术 主要 具有 以 下 两 方面 的 优势 。 

- ， 进程 与 进程 之 间 、 进 程 与 内 核 之 间 役 此 隔离 ,因此 一 个 进程 无 法 谈 取 或 修改 内 核 
或 其 他 进程 的 内 存 内 容 。 

- ”只 需 将 进程 的 一 部 分 保持 在 内 存 中 ， 这 不 但 降低 了 每 个 进程 对 内 存 的 需求 量 ， 而 
日 还 能 在 RAM 中 同时 加 载 更 多 的 进程 。 这 也 大 幅 提 升 了 如 下 事件 的 发 生 概 率 ， 
在 任 一 时 刻 ，CPU 都 有 至 少 一 个 进程 可 以 执行 ， 从 而 使 得 对 CPU 资源 的 利用 更 
ME 

e 提供 了 文件 系统 内核 在 磁盘 之 上 提供 有 文件 系统 ， 人 允许 对 文件 执行 创建 、 获 取 、 更 新 
以 及 删除 等 操作 。 

e 创建 和 终止 进程 : 内 核 可 将 新 程序 载 入 内 存 ， 为 其 提供 运行 所 需 的 资源 〈 比 如 ，CPU、 
内 存 以 及 对 文件 的 访问 等 )。 这 样 一 个 运行 中 的 程序 我 们 称 之 为 “进程 ” 一 旦 进程 执行 
完毕 ， 内 核 还 要 确保 释放 其 占用 资源 ， 以 供 后 续 程 序 重 新 使 用 。 

e 对 设备 的 访问 : 计算 机 外 接 设备 〈 鼠 标 、 键 租 、 倒 和 柱 和 倒 带 张 动 器 等) 可 实现 计算 机 与 
外 部 世界 的 通信 ， 这 一 通信 机 制 包 括 输 入 、 输 出 或 是 两 者 兼 而 有 之 。 内 核 既 为 程序 访 
间 设 备 提供 了 简化 版 的 标准 接口 ， 同 时 还 要 仲裁 多 个 进程 对 每 一 个 设备 的 访问 。 

e 联网 :内核 以 用 户 进 程 的 名 义 收 友 网 络 消 恩 〈 数 据 包 )。 访 任务 包括 将 网 络 数据 包 足 
由 全 目标 系统 。 

e 提供 系统 调用 应 用 编程 接口 CAPI: 进程 可 利用 内 核 入 口 点 (也 称 为 系统 调用 ) 请 求 
内 核 去 执行 各 种 任务 。Linux 系统 调用 API 是 本 书 的 主题 。3.1 市 会 详细 接 述 进程 在 执 
行 系统 调用 时 所 经 历 的 步骤 。 

除了 上 述 特 性 外 ， 一 般 而 言 ， 诸 如 Linux 之 类 的 多 用 户 操作 系统 会 为 每 个 用 户 和 营造 一 种 

jid: 虚拟 私有 计算 机 Cvirtual private computer)。 这 就 是 说 ， 每 个 用 户 都 可 以 登录 进入 系 
统 ， 独 立 操 作 ， 而 与 其 他 用 户 大 致 无 干 。 例 如 ， 每 个 用 户 都 有 属于 上 自己 的 磁盘 存储 空间 CE 
目录 )。 再 者 ， 用 户 能 够 运行 程序 ， 而 每 一 程序 都 能 从 CPU 资源 中 “分 得 一 杯 材 ” 运转 于 
自 有 的 虚拟 地 址 空间 中 。 而 且 这 些 程序 还 能 独立 访问 设备 ， 并 通过 网 络 传递 信息 。 内 核 负 责 
解决 《多 进程 ) 访问 便 件 资源 时 可 能 引发 的 冲突 ， 用 户 和 进程 对 此 则 往往 一 无 所 知 。 


内 核 态 和 用 户 态 


现代 处 理 颖 涤 构 一 般 允 许 CPU 人 至少 在 两 种 不 同 状 态 下 运行 , 即 : 用 户 态 和 核心 态 (有 
时 也 称 之 为 监管 态 supervisor mode)。 执 行 便 件 指 令 可 使 CPU 在 两 种 状态 间 来 回 切 换 。 与 
之 对 应 ， 可 将 虚拟 内 存 区 域 划分 (标记 〉 为 用 户 空 间 部 分 或 内 核 空间 部 分 。 在 用 户 态 下 运 
行 时 ，CPU 只 能 访问 被 标记 为 用 户 空间 的 内 存 ， 试 网 访问 属于 内 核 空 间 的 内 存 会 引发 硬件 
寞 第 。 当 运行 于 核心 态 时 ，CPU 既 能 访问 用 户 空 间 内 存 ， 也 能 访问 内 核 空 间 内 存 。 

仅 当 处 理 器 在 核心 态 运 行 时 ， 才 能 执行 某 些 特定 操作 。 这 样 的 例子 包括 : 执行 宕 机 Chal. 指 
令 去 关闭 系统 , 访问 内 存 管 理 人 硬件 ， 以 及 设备 VO 操作 的 初始 化 等 。 实 现 者 们 利用 这 一 便 件 设 
计 ， 将 操作 系统 置 于 内 核 空间 。 这 确保 了 用 户 进 程 既 不 能 访问 内 核 指 令 和 数据 结构 ， 也 无 法 
执行 不 利于 系统 运行 的 操作 。 
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以 进程 及 内 核 视角 检视 系统 

在 完成 诸多 日 党 编程 任务 时 ， 程 序 员 们 习惯 于 以 面 生 进程 (process-oriented) 的 思维 方式 来 
考 卡 编程 问题 。 然 而 ， 在 研究 本 书后 续 所 涵盖 的 各 种 主题 时 ， 读 者 有 必要 转换 视角 ， 站 在 内 核 的 
角度 上 来 看 问题 。 为 突显 二 者 间 的 差 寞 ， 本 书 接 下 来 会 分 别 从 进程 和 内 核 视角 来 检视 系统 。 

一 个 运行 系统 通常 会 有 多 个 进程 并 行 其 中 。 对 进程 来 说 ， 许 多 事件 的 发 生 都 无 法 预期 。 
执行 中 的 进程 不 清楚 目 己 对 CPU 的 占用 何 时 “到 期 ” 系统 随 之 又 会 调度 哪个 进程 来 使 用 
CPU《 以 及 以 何 种 顺序 来 调度 )， 也 不 知道 自己 何 时 会 再 次 获得 对 CPU 的 使 用 。 信 和 号 的 传递 
和 进程 间 通 信和 事件 的 触发 由 内 核 统一 协调 ， 对 进程 而 言 ， 随 时 可 能 发 生 。 诸 如 此 类 ， 进 程 都 
一 无 所 知 。 进 程 不 清楚 上 自己 在 RAM 中 的 位 置 。 或 者 换 种 更 通用 的 说 法 ， 进 程 内 存 衬 间 的 某 
块 特 定 部 分 如 今 到 底 是 驻 留 在 内 存 中 还 是 被 保存 在 交换 空间 《磁盘 宇 间 中 的 保留 区 域 ， 作 为 
计算 机 RAM 的 补充 ) 里 ， 进 程 本 刁 并 不 知晓 。 与 之 类 似 ， 进 程 也 疗 不 清 目 己 所 访问 的 文件 
“居于 ”位 盘 驱 动 右 的 何 处 ， 只 是 通过 名 称 来 引用 文件 而 已 。 进 程 的 运作 方式 堪 称 “与 世 隔 
绝 ” 一 一 进程 间 彼 此 不 能 直接 通信 。 进 程 本 身 无 法 创建 出 狐 进 程 ， 哪 怕 “ 自 行 了 断 ” 都 不 行 。 
最 后 还 有 一 点 ， 进 程 也 不 能 与 计算 机 外 接 的 输入 输出 设备 直接 通信 。 

相形 之 下 ， 内 核 则 是 运行 系统 的 中 枢 所 在 ， 对 于 系统 的 一 切 无 所 不 知 、 无 所 不 能 ， 为 系统 上 
所 有 进程 的 运行 提供 便利 。 由 哪个 进程 来 接 掌 对 CPU 的 使 用 ， 何 时 “接任 ”“ 任 期 ”多 和 久 ， 孝 
由 内 核 说 了 算 。 在 内 核 维 护 的 数据 结构 中 ,包含 了 与 所 有 正在 运行 的 进程 有 关 的 信息 。 随 看 进程 
的 创建 、 状 态 发 生变 化 或 者 终结 ， 内 核 会 及 时 更 新 这 些 数据 结构 。 内 核 所 维护 的 底层 数据 结构 可 
将 程序 使 用 的 文件 名 转换 为 磁盘 的 物理 位 置 。 此 外 ,每 个 进程 的 虚拟 内 存 与 计算 机 物理 内 存 及 位 
可 交换 区 之 间 的 映射 关系 ,也 在 内 核 维护 的 数据 结构 之 列 。 进 程 间 的 所 有 通信 和 都 要 通过 内 核 提 供 
的 通信 机 制 来 完成 。 啊 应 进程 发 出 的 请 求 ， 内 核 会 创建 新 的 进程 ， 终 结 现 有 进程 。 最 后 ， 由 内 核 
(特别 是 设备 驱动 程序 ) 来 执行 与 输入 /输出 设备 之 间 的 所 有 直接 通信 , 按 需 与 用 户 进程 交互 信息 。 

本 书后 续 内 容 中 会 出 现 如 下 措 拜 ， 例 如 :“ 某 进程 可 创建 男 一 个 进程 ””“ 某 进程 可 创建 管 
道 ”“ 某 进程 可 将 数据 写 入 文件 ” 以 及 “调用 exitO 以 终止 某 进程 ” 请 务必 牢记 ， 以 上 所 有 
动作 都 是 由 内 核 来 居中 “调停 >” 上面 的 说 法 不 过 是 “ 某 进 程 可 以 请 求 内 核 创建 另 一 个 进程 ” 
的 缩 略 语 ， 以 此 关 推 。 

























































































进 阶 阅读 

涵盖 操作 系统 概念 和 设计 ， 尤 其 是 对 UNIX 操作 系统 加 以 重点 关注 的 现代 教科 书包 括 : 
[Tanenbaum, 2007]. [Tanenbaum & Woodhull,2006] 以 及 [Vahalia, 1996], 最 后 一 本 包含 了 与 虚拟 
内 存 架 构 有 关 的 详细 内 容 。[Goodheart & Cox, 1994] 详 细 介 绍 了 System V Release 4. [Maxwell, 
1999] 则 是 有 选择 性 地 针对 Linux 2.2.5 的 部 分 内 核 源码 进行 了 注释 。[Lions，1996] 对 第 六 版 
UNIX 源码 进行 了 评 尽 阐释 ， 并 一 直 古 研究 UNIX 损 作 系统 内 项 的 入 门 级 经 典 。[Bovet & Cesati, 
2005] 描 述 了 Linux2.6 内 核 的 实现 。 











2.2 Shell 

shell 是 一 种 具有 特殊 用 途 的 程序 ， 主 要 用 于 读 取 用 户 输入 的 命令 ， 并 执行 相应 的 程序 以 
响应 命令 。 有 时 ， 人 们 也 称 之 为 命令 解释 器 。 

术语 登录 shell (login shell) 是 指 用 户 刚 登录 系统 时 ， 由 系统 创建 ， 用 以 运行 shell 的 进程 。 
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尽管 某 些 操 作 系 统 将 命令 解释 器 集成 于 内 核 中 ， 而 对 UNIX 系统 而 言 ，shell 只 是 一 个 用 户 进 
程 。shell 的 种 类 或 多 ， 登 入 同一 台 计 算 机 的 不 同 用 户 同时 可 使 用 不 同 的 shell GLACE 
说 ， 和 情况 也 一 样 )。 纵 观 UNIX 历史 ， 出 现 过 以 下 几 种 重要 的 shell. 
e Bourne shell (sh): 这 款 由 Steve Bourne 编写 的 shell HEENA, HYH Z, ÑE 
第 七 版 UNIX 的 标 配 shell; Bourne shell 包含 了 在 其 他 shell 中 第 见 的 许多 特性 ，LIO EE 
向、 管道 、 文 件 名 生成 〈 通 配 符 )、 变 量 、 环 境 变量 处 理 、 命 令 奉 换 、 后 台 命 令 执行 
以 及 函数 。 对 于 所 有 问世 于 第 七 成 UNIX 之 后 的 实现 而 言 ， 除 了 可 能 提供 有 其 他 shell 
Z5 Wu I Bourne shell. 
e  Cshell (csh): 由 Bill Joy 于 加 州 大 学 伯克利 分 校 编 写 而 成 。 其 命名 则 源 于 该 脚本 语言 
的 流 控 制 语法 与 C 语言 有 着 许多 相似 之 处 。C shell 当时 提供 了 若干 极为 实用 的 交互 式 
特性 ， 并 不 为 Bourne shell 所 文 择 ， 这 其 中 包括 命令 的 历史 记录 、 命 令 行 编辑 功能 、 
任务 控制 和 别名 等 。C shell 与 Bourne shell 并 不 兼容 。 尽管 C shell 曾 是 BSD 系统 标 配 
的 交互 式 shell， 但 一 般 情 况 下 ， 人 们 还 是 喜欢 针对 Bourne shell 编写 shell 脚本 《〈 稍 后 
介绍 )， 以 便 其 能 够 在 所 有 UNIX 实现 上 移植 。 
e Korn shell (ksh): AT&T JIKE ZJ David Korn 编写 了 这 球 shell, 作为 Bourne shell 
的 “继任 者 ”。 在 保持 与 Bourne shell 兼容 的 同时 ，Korn shell 还 吸收 了 那些 与 C shell 
相 类 似 的 交互 式 特性 。 
e Bourne again shell (bash): XX3X shell 是 GNU 项 目 对 Bourne shell 的 重新 实现 。Bash 
提供 了 与 C shell 和 Korn shel 所 类 似 的 交互 式 特 性 。Brian Fox 和 Chet Ramey 是 bash 
的 主要 作者 。bash 或 许 是 Linux 上 应 用 最 为 广泛 的 shell 了 。 在 Linux E, Bourne shell 
(sh) 其 实 正 是 由 bash 仿真 提供 的 。 
































POSIX.2-1992 基于 当时 的 Korn shell 版 本 定义 了 一 个 shell 标准 。 如 今 ，Korn shell 和 
bash 都 符合 POSIX 规范 ， 但 两 者 都 提供 了 大 量 对 标准 的 扩展 ， 其 扩展 之 则 存在 许多 甘 寞 。 





设计 shell 的 目的 不 仅仅 是 用 于 人 机 交互 ， 对 shell 脚本 (包含 shell 命令 的 文本 文件 ) 进 
行 解释 也 是 其 用 途 之 一 。 为 实现 这 一 目的 ， 每 款 shell 都 内 置 有 许多 通常 与 编程 语言 相关 的 功 
能 ， 其 中 包括 变量 、 循 环 和 条 件 语句 、LO 命令 以 及 函数 等 。 

& 管 在 语法 方面 有 所 差异 ， 每 款 shell 执行 的 任务 都 大 致 相同 。 除 非 指明 是 某 款 特定 shell 的 
操作 ， 否 则 书 中 的 “shell” 都 会 按 所 描述 的 方式 运作 。 本 书 绝 大 多 数 需要 用 到 shell 的 示例 都 会 使 
用 bash， 若 无 其 他 说 明 ， 读 者 可 假定 这 些 示例 也 能 以 相同 方式 在 其 他 类 Bourne 的 shell. 上 运行 。 























2.3 ”用户 和 组 


系统 会 对 每 个 用 户 的 身份 做 唯一 标识 ， 用 户 可 隶属 于 多 个 组 。 











Hn 

系统 的 每 个 用 户 都 拥有 唯一 的 登录 名 《用户 名 〉 和 与 之 相对 应 的 整数 型 用 户 DD (UD). RAR 
f Y f E/ete/passwd 为 每 个 用 户 都 定义 有 一 行 记录 ， 除 了 上 述 两 项 信息 外 ， 该 记录 还 包含 如 下 信息 。 

e 组 ID: 用 户 所 属 第 一 个 组 的 整数 型 组 ID. 

e 主 目 录 : 用 户 登 录 后 所 居于 的 初始 目录 。 
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。 登录 shell: 执行 以 解释 用 户 命令 的 程序 名 称 。 
该 记录 还 能 以 加 密 形 了 式 保存 用 户 密 码 。 然 而 ， 出 于 安全 考 夸 ， 用 户 密码 往往 存储 于 单独 
的 shadow 密码 文件 中 ， 仅 供 特权 用 户 阅 读 。 








组 

出 于 管理 目的 ， 尤 其 是 为 了 控制 对 文件 和 其 他 资源 的 访问 ， 将 多 个 用 户 分 组 是 非常 实用 
的 做 法 。 例 如 ， 茶 项 目的 开发 团队 人 员 需 要 共 孚 同一 组 文件 ， 就 可 以 将 他 们 编 为 同一 组 的 成 
员 。 在 早期 的 UNIX 实现 中 ， 一 个 用 户 只 能 隶属 于 一 个 组 。BSD 率先 允许 一 个 用 户 同时 属于 
多 个 组 ， 这 一 理念 后 来 家 其 他 UNIX 实现 纷纷 效仿 ， 并 最 终 成 为 POSIX.1-1990 标准 。 每 个 用 户 
组 都 对 应 看 系统 组 文件 /etc/group 中 的 一 行 记录 ， 访 记录 包含 如 下 信息 。 

e HZ: 《唯一 的 ) 组 名 称 。 

e 组 ID (GD): 与 组 相关 的 整数 型 ID。 

e 用 户 列 表 : 隶属 于 该 组 的 用 户 登 录 名 列表 (通过 密码 文件 记录 的 group ID 字段 未 能 标 

识 出 的 该 组 其 他 成 员 ， 也 在 此 列 )， 以 逗号 分 隅 。 





























超级 用 户 

超级 用 户 在 系统 中 至 有 特权 。 超 级 用 户 账 写 的 用 户 ID 为 0， 通 党 登录 名 为 root. TE— Mx 
的 UNIX 系统 上 ， 超 级 用 户 凌 下 于 系统 的 权限 检查 之 上 。 因 此 ， 无 论 对 文件 施 以 何 种 访问 权 
限 限 制 ， 超 级 用 户 都 可 以 访问 系统 中 的 任何 文件 ， 也 能 发 送信 号 干预 系统 运行 的 所 有 用 户 进 
程 。 系 统管 理 员 可 以 使 用 超级 用 户 账号 来 执行 各 种 系统 管理 任务 。 














2.44 音 根 目录 层级 、 目 录 、 链 接 及 文件 


内 核 维 护 看 一 套 单 根 目 录 结 构 ， 以 放置 系统 的 所 有 文件 《这 与 微软 Windows 之 类 的 操作 
系统 形成 了 鲜明 对 照 ，Windows 系统 的 每 个 磁盘 设备 都 有 各 目的 目录 层级 。) 这 一 目录 层级 的 
根基 区 是 名 为 “/” 的 根 目 录 。 所 有 的 文件 和 目录 都 是 根 目录 的 “子孙 ”。 图 1-2 所 示 为 这 种 文 
件 层 级 结构 的 示例 。 




















文件 类 型 
在 文件 系统 内 ， 会 对 文件 类 型 进行 标记 ， 以 表明 其 种 类 。 其 中 一 种 用 来 表示 普通 数据 文 
件 ， 人 们 常 称 之 为 “普通 文件 ”或 “ 纯 文 本 文件 ”以 示 与 其 他 种 类 的 文件 有 所 区 别 。 其 他 广 
件 关 型 包括 设备 、 管 道 、 套 接 字 、 目 录 以 及 符号 链接 。 
术语 “文件 ”第 用 来 指 代 任意 类 型 的 文件 ， 不 仅仅 指 普通 文 件 。 














路 径 和 链接 

目录 是 一 种 特殊 类 型 的 文件 ， 内 容 采 用 表格 形式 ， 数 据 项 包括 文件 名 以 及 对 相应 文件 的 
引用 。 这 一 “文件 名 + 引用 ”的 组 合 被 称 为 链接 。 每 个 文件 都 可 以 有 多 条 链接 ， 因 而 也 可 以 有 
多 个 名 称 ， 在 相同 或 不 同 的 目录 中 出 现 。 

目录 可 包含 指向 文件 或 其 他 目录 的 链接 。 路 径 间 的 链接 建立 起 如 图 2-1 所 示 的 目录 层级 。 

每 个 目录 全 少 包 含 两 条 记录 : .和 ..， 前 者 是 指 问 目录 上 日 身 的 链接 ， 后 者 是 指 问 其 上 级 目录 一 一 
父 目录 的 链接 。 除 根 目录 外 ， 每 个 目录 都 有 父 目 录 。 对 于 根 目 录 而 言 ，.. 是 指 问 根 目录 目 身 的 
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dB: CE, 7.8 TD. 
E 
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2-1: Linux 单 根 目录 层级 的 一 部 分 





类 似 于 普通 链接 ， 符 号 链接 给 文件 起 了 一 个 “ 别 写 (alternative name)”。 在 目录 列表 中 ， 普 
通 链接 是 内 容 为 “文件 名 + 指针 ”的 一 条 记录 ， 而 符号 链接 则 是 经 过 特殊 标记 的 文件 ， 内 容 包 
含 了 另 一 文件 的 名 称 。( 换 言 之 ， 一 个 符号 链接 对 应 看 目录 中 内 容 为 “文件 名 + 指针 ”的 一 条 
记录 ， 指 针 指向 的 文件 内 容 为 另 一 个 文件 名 的 字符 串 。) 所 谓 “ 另 一 文件 ”通常 被 称 为 符号 链 
接 的 目标 ， 人 们 一 般 会 说 符号 链接 “ 指 问 ”或 “引用 ”目标 文件 。 在 多 数 情 况 下 ， 只 要 系统 
调用 用 到 了 路 径 名 ， 内 核 会 目 动 解除 〈 换 言 之 ， 按 照 ) 该 路 径 名 中 符号 链接 的 引用 ， 以 符号 
链接 所 指 回 的 文件 名 来 蔡 换 符号 链接 。 知 符号 链接 的 目标 文件 目 身 也 是 一 个 符号 链接 ， 那 么 
上 述 过 程 会 以 递归 方式 重复 下 去 。(' 为 了 应 对 可 能 出 现 的 循环 引用 ， 内 核对 解除 引用 的 次 数 作 
了 限制 。， 如 来 符号 链接 指 问 的 文件 并 不 存在 ， 那 么 可 将 该 链接 视 为 容 链 接 (dangling link). 

通常 ， 人 们 会 分 别 使 用 硬 链接 (hard link). 或 软 链接 (soft link). 这样 的 术语 来 指 代 正 常 链 
接 和 符号 链接 。 之 所 以 存在 这 两 种 不 同类 型 的 链接 ， 将 在 第 18 革 做 出 解释 。 
文件 名 

在 大 多 数 Linux 文件 系统 上 ， 文 件 名 最 长 可 达 255 个 字符 。 文 件 名 可 以 包含 除 “/” 和 空 
FE OO 外 的 所 有 他 符 。 但 是 ， 只 建议 使 用 字母 、 数 学 、 点 (“.”)、 下 划 线 (“_”) 以 及 连 
字符 (“~”)。SUSv3 将 这 65 个 字符 的 集合 [-，a_zA-Z0-9] 称 为 可 移植 文件 名 字符 集 (portable 
filename character set). 

对 于 可 移植 文件 名 学 符 集 以 外 的 字符 ， 由 于 其 可 能 会 在 shell、 正 则 表达 式 或 其 他 场景 
中 具有 特殊 含义 ,故而 应 避免 在 文件 名 中 使 用 。 如 在 上 述 环境 中 出 现 了 包含 特殊 含义 字符 的 
文件 名 ， 则 需要 进行 转 义 ， 即 对 此 类 字符 进行 特殊 标记 【一般 会 在 特殊 字符 前 插入 一 个 “\”)， 
以 指明 不 应 以 特殊 含义 对 其 进行 解释 。 大 场 境 不 文 持 转 义 机 制 ， 则 不 能 使 用 此 类 文件 名 。 

此 外 ， 还 应 避免 以 连 字 人 符 (-”) 作为 文件 名 的 起 始 子 从， 因为 一 旦 在 shell 命令 中 使 用 这 
种 文件 名 ， 会 被 误 认 为 命令 行 选项 开关 。 






























































1 ŽRE: 及 该 文件 所 属 数据 块 存储 的 内 容 。 
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路 径 名 
路 径 名 是 由 一 系列 文件 名 组 成 的 字符 串 ， 彼 此 以 “/” 分 隔 ， 首 字符 可 以 为 “/”( 非 强制 ) 。 
除却 了 最 后 一 个 文件 名 外 ， 该 系列 文件 名 均 为 目录 名 称 〈 或 为 指 癌 目录 的 符号 链接 )。 路 径 名 的 尾 
部 可 标识 任意 类 型 的 文件 ， 包 括 目 录 在 内 。 有 时 将 该 字符 串 中 最 后 一 个 “/” 字 符 之 前 的 部 分 
称 为 路 径 名 的 目录 部 分 ， 将 其 之 后 的 部 分 称 为 路 径 名 的 文件 部 分 或 基础 部 分 。 
路 径 名 应 按 从 左 至 右 的 顺序 阅读 ， 路 径 名 中 每 个 文件 名 之 前 的 部 分 ， 即 为 该 文件 所 处 目 
录 。 可 在 路 径 名 中 任意 位 置 后 引入 字符 串 “..” ， 用 以 指 代 路 径 名 中 当前 位 置 的 父 目 录 。 
路 径 名 摘 述 了 单 根 目 录 层 级 下 的 文件 位 置 ， 又 可 分 为 绝对 路 径 名 和 相对 路 径 名 : 
e 绝对 路 径 名 以 “/” 开 始 ， 指 明文 件 相 对 于 根 目 录 的 位 置 。 网 2-1 中 的 /home/mtk/. bashrc、 
/usr/include 以 及 /《 根 路 径 的 路 径 名 ) 都 是 绝对 路 径 名 的 例子 。 
e 相对 路 径 名 定义 了 相对 于 进程 当前 工作 目录 《〈 见 下 文 ) 的 文件 位 置 ， 与 绝对 路 径 名 相 
比 ， 相 对 路 径 名 缺少 了 起 始 的 “/”。 如 图 2-1 所 示 ， 在 目录 usr 下 ， 可 使 用 相对 路 径 名 
include/sys/types.h 来 引用 文件 types.h, 在 目录 avr 下 ， 可 使 用 相对 路 径 名 ..Lmtk/.bashrc 
来 访问 文件 .bashrc 。 


当前 工作 目录 

每 个 进程 郡 有 一 个 当前 工作 目录 (有 时 简称 为 进程 工作 目录 或 当前 目录 )。 这 不 足 单 根 目 录 
层级 下 进程 的 “当前 位 置 ?， 也 是 进程 解释 相对 路 径 名 的 参照 点 。 

进程 的 当前 工作 目录 继承 目 其 父 进程 。 对 登录 shell 来 说 ， 其 初始 当前 工作 目录 ， 十 依 
据 密 码 文件 中 该 用 户 记 录 的 主 目录 字段 来 设置 。 可 使 用 cd 命令 来 改变 shell 的 当前 工作 目录 。 


文件 的 所 有 权 和 权限 


每 个 文件 都 有 一 个 与 之 相关 的 用 户 ID 和 组 人 D， 分 别 定义 文件 的 属 主 和 属 组 。 系 统 根 据 文 
件 的 所 有 权 来 判定 用 户 对 文件 的 访问 权限 。 

为 了 访问 文件 ， 系 统 把 用 户 分 为 3 R: 文件 的 属 主 〈《 有 时 ， 也 称 为 文件 的 用 户 )、 与 文件 
ZH (group) ID 相 匹配 的 属 组 成 员 用 尸 以 及 其 他 用 户 。 可 为 以 上 3 类 用 户 分 别 设置 3 种 权限 ( 共 
计 9 种 权限 位 )， 只 允许 奏 看 文件 内 容 的 该 权限 :允许 修改 文件 内 容 的 号 权限 ;允许 执行 文件 
的 执行 权限 。 这 里 的 文件 要 么 指 程序 ， 要 么 是 交 由 茶 种 解释 程序 《通常 指 shell 的 一 种 ， 但 也 
有 例外 ) 处 理 的 脚本 。 

也 可 针对 目录 进行 上 述 权 限 设置 ， 但 意义 和 有 不 同 。 读 权限 允许 列 出 目录 内 容 〈( 即 该 目 
录 下 的 文件 名 )， 写 权限 允许 对 目录 内 容 进 行 更 改 〈 比 如 ， 添 加 、 修 改 或 删除 文件 名 )， 执 行 
《有 时 也 称 为 搜索 ) 权限 允许 对 目录 中 的 文件 进行 访问 但 需 受 文件 目 身 访问 权限 的 约束 )。 

























































































25 文件 MO 模型 


UNIX 系统 UO 模型 最 为 显 车 的 特性 之 一 是 其 UO 通用 性 概念 。 也 束 是 说 ， 同 一 僚 系 统 调 
用 (open()、read()、write()、close0) 等 ) 所 执行 的 IO 操作 ， 可 施 之 于 所 有 文件 类 型 ， 包 括 设 
1 译 者 注 : 此 处 “文件 ”的 含义 中 包括 了 目录 一 一 如 前 文 所 述 :“ 目 录 是 一 种 特殊 类 型 的 文件 ”。 
2 译 者 注 : 即 最 后 一 个 文件 名 。 
3 译 者 注 : WA UU MM. 
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备 文件 在 内 。( 应 用 程序 发 起 的 IO 请 求 ， 内 核 会 将 其 转化 为 相应 的 文件 系统 操作 ， 或 者 设备 
驱动 程序 操作 ， 以 此 来 执行 针对 目标 文件 或 设备 的 IO 操作 。) 因 此， 采用 这 些 系统 调用 的 程 
序 能 够 处 理 任 何 类 型 的 文件 。 

瓯 本 质 而 言 ， 内 核 具 提供 一 种 文件 类 型 : 学 东 流 序列 ， 在 处 理 酸 盘 文 件 、 磁 盘 或 磁带 设 
fel. np lseekO 系 统 调 用 来 随机 访问 。 

许多 应 用 程序 和 函数 库 都 将 新 行 符 《十进制 ASCH 人 码 为 10， 有 时 亦 称 其 为 换行 ， 视 为 文 
本 中 一 行 的 结束 和 另 一 行 的 开始 。UNIX 系统 没有 文件 结束 符 的 概念 ， 谈 取 文 件 时 如 无 数据 返 
加 ， 便 会 认定 抵达 文件 末尾 。 

















文件 描述 符 

IO 系统 调用 使 用 文件 描述 符 一 一 〈 往 往 是 数值 很 小 的 ) 非 负 整数 一 一 来 指 代 打开 的 文件 。 
获取 文件 描述 符 的 常用 手法 是 调用 open()， 在 参数 中 指定 VO 操作 目标 文件 的 路 径 名 。 

通常 ， 由 shell 局 动 的 进程 会 继承 3 个 已 打开 的 文件 摘 述 符 : RAT 0 为 标准 输入 ， 指 代为 
进程 提供 输入 的 文件 ， 摘 述 符 1 为 标准 输出 ， 指 代 供 进程 写 入 输出 的 文件 ， 描 述 符 2 为 标准 
错误 ， 指 代 供 进程 写 入 错误 消息 或 异常 通告 的 文件 。 在 交互 式 shell 或 程序 中 ， 上 述 三 者 一 般 都 
Him. E stdio 函数 库 中 ， 这 几 种 摘 述 符 分 别 与 文件 流 stdin、stdout 和 stderr 相对 应 。 














stdio 函数 库 


C 编程 语言 在 执行 文件 VO 操作 时 ,往往 会 调用 C 语言 标准 库 的 UO 函数 。 也 将 这 样 一 组 
LO 函数 称 为 stdio 函数 库 ， 其 中 包括 fopen(). fclose(). scanf(), printf(), fgets(). fputs() 5. 
stdio 函数 位 于 VO 系统 调用 层 Copen), close), read(), write5$) 之 上 。 








本 书 假 定 读者 已 经 了 解 了 C 语言 的 标准 IO (stdio) 函数 ， 因 此 也 不 会 介绍 这 方面 的 内 
容 。 更 多 与 stdio 函数 库 有 关 的 信息 请 参考 [Kernighan & Ritchie, 1988], [Harbison & Steele, 
2002]. [Plauger. 1992]fll[Stevens & Rago, 2005]. 








2.6 程序 


程序 通常 以 两 种 面目 示人 。 其 一 为 源码 形式 ， 由 使 用 编程 语言 (比如 ，C 语言 ) 写成 的 一 系 
列 语句 组 成 ， 是 人 类 可 以 阅读 的 文本 文件 。 要 想 执 行程 序 ， 则 需 将 源码 转换 为 第 二 种 形式 一 一 计 
算 机 可 以 理解 的 三 进 制 机 器 语言 指令 。( 这 与 脚本 形成 了 鲜明 对 照 ， 脚 本 是 包含 命令 的 文本 文件 ， 
可 以 由 shell 或 其 他 命令 解释 器 之 类 的 程序 直接 处 理 。) 一 般 认为 ,术语 “程序 ”的 上 述 两 种 含 
义 儿 近 相 同 ， 因 为 经 过 编 详 和 链接 处 理 ， 会 将 源码 转换 为 语义 相同 的 三 进 制 机 费 但 。 
































从 stdin 读 取 输入 ， 加 以 转换 ， 再 将 转换 后 的 数据 输出 到 stdout， 各 党 将 拥有 上 述 行为 的 
程序 称 为 过 滤器 ，cat、grep、tr、sort、wc、sed、awk 均 在 其 列 。 
命令 行 参数 

C 语言 程序 可 以 访问 命令 行 参 数 ， 即 程序 运行 时 在 命令 行 中 输入 的 内 容 。 要 访问 命令 行 
参数 ， 程 序 的 mainO0 函 数 需 做 如 下 声明 : 














24 Linux/UNIX 系统 编程 手册 ( 上 册 ) 
异步 社区 会 员 fẹlyman150(2410757683@qq.com) 专 享 尊重 版 权 


int main(int argc, char *argv[]) 


argo 变量 包含 命令 行 参数 的 总 个 数 ，argv 指针 数组 的 成 员 指针 则 逐一 指向 每 个 命令 行 参 








数字 符 串 。 首 个 字符 串 argv[0]， 标 识 程序 名 本 喘 。 


2.7 ”进程 


人 简 而 言 之 ， 进 程 是 正在 执行 的 程序 实例 。 执 行程 序 时 ， 内 核 会 将 程序 代码 载 入 虚拟 内 存 ， 
为 程序 变量 分 配 空间 ， 建 立 内 核 记 账 (bookkeeping) 数据 结构 ， 以 记录 与 进程 有 关 的 各 种 信 
息 〈 比 如 ， 进 程 ID、 用 户 ID、 组 ID 以 及 终止 状态 等 )。 

在 内 核 看 来 ， 进 程 是 一 个 个 实体 ， 内 核 必须 在 它们 之 间 共 享 各 种 计算 机 资源 。 对 于 像 内 
存 这 样 的 受 限 资源 来 说 ， 内 核 一 开始 会 为 进程 分 配 一 定数 量 的 资源 ， 并 在 进程 的 生命 周期 内 ， 
统筹 该 进程 和 整个 系统 对 资源 的 需求 ， 对 这 一 分 配 进行 调整 。 程 序 终止 时 ， 内 核 会 释放 所 有 
此 类 资源 ， 供 其 他 进程 重新 使 用 。 其 他 资源 (如 CPU. jeu ws) 都 属于 可 再 生 资 源 ， 但 
必须 在 所 有 进程 间 平 等 共享 。 


进程 的 内 存 布局 

逻辑 上 将 一 个 进程 划分 为 以 下 几 部 分 也 称 为 段 )。 

。 文本 ， 程序 的 指令 。 

。 数据 ， 程 序 使 用 的 静态 变量 。 

e He. 程序 可 从 该 区 域 动态 分 配额 外 内 存 。 

。 栈 : 随 函数 调用 、 返 回 而 增 减 的 一 片 内 存 ， 用 于 为 局 部 变量 和 函数 调用 链接 信息 分 配 

存储 空间 。 

创建 进程 和 执行 程序 

进程 可 使 用 系统 调用 fork() 来 创建 一 个 新 进程 。 调 用 fork() 的 进程 被 称 为 父 进程 ， 新 创建 
的 进程 则 被 称 为 子 进 程 。 内 核 通过 对 父 进程 的 复制 来 创建 子 进程 。 子 进程 从 父 进程 处 继承 煞 
据 段 、 栈 段 以 及 堆 段 的 副本 后 ， 可 以 修改 这 些 内 容 ， 不 会 影响 父 进程 的 “原版 ”内 容 。( 在 内 
存 中 被 标记 为 只 读 的 程序 文本 段 则 由 父 、 子 进程 共享 。) 

然后 ， 子 进程 要 么 去 执行 与 父 进程 共享 代码 段 中 的 另 一 组 不 同 函数 ， 或 者 ， 更 为 常见 的 
情况 是 使 用 系统 调用 execve0 去 加 载 并 执行 一 个 全 新 程序 。execve0 会 销毁 现 有 的 文本 段 、 数 
据 段 、 栈 段 及 堆 段 ， 并 根据 新 程序 的 代码 ， 创 建新 段 来 蔡 换 它们 。 

以 execve0 为 基础 ，C 语言 库 还 提供 了 几 个 相关 函数 ， 接 口 虽然 咯 有 不 同 ， 但 功能 全 都 相同 。 
以 上 所 有 库 函 数 的 名 称 均 以 字符 串 “exee” 打 头 ， 在 函数 间 差 异 无 关 宏 旨 的 场合 ， 本 书 会 用 符号 
exec0 作 为 这 些 库 函数 的 统称 。 不 过 ， 请 读者 牢记 ， 实 际 上 根本 不 存在 名 为 exec0 的 库 函数 。 

一 般 情况 下 ， 书 中 会 使 用 “执行 ”一 词 来 指 代 execve0 及 其 衍生 函数 所 实施 的 操作 。 
进程 ID 和 父 进程 ID 

每 一 进程 都 有 一 个 唯一 的 整数 型 进程 标识 符 (PID)。 此 外 ， 每 一 进程 还 具有 一 个 父 进程 
标识 符 (PPID) 属性 ， 用 以 标识 请 求 内 核 创建 自己 的 进程 。 
进程 终止 和 终止 状态 

可 使 用 以 下 两 种 方式 之 一 来 终止 一 个 进程 ， 其 一 ， 进 程 可 使 用 exit0 系 统 调用 或 相关 的 




























































































第 2 章 基本 概念 25 


异步 社区 会 员 flyman150(2410757683@qq.com) EF 尊重 版 权 


exitO 库 函数 )， 请 求 退出 ; 其 二， 办 进程 传递 信号 ， 将 其 “ 杀 死 ”。 无 论 以 何 种 方式 退出 ， 进 程 
都 会 生成 “ 终 目 状态 ”， 一 个 非 负 小 整数 ， 可 供 父 进程 的 waitO 系 统 调用 检测 。 在 调用 _exitO) 的 
情况 下 ， 进 程 会 指明 目 己 的 终止 状态 。 奉 由 信号 来 “条 死 ” 进 程 ， 则 会 根据 导 儿 进程 “死亡 ” 
的 信号 闫 型 来 设置 进程 的 终止 状态 。( 有 时 会 将 传递 进 _exitO 的 参数 称 为 进程 的 “退出 状态 ”， 以 
示 与 终止 状态 有 所 不 同 ， 后 者 要 么 指 传递 给 _exit0 的 参数 值 ， 要 么 表示 “ 杀 死 ”进程 的 信号 。) 

根据 惯例 ， 终 止 状态 为 0 表示 进程 “ 功 成 吴 退 ”， 非 0 则 表示 有 错误 发 生 。 大 多 数 shell 会 
将 前 一 执行 程序 的 终止 状态 保存 于 shell 变量 $? 中 。 





进程 的 用 户 和 组 标识 符 〈 赁 证 ) 

每 个 进程 都 有 一 组 与 之 相关 的 用 户 ID (UID) 和 组 ID (GID)， 如 下 所 示 。 

。 真实 用 户 ID 和 组 ID: 用 来 标识 进程 所 属 的 用 户 和 组 。 新 进程 从 其 父 进程 处 继承 
这 些 ID。 登 录 shell 则 会 从 系统 密码 文件 的 相应 字段 中 获取 其 真实 用 户 ID 和 组 ID。 

。 有 效用 户 ID 和 组 ID: 进程 在 访问 受 保护 资源 〈 比 如 ， 文 件 和 进程 间 通 信 对 象 ) 
时 ， 会 使 用 这 两 个 ID 〈 并 结合 下 述 的 补充 组 ID) 来 确定 访问 权限 。 一 般 情况 下 ， 
进程 的 有 效 ID 与 相应 的 真实 ID 值 相同 。 正 如 即将 讨论 的 那样 ， 改 变 进程 的 有 效 
ID 实 为 一 种 机 制 ， 可 使 进程 具有 其 他 用 户 或 组 的 权限 。 

。 补充 组 ID， 用 来 标识 进程 所 属 的 额外 组 。 新 进程 从 其 父 进程 处 继承 补充 组 ID。 登 录 
shell 则 从 系统 组 文件 中 获取 其 补充 组 ID. 


特权 进程 
在 UNIX 系统 上 ， 就 传统 意义 而 言 ， 特 权 进 程 是 指 有 效用 户 DD 为 0 (超级 用 户 ) 的 进程 。 通 
常 由 内 核 所 施加 的 权限 限制 对 此 类 进程 无 效 。 与 之 相反 ， 术 语 “ 无 特权 ”( 或 非特 权 〉 进程 是 指 由 
其 他 用 户 运 行 的 进程 。 此 类 进程 的 有 效用 户 ID 为 非 0 值 ， 且 必须 遵守 由 内 核 所 强加 的 权限 规则 。 
由 某 一 特权 进程 创建 的 进程 ， 也 可 以 是 特权 进程 。 例 如 ， 一 个 由 root (超级 用 户 ) 发 起 的 
登录 shell。 成 为 特权 进程 的 另 一 方法 是 利用 set-user-ID 机 制 ， 该 机 制 允许 某 进 程 的 有 效用 户 
ID 等 同 于 该 进程 所 执行 程序 文件 的 用 户 ID. 





















































能 力 (Capabilities) 


始 于 内 核 22，Linux 把 传统 上 赋予 超级 用 户 的 权限 划分 为 一 组 相互 独立 的 单元 〔 称 之 为 
“能 力 ”)。 每 次 特权 操作 都 与 特定 的 能 力 相关 ， 仅 当 进 程 具有 特定 能 力 时 ， 才 能 执行 相应 操作 。 
传统 意义 上 的 超级 用 户 进程 (有效 用户 ID 为 0) 则 相应 开启 了 所 有 能 

赋予 某 进 程 部 分 能 力 ， 使 得 其 既 能 够 执行 某 些 特权 级 操作 ， 又 防止 其 执行 其 他 特权 级 操作 ， 

KPB 39 章 会 对 能 力 做 深入 讨论 。 在 本 书后 文中 ， 当 述 及 只 能 由 特权 进程 执行 的 特殊 操作 
时 ， 一 般 都 会 在 括号 中 标明 其 具体 能 力 。 能 力 的 命名 以 CAP NNA Pli, CAP KILL, 






































init 进程 

系统 引导 时 ， 内 核 会 创建 一 个 名 为 init 的 特殊 进程 ， 即 “所 有 进程 之 父 ”， 该 进程 的 相应 
程序 文件 为 /sbin/init。 系 统 的 所 有 进程 不 是 由 init UEH ffok0)“ 亲 自 ” 创 建 ， 就 是 由 其 后 代 
进程 创建 。init 进程 的 进程 号 总 为 1， 且 总 是 以 超级 用 户 权 限 运 行 。 谁 《哪怕 是 超级 用 户 ) 都 
不 能 “ 杀 死 ”init 进程 ， 只 有 关闭 系统 才能 终止 该 进程 。init 的 主要 任务 是 创建 并 监控 系统 运 
行 所 需 的 一 系列 进程 。( 手 册页 init(8) 中 包含 了 init 进程 的 详细 信息 。) 
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守护 进程 

守护 进程 指 的 是 具有 特殊 用 途 的 进程 ， 系 统 创 建 和 处 理 此 类 进程 的 方式 与 其 他 进程 相同 ， 
但 以 下 特征 是 其 所 独 有 的 : 

。 KEDE”. 守护 进程 通常 在 系统 引导 时 局 动 ， 直 全 系统 关闭 前 ， 会 一 直 “ 健 在 ”。 

e 守护 进程 在 后 台 运 行 ， 且 无 控制 终 员 供 其 读 取 或 写 入 数据 。 

守护 进程 中 的 例子 有 syslogd《〈 在 系统 日 六 中 记录 消息 ) 和 httpd CJH HTTP 分 及 Web WH). 














环境 列表 


每 个 进程 部 有 一 份 环境 列 表 ， 即 在 进程 用 户 空间 内 存 中 维护 的 一 组 环境 变量 。 这 份 列表 
的 每 一 元 素 都 由 一 个 名 称 及 其 相关 值 组 成 。 由 forkO 创 建 的 新 进程 ， 会 继承 父 进程 的 环境 副 
本 。 这 也 为 父子 进程 间 通 信 提 供 了 一 种 机 制 。 当 进程 调用 exec(O 丛 换 当 前 正在 运行 的 程序 时 ， 
新 程序 要 么 继承 老 程 序 的 环境 ， 要 么 在 execO 调 用 的 参数 中 指定 新 环境 并 加 以 接收 。 
在 绝 大 多 数 shell 中 ， 可 使 用 export 命令 来 创建 环境 变量 〈C shell 使 用 setenv 命令 )， 如 下 所 示 : 
$ export MYVAR-'Hello world' 


本 书 在 展示 交互 式 输入 、 输 出 的 shell 会 话 日 六 时 ， 总 是 以 黑体 字 来 呈现 输入 文本 。 有 
时 也 会 在 日 志 中 以 斜体 字形 式 加 注 ， 以 解释 输入 的 命令 和 产生 的 输出 。 
C 语言 程序 可 使 用 外 部 变量 Cchar **environ) 来 访问 环境 ， 而 库 函 数 也 人 允许 进程 去 获取 
或 修改 目 己 环境 中 的 值 。 
环境 变量 的 用 途 多 种 多 样 。 例 如 ，shell 定义 并 使 用 了 一 系列 变量 , 供 shell 执行 的 脚本 和 程序 
访问 。 其 中 包括 : 变量 HOME 明确 定义 了 用 户 登 录 目 录 的 路 径 名 )、 变 量 PATH (指明 了 用 户 
输入 命令 后 ，shell 查找 与 之 相应 程序 时 所 搜索 的 目录 列表 )。 


















































资源 限制 


每 个 进程 都 会 消耗 诸如 打开 文件 、 内 存 以 及 CPU 时 间 之 类 的 资源 。 使 用 系统 调用 setrlimit(, 
进程 可 为 自己 消耗 的 各 类 资源 设 定 一 个 上 限 。 此 类 资源 限制 的 每 一 项 均 有 两 个 相关 值 ， 软 限制 
Csoft limit) 限制 了 进程 可 以 消耗 的 资源 总 量 ， 硬 限制 Chard limit〉 软 限制 的 调整 上 限 。 非 特权 
进程 在 针对 特定 资源 调整 软 限制 值 时 ， 可 将 其 设置 为 0 到 相应 便 限 制 值 乙 间 的 任意 值 ， 但 便 
限制 值 则 只 能 调 低 ， 不 能 调 高 。 

由 forkO 创 建 的 新 进程 ， 会 继承 其 父 进程 对 资源 限制 的 设置 。 

使 用 ulimit 命令 (在 C shell PH limit) 可 调整 shell 的 资源 限制 。shell 为 执行 命令 所 创建 
的 子 进 程 会 继承 上 述 资源 设置 。 


2.8 AFRI 


调用 系统 函数 mmapO 的 进程 ， 会 在 其 虚拟 地 址 空间 中 创建 一 个 新 的 内 存 映射 。 

映射 分 为 两 闫 。 

。 文件 映射 : 将 文件 的 部 分 区 域 映 射 入 调用 进程 的 虚拟 内 存 。 映 射 一 旦 完成 ， 对 文件 映射 
内 容 的 访问 则 转化 为 对 相应 内 存 区 域 的 字 节 操作 。 有 映射 页 面 会 按 需 目 动 从 文件 中 加 载 。 

e 相映 成 趣 的 是 并 无 文件 与 乙 相 对 应 的 匿名 映射 ， 其 映射 页 面 的 内 容 会 被 初始 化 为 0。 
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EIAS — XE PATIBUM FI V3 41 n] ELE AREFE AER. E~ET AA LO: 其 一 是 两 个 
进程 都 针对 菏 一 文件 的 相同 部 分 加 以 映射 ， 其 二 是 由 forkO 创 建 的 子 进程 目 父 进程 处 继承 映射 。 
当 两 个 或 多 个 进程 共享 的 页 面相 同时 ， 进 程 之 一 对 页 面 内 容 的 改动 是 否 为 其 他 进程 所 见 呢 ? 这 
取决 于 创建 师 冉 时 所 传 入 的 标记 参数 。 大 传 入 标记 为 私有 ， 则 攻 进 程 对 映射 内 容 的 修改 对 于 其 
他 进程 是 不 可 见 的 ， 而 且 这 些 改动 也 不 会 真 地 落实 到 文件 上 ; 耕 传 入 标志 为 共 至 ， 对 映射 内 容 
的 修改 就 会 为 其 他 进程 所 见 ， 并 且 这 些 修改 也 会 造成 对 文件 的 改动 。 内 存 映 射 用 途 很 多 ， 其 中 
包括 : 以 可 执行 文件 的 相应 段 来 初始 化 进程 的 文本 段 、 内 存 〈 内 容 填 充 为 0) 分配、 文件 WO( 即 
映射 内 人 存 WO》 以 及 进程 间 通 信 OELE )。 


2.9 静态 库 和 共享 库 


所 谓 目 标 库 是 这 样 一 种 文件 : 将 (通常 是 他 辑 相关 的 ) 一 组 函数 代 人 码 加 以 编译 ， 并 年 于 
一 个 文件 中 ， 供 其 他 应 用 程序 调用 。 这 一 做 法 有 利于 程序 的 开发 和 维护 。 现 代 UNIX 系统 提 
供 两 种 类 型 的 对 象 库 :， 静态 库 和 共 孚 库 。 


静态 库 


HSE CAN, BLAR archives 是 早期 UNIX 系统 中 唯一 的 一 种 目标 库 。 
本 质 上 说 来 ， 静 态 库 是 对 已 编译 目标 模块 的 一 种 结构 化 整合 。 要 使 用 静态 库 中 的 函数 ， 需 要 
在 创建 程序 的 链接 命令 中 指定 相应 的 库 。 主 程序 会 对 静态 库 中 隶属 于 各 目标 模块 的 不 同 函数 
加 以 引用 。 链 接 需 在 解析 了 引用 情况 后 ， 会 从 库 中 抽取 所 需 目 标 模块 的 副本 ， 将 其 复制 到 最 
终 的 可 执行 文件 中 ， 这 吏 是 所 谓 静 态 链 接 。 对 于 所 需 库 内 的 各 目标 恒基， 采用 静态 链接 方式 生 
成 的 程序 都 存 有 一 份 副本 。 这 会 引起 诸多 不 便 。 其 一 ， 在 不 同 的 可 执行 文件 中 ， 可 能 都 存 有 相 
同 目标 代码 的 副本 ， 这 是 对 磁 税 空间 的 浪费 。 同 理 ， 调 用 同一 库 函 数 的 程序 ， 寿 均 以 硬 态 链接 
方式 生成 ， 且 又 于 同时 加 以 执行 ， 这 会 造成 内 存 浪费 ， 因 为 每 个 程序 所 调用 的 函数 都 各 有 一 份 
副本 驻 留 在 内 存 中 ， 此 其 二 。 此 外 ， 如 朵 对 库 函 数 进 行 了 修改 ， 需 要 重新 加 以 编 详 、 生 成 狐 的 
前 态 库 ， 和 而 所 有 需要 调用 该 函数 “更 莉 版 ”的 应 用 ， 必 必须 与 新 生成 的 脐 态 库 重 新 链 接 。 
Ae 

BIRF E I H IEN T REESEN E e 

MRR ERRER, MA ERANA EEP HERRER AEAT R, ME 
在 可 执行 文件 中 写 入 一 条 记录 ， 以 表明 可 执行 文件 在 运行 时 需要 使 用 该 共 孚 库 。 一 旦 在 运行 时 将 
可 执行 文件 载 入 内 存 ， 一 球 名 为 “动态 链接 占 ” 的 程序 会 确保 将 可 执行 文件 所 需 的 动态 库 找 到 ， 
并 载 入 内 存 ， 随 后 实施 运行 时 链接 ， 人 解析 可 执行 文件 中 的 函数 调用 ， 将 其 与 共 圣 库 中 相应 的 函数 
定义 关联 起 来 。 在 运行 时 ， 共 至 库 代 人 码 在 内 存 中 内需 保留 一 份 ， 且 可 供 所 有 运行 中 的 程序 使 用 。 

经 过 编译 处 理 的 函数 仅 在 共 译 库 内 保存 一 份 ， 从 而 市 约 了 磁盘 空间 。 为 外 ， 这 一 设计 还 
能 确保 各 类 程序 及 时 使 用 到 函数 的 最 新 版 本 ， 功 莫大 马 ， 只 需 将 带 有 函数 新 定义 体 的 共 衬 库 
重 独 加 以 编 详 即 可 ， 程 序 会 在 下 次 执行 时 目 动 使 用 新 冰 数 。 


2.10 ”进程 间 通 信 及 同步 


Linux 系统 上 运行 有 多 个 进程 ， 其 中 许多 都 是 独立 运行 。 然 而 ， 有 上 坚 进 程 必 须 相 互 合作 以 
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达成 预期 目的 ， 因 此 彼此 间 需 要 通信 和 同步 机 制 。 
读 写 磁盘 文件 中 的 信息 是 进程 间 通 信和 的 方法 之 一 。 可 是 ， 对 许多 程序 来 说 ， 这 种 方法 既 
慢 又 缺乏 灵活 性 。 因 此 ， 像 所 有 现代 UNIX 实现 那样 ，Linux 也 提供 了 丰富 的 进程 间 通 信 (IPC) 
机 制 ， 如 下 所 示 。 
e 信号 〈signal)， 用 来 表示 事件 的 发 生 。 
e E KBR shell 用 户 所 熟悉 的 “|” 操 作答) 和 FIFO， 用 于 在 进程 间 传 递 数 据 。 
e 套 接 字 ， 供 同一 台 主 机 或 是 联网 的 不 同 主 机 上 所 运行 的 进程 之 间 传 递 数据 。 
e 文件 锁定 ， 为 防止 其 他 进程 读 取 或 更 新 文件 内 容 ， 允 许 某 进程 对 文件 的 部 分 区 域 加 以 
锁定 。 
e 消息 队列 ， 用 于 在 进程 间 交 换 消 息 〈 数 据 包 )。 
e 信号 量 〈semaphore)， 用 来 同步 进程 动作 。 
e 共享 内 存 ， 人 允许 两 个 及 两 个 以 上 进程 共享 一 块 内 存 。 当 茶 进 程 改 变 了 共享 内 存 的 内 容 
时 ， 其 他 所 有 进程 会 立即 了 解 到 这 一 变化 。 
UNIX 系统 的 IPC 机 制 种 类 如 此 繁多 ， 有 些 功能 还 互 有 重 登 ， 部 分 原因 是 由 于 各 种 了 PC 机 
制 是 在 不 同 的 UNIX 实现 上 演变 而 来 的 ， 需 要 遵循 的 标准 也 各 不 相同 。 例 如 ， 驶 本 质 而 言 ，FIFO 
和 UNIX 套 接 字 功 能 相同 ， 人 允许 同一 系统 上 并 无 关联 的 进程 彼此 交换 数据 。 二 者 之 所 以 并 存 
于 现代 UNIX 系统 之 中 ， 是 由 于 FIFO 来 自 System V, MERFI F BSD. 





















































211 信号 
尽管 上 一 节 将 信号 视 为 IPC 的 方法 之 一 ， 但 其 在 其 他 方面 的 广泛 应 用 则 更 为 普遍 ， 因 此 
值得 深入 讨论 。 














人 们 往往 将 信号 称 为 “软件 中 断 ” 进程 收 到 信号 ， 束 意味 看 某 一 事件 或 异常 情况 的 发 生 。 
言 号 的 类 型 很 多 ， 每 一 种 分 别 标识 不 同 的 事件 或 情况 。 采 用 不 同 的 整数 来 标识 各 种 信和 号 类 型 ， 
并 以 SIGxxxx 形式 的 符号 名 加 以 定义 。 

内 核 、 其 他 进程 〈 只 要 有 具有 相应 的 权限 ) 或 进程 自身 均 可 辐 进 程 发 送信 号 。 例 如， 发 生 
下 列 情况 之 一 时 ， 内 核 可 同 进 程 发 送信 与 。 

e 用 户 键 入 中 汤池 从 (通常 为 Control-C)。 

e 进程 的 子 进程 之 一 已 经 终止 。 

e 由 进程 设 定 的 定时 器 (告警 时 钟 ) 已 经 到 期 。 

。 进程 尝试 访问 无 效 的 内 存 地 址 。 

在 shell 中 ， 可 使 用 kil 命令 癌 进 程 发 送信 号 。 在 程序 内 部 ， 系 统 调 用 kill0 可 提供 相同 的 















































收 到 信号 时 ， 进 程 会 根据 信号 采取 如 下 动作 之 一 。 

。 忽略 信和 号 。 

e diis AM. 

。 先 挂 起 ， 之 后 再 锐 专 用 信号 唤醒 。 

就 大 多 数 信号 类 型 而 言 ， 程 序 可 选择 不 采取 默认 的 信号 动作 ， 而 是 名 略 信号 〈( 当 信号 的 
默认 处 理 行为 并 非 忽略 此 信号 时 ， 会 派 上 用 场 ) 或 者 建立 目 己 的 信号 处 理 器 。 信 号 处 理 器 是 
由 程序 员 定 义 的 函数 ， 会 在 进程 收 到 信号 时 目 动 调用 ， 根 据 信 号 的 产生 条 件 执 行 相应 动作 。 
言 号 从 产生 直至 送 达 进 程 期 间 ， 一 直 处 于 挂 起 状态 。 通 疝 ， 系 统 会 在 接收 进程 下 次 获得 
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调度 时 ， 将 处 于 挂 起 状态 的 信号 同时 送 达 。 如 果 接 收 进程 正在 运行 ， 则 会 立即 将 信号 送 达 。 
然而 ， 程 序 可 以 将 信号 纳入 所 谓 “ 信 号 屏蔽 ” 以 求 阻塞 该 信号 。 如 果 产 生 的 信号 处 于 “信和 号 
屏蔽 ”之 列 ， 那 么 此 信号 将 一 直 保 持 挂 起 状态 ， 直 至 解除 对 该 信号 的 阻塞 。( 亦 即 从 信号 屏蔽 
中 移 除 。) 











2.12 线程 


在 现代 UNIX. 实现 中 ， 每 个 进程 都 可 执行 多 个 线程 。 可 将 线程 想象 为 共 胖 同一 虚拟 内 存 
及 一 干 其 他 属性 的 进程 。 每 个 线程 都 会 执行 相同 的 程序 代码 ， 共 这 同一 数据 区 域 和 堆 。 可 是 ， 
每 个 线程 都 拥有 属于 目 己 的 栈 ， 用 来 痛 载 本 地 变量 和 阔 效 调用 链接 信息 。 

线程 之 间 可 通过 共 字 的 全 局 变量 进行 通信 。 信 助 于 线程 API 所 提供 的 条 件 变 量 和 互 斥 机 
制 ， 进 程 所 属 的 线程 乙 间 得 以 相互 通信 并 同步 行为 一 一 尤其 是 在 对 共 孚 变量 的 使 用 方面 。 此 外 ， 
利用 2.10 市 所 述 的 IPC 和 同步 机 制 ， 线 程 间 也 能 役 此 通信 。 

线程 的 主要 优点 在 于 协同 线程 之 间 的 数据 共 圣 通过 全 局 变量 ) 更 为 容易 ， 而 且 束 条 坚 
算法 而 论 ， 以 多 线程 来 实现 比 之 以 多 进程 实现 要 更 加 目 然 。 青 者， 显而易见 ， 多 线程 应 用 能 
MA E Ab E A ETT ITIZPAT RES HP S in HE 2X o 









































2.13 ”进程 组 和 shell 任务 控制 


shell 执行 的 每 个 程序 都 会 在 一 个 新 进程 内 发 起 。 比 如 ，shell 创建 了 3 个 进程 来 执行 以 下 
管 这 命令 (在 当前 的 工作 目录 下 ， 根 据 文件 大 小 对 文件 进行 排序 并 显示 ): 

$ ls -1 | sort -ksn | less 

除 Bourne shell 以 外 ， 几 乎 所 有 的 主流 shell 都 提供 了 一 种 交互 式 特性 ， 名 为 任务 控制 。 该 
特性 允许 用 户 同 时 执行 并 操纵 多 条 命令 或 管道 。 在 支持 任务 控制 的 shell 中 ， 会 将 管道 内 的 所 
有 进程 置 于 一 个 新 进程 组 或 任务 中 。( 如 采 情 况 很 傈 单 ，shell 命令 行 只 包含 一 条 命令 ， 那 么 就 会 
创建 一 个 只 包含 单个 进程 鸭 新 进程 组 。) 进程 组 中 的 每 个 进程 都 具有 相同 的 进程 组 标识 从 (以 整 
数 形式 )， 其 实 就 是 进程 组 中 某 个 进程 (也 称 为 进程 组 组 长 process group leader) 的 进程 ID. 

内 核 可 对 进程 组 中 的 所 有 成 员 执 行 各 种 动作 ， 尤 其 是 信号 的 传递 。 如 下 六 所 述 ， 文 持 任 
务 控制 的 shell 会 利用 这 一 特性 ， 以 挂 起 或 恢复 执行 管道 中 的 所 有 进程 。 


2.14 ih. Pul imm tf 


会 话 指 的 是 一 组 进程 组 《任务 )。 会 话 中 的 所 有 进程 都 具有 相同 的 会 话 标识 符 。 会 话 首 进 
fÆ (session leader) 是 指 创建 会 话 的 进程 ， 其 进程 ID 会 成 为 会 话 ID. 

使 用 会 话 最 多 的 是 支持 任务 控制 的 shell, rH shell 创建 的 所 有 进程 组 与 shell Bs T 
同一 会 话 ，shell 是 此 会 话 的 会 话 首 进程 。 

XS. Audax mH. 控制 终端 建立 于 会 话 首 进 程 初 次 打开 终端 设备 之 时 。 
对 于 由 交互 式 shell 所 创建 的 会 话 ， 这 恰恰 是 用 户 的 登录 终端 。 一 个 终 病 至 多 上 只 能 成 为 一 个 会 
WEE da bl £X ng o 






























































1 详 者 注 : 即 一 组 进程 希望 阻塞 的 信号。 
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打开 控制 终端 会 致使 会 话 首 进 程 成 为 终端 的 控制 进程 。 一 旦 断 开 了 与 终端 的 连接 (比如 ， 
关闭 了 终端 窗口 )， 控 制 进程 将 会 收 到 SIGHUP 信和 号。 

在 任 一 时 点 ， 会 话 中 总 有 一 个 前 台 进 程 组 〈 前 台 任务 )， 可 以 从 终端 中 读 取 输入 ， 向 终 
端 发 送 输 出 。 如 果 用 户 在 控制 终端 中 输入 了 “中 断 ”( 通 常 是 Control-C) 或 “ 挂 起 ”字符 ( 通 
常 是 ControLZ)， 那 么 终端 驱 动 程序 会 发 送信 号 以 终止 或 挂 起 〈 亦 即 停止 ) 前 台 进 程 组 。 一 
个 会 话 可 以 拥有 任意 数量 的 后 台 进 程 组 (后 台 任务 )， 由 以 “&” 字 符 结 尾 的 行 命令 来 创建 。 

支持 任务 控制 的 shell 提供 如 下 命令 ， 列 出 所 有 任务 ， 向 任务 发 送信 号 ， 以 及 在 前 后 台 任 
务 之 间 来 回 切换 。 





2.15  fNf£tum 


伪 终 端 是 一 对 相互 连接 的 虚拟 设备 ， 也 称 为 主 从 设备 。 在 这 对 设备 之 间 ， 设 有 一 条 IPC 
信道 ， 可 供 数据 进行 双向 传递 。 

从 设备 〈slave device) 所 提供 的 接口 ， 其 行为 方式 与 终端 相 类 似 ， 基 于 这 一 特点 ， 可 
以 将 某 个 为 终端 编写 的 程序 与 从 设备 连接 起 来 ， 然 后， 再 利用 连接 到 主 设备 的 另 一 程序 来 
驱动 这 一 “面向 终端 ”的 程序 ， 这 是 伪 终 端的 一 个 关键 用 途 。 由 “了 驱动 程序 ” 所 产生 的 
输出 ， 在 经 由 终端 驱动 程序 的 常规 输入 处 理 例如， 默认 情况 下 ， 会 把 回 车 符 映射 为 换行 
符 ) 后 ， 会 作为 输入 传递 给 与 从 设备 相连 的 面向 终端 的 程序 。 而 由 面向 终端 的 程序 向 从 设 
备 写 入 的 任何 数据 又 作为 “驱动 程序 ”的 输入 来 传递 (在 执行 完 所 有 常规 的 终端 输入 处 理 
后 )。 换 名 话说,“ 驱 动 程 序 ” 所 履行 的 功能 ， 在 效果 上 等 同 于 用 户 通常 在 传统 终端 上 所 执 
行 的 操作 。 

伪 终 端 广泛 应 用 于 各 种 应 用 领域 ,最 知名 的 要 数 telnet 和 ssh 之 类 提供 网 络 登录 服务 的 应 
H, BLA X Window 系统 所 提供 的 终 关 窗口 实现 。 












































2.16 “日 期 和 时 间 


进程 涉及 两 种 类 型 的 时 间 。 

。 真实 时 间 : 指 的 是 在 进程 的 生命 期 内 (所 经 历 的 时 间或 时 钟 时 间 )， 以 某 个 标准 时 间 
点 (日 历时 间 ) 或 固定 时 间 点 (通常 是 进程 的 启动 时 间 )〉 为 起 点 测量 得 出 的 时 间 。 在 
UNIX 系统 上 , 日 历时 间 是 以 国际 协调 时 间 (简称 UTC) 1970 年 1 月 1 日 凌晨 为 起 始 
点 ， 按 秒 测量 得 出 的 时 间 ， 再 进行 时 区 调整 (定义 时 区 的 基准 点 为 穿 过 英格兰 格林 威 
治 的 经 线 ) 。 这 一 日 期 与 UNIX 系统 的 生日 很 接近 ， 也 被 称 为 纪元 (Epoch). 

。 进程 时 间 : 亦 称 为 CPU 时 间 ， 指 的 是 进程 自 启动 起 来 ， 所 占用 的 CPU 时 间 总 量 。 可 进 
一 步 将 CPU 时 间 划 分 为 系统 CPU 时 间 和 用 户 CPU 时 间 。 前 者 是 指 在 内 核 模式 中 , 执 
行 代码 所 花费 的 时 间 比如， 执行 系统 调用 ， 或 代表 进程 执行 其 他 的 内 核 服 务 )。 后 
者 是 指 在 用 户 模式 中 ， 执 行 代码 所 花费 的 时 间 ( 比 如， 执行 常规 的 程序 代码 )。 

time 命令 会 显示 出 真实 时 间 、 系 统 CPU 时 间 ， 以 及 为 执行 管道 中 的 多 个 进程 而 花费 的 用 

户 CPU 时 间 。 





















































1 WWE: 此 处 专 指 与 主 设备 相连 的 程序 ， 而 非 设备 驱动 程序 之 类 的 含义 。 
2 详 者 注 : 即 本 初子 午 线 。 
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2.17 客户 端 /服务 器 架构 

本 书 有 多 处 论 及 客户 端 /服务 器 应 用 程序 的 设计 和 实现 。 

客户 端 /服务 器 应 用 由 两 个 组 件 进 程 组 成 。 

e "pw: 回 服 务 器 发 送 请 求 消 息 ， 请 求 服 务 器 执行 某 些 服务 。 

e 服务 器 : 分 析 客 户 端的 请 求 ， 执 行 相 应 的 动作 ， 然 后 ， 回 客户 端 回 发 啊 应 消息 。 

有 了 时， 服务 器 与 客户 病 之 则 可 能 需要 束 一 次 服务 而 进行 多 次 交 五 。 

客户 疹 应 用 通 凋 与 用 户 打 交道 ， 而 服务 顺应 用 则 提供 对 某 些 共享 资源 的 访问 。 一 般 说 来 ， 
部 是 众多 客户 喘 进 程 与 为 数 不 多 的 一 个 或 几 个 服务 器 病 进 程 进行 通信 。 

客户 端 和 服务 器 既 可 以 驻 留 于 同一 台 计 算 机 上 ， 也 可 以 位 于 联网 的 不 同 计算 机 上 。 客 户 
疹 和 服务 器 使 用 2.10 节 所 讨论 的 IPC 机 制 来 实现 彼此 通信 。 

服务 器 可 以 提供 各 种 服务 ， 如 下 所 示 。 

e 提供 对 数据 库 或 其 他 共享 信息 资源 的 访问 。 

e 提供 对 远程 文件 的 跨 网 访问 。 

o 对 某 些 商业 逻辑 进行 封装 。 

e 提供 对 共享 便 件 资源 的 访问 《〈 比 如， 打印 机 )。 

e 提供 WWW 服务 。 

将 某 项 服务 封装 于 单独 的 服务 器 应 用 中 ， 这 一 做 法 原因 很 多 ， 举 例如 下 。 

e 效率 : 较 之 于 在 本 地 的 每 台 计 算 上 提供 相同 资源 ， 在 服务 器 应 用 管理 乙 下 提供 资源 的 

一 份 实 例 ， 则 要 节约 许多 。 
e 控制 、 协 调和 安全 : 由 于 资源 (尤其 是 信息 资源 ) 的 统一 存放 ， 服 务 需 既 可 以 协调 对 
资源 的 访问 〈 例 如， 两 个 客户 端 不 能 同时 更 新 同一 信息 )， 还 可 以 保护 资源 安全 ， 令 其 




































































只 对 特定 客户 站 开放 。 
。 在 异 构 环 境 中 运行 : 在 网 络 中 ， 客 户 中 和 服务 豆 应 用 所 运行 的 便 件 平台 和 拘 作 系统 可 
以 不 同 。 


2.18 实时 性 


实时 性 应 用 程序 是 指 那些 需要 对 输入 做 出 及 时 响应 的 程序 。 此 类 输入 往往 来 自 于 外 接 的 
传感器 或 基 些 专门 的 输入 设备 ， 而 输出 则 会 去 控制 外 接 硬 件 。 具 有 实时 性 需求 的 应 用 程序 示 
例 包 括 自 动 化 装配 流水 线 、 银 行 ATM 机 ， 以 及 飞机 导航 系统 等 。 

虽然 许多 实时 性 应 用 程序 都 要 求 对 输入 做 出 快速 响应 ， 但 决定 性 因素 却 在 于 要 在 事件 触 
发 后 的 一 定时 限 内 ， 保 证 响应 的 交付 。 

要 提供 实时 啊 应 ,特别 是 在 短 时 间 内 加 以 啊 应 ,就 需要 后 层 操 作 系 统 的 文 持 。 由 于 实时 
响应 的 需求 与 多 用 户 分 时 操作 系统 的 需求 存在 冲突 ， 大 多 数 操作 系统 “天 生 ” 并 不 提供 这 样 
的 支持 。 昌 然 已 经 设计 出 不 少 实 时 性 的 UNIX 变 体 , 但 传统 的 UNIX 实现 都 不 是 实时 操作 系 
统 。Linux 的 实时 性 变 体 也 早已 诞生 ， 而 近期 的 Linux 内 核 正 转 向 对 实时 性 应 用 原生 而 全 面 
的 支持 。 

为 支持 实时 性 应 用 ，POSIX.1b 定义 了 多 个 POSIX.1 扩展 ， 其 中 包括 异步 VO~ ESSE. 
内 存 映 射 文件 、 内 存 锁定 、 实 时 性 时 钟 和 定时 器 、 备 选调 度 策略 、 实 时 性 信号 、 消 息 队 列 ， 
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以 及 信和 号 量 等 。 虽 然 这 些 扩展 还 不 具备 严格 意义 上 的 “实时 性 ”， 但 当今 的 大 多 数 UNIX 实 
现 者 文 持 上 面 所 到 的 全 部 或 部 分 扩展 《本 书 将 讲解 Linux 所 文 持 的 POSIX.lb 特性 )。 
本 书 会 以 术语 “真实 时 间 (real time)” 来 指 代 日 历时 间或 经 历时 间 的 概念 ， 而 术语 “ 实 
时 性 realtime )” 则 是 指 操作 系统 或 应 用 程序 具备 本 市 所 述 的 啊 应 能 











2.19 /proc 文件 系统 


关 似 于 其 他 的 几 种 UNIX SKIL, Linux 也 提供 了 /proc 文件 系统 ， 由 一 组 目录 和 文件 组 成 ， 
Jt (mount) 于 /proc 目录 下 。 

/proc 文件 系统 是 一 种 虚拟 文件 系统 ， 以 文件 系统 目录 和 文件 形式 ， 提 供 一 个 指 回 内 核 数 
据 结构 的 接口 。 这 为 租 看 和 改变 各 种 系统 属性 开局 了 方便 之 门 。 此 外 ， 还 能 通过 一 组 以 / 
proc/PID 形式 命名 的 目录 “(PID 即 进程 ID ) 查看 系统 中 运行 各 进程 的 相关 信息 。 

通常 ，/proc 目录 下 的 文件 内 容 都 采取 人 类 可 读 的 文本 形式 ，shell 脚本 也 能 对 其 进行 解析 。 
程序 可 以 打开 、 读 取 和 写 入 /proc 目录 下 的 既定 文件 。 大 多 数 情况 下 ， 只 有 特权 级 进程 才能 修 
改 /proc 目录 下 的 文件 内 容 。 

本 书 在 讲解 各 种 Linux 编程 接口 的 同时 ， 也 会 对 相关 的 /proc 文件 进行 介绍 。12.1 TORTE 
该 文件 系统 的 总 体 信 息 做 进一步 介绍 。 疝 无 任何 标准 对 /proc 文件 系统 进行 过 规范 ， 书 中 与 该 
文件 系统 相关 的 细节 均 为 Linux 专 有 。 


























2.20 E 结 


本 章 纵览 了 一 系列 与 Linux 系统 编程 相关 的 基本 概念 。 对 于 Linux 或 UNIX “EP” WA, 
理解 这 些 基本 概念 将 为 学 习 系 统 编程 提供 足够 的 背景 知识 。 





第 2 章 基本 概念 33 


异步 社区 会 员 flyman150(2410757683@qq.com) EF 尊重 版 权 











Y RES SE BTEÉ zs FE I 3 E 3 8 S ELA FER] 2G UCAR TE. ABICO REUS HEAT 
2H. JPVEXR ZR OE US HI AAT BARI UAR AE WIRES ZEE. BE POR. AIYEPERRCBUR HL 53 SERI 
间 的 差别 ， 并 结合 这 一 差 弄 ， 对 (GNU) C 语言 函数 库 进 行 描述 。 

无 论 何 时 ， 只 要 执行 了 系统 调用 或 者 库 函 数 ， 检 查 调 用 的 返回 状态 以 确定 调用 是 否 成 功 ， 
这 是 一 条 编程 铁 律 。 本 章 不 但 讲述 了 如 何 执行 上 述 检查 ， 还 会 介绍 一 组 函数 ， 本 书刊 载 的 编 
程 示 例 大 多 都 通过 调用 它们 来 诊断 系统 调用 或 库 函 数 的 错误 。 

本 章 的 最 后 会 探讨 与 可 移植 性 编程 相关 的 各 种 问题 ， 尤 其 会 关注 对 特性 测试 宏 以 及 
SUSV3 中 定义 的 标准 系统 数据 类 型 的 运用 。 


3.1 系统 调用 


系统 调用 是 受 控 的 内 核 入 口 ， 借 助 于 这 一 机 制 ， 进 程 可 以 请 求 内 核 以 日 己 的 名 义 去 执行 菜 
些 动 作 。 以 应 用 程序 编程 接口 (API) 的 形式 ， 内 核 提 供 有 一 系列 服务 供 程序 访问 。 这 包括 创建 
新 进程 、 执 行 IJO， 以 及 为 进程 间 通 信 创 建 管道 等 。( 手 册页 syscallsC) 列 出 了 Linux 系统 调用 。) 

在 深入 系统 调用 的 运作 方式 之 有 前， 务必 关注 以 下 几 点 。 

。 系统 调用 将 处 理 器 从 用 户 态 切换 到 核心 态 ， 以 便 CPU 访问 受到 保护 的 内 核 内 存 。 

。 系统 调用 的 组 成 是 固定 的 ， 每 个 系统 调用 都 由 一 个 唯一 的 数字 来 标识 。( 程 序 通过 名 

称 来 标识 系统 调用 ， 对 这 一 编号 方案 往往 一 无 所 知 。) 
。 每 个 系统 调用 可 辅 之 以 一 套 参 数 ， 对 用 户 空 间 〈 亦 即 进程 的 虚拟 地 址 空间 ) 与 内 核 空 
间 之 间 (相互 ) 传递 的 信息 加 以 规范 。 

从 编程 角度 来 看 ， 系 统 调用 与 C 语言 函数 的 调用 很 相似 。 然 而 ， 在 执行 系统 调用 时 ， 其 
疾 后 会 历经 诸多 步骤 。 为 说 明 这 点 ， 下 面 以 一 个 具体 的 便 件 平台 一 一 x86-32 为 例 ， 按 事件 发 
生 的 顺序 对 这 些 步骤 加 以 分 析 。 

1. 应 用 程序 通过 调用 C 语言 水 数 库 中 的 外 完 〈wrapper) 函数 ， 来 发 起 系统 调用 。 
2. 对 系统 调用 中 断 处 理 例 程 〈 稍 后 介绍 ) 来 说 ， 外 壳 图 数 必须 保证 所 有 的 系统 调用 参数 可 用 。 

通过 堆栈 ， 这 些 参数 传 入 外 壳 函 数 ， 但 内 核 却 希望 将 这 些 参 数 置 入 特定 寄存 器 。 因 此 ， 外 
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3. 由 于 所 有 系统 调用 进入 内 核 的 方式 相同 ， 内 核 需 要 设法 区 分 每 个 系统 调用 。 为 此 ,外 元 也 
数 会 将 系统 调用 编号 复制 到 一 个 特殊 的 CPU 寄存 器 (%eax) 中 。 

4. 外 壳 函 数 执行 一 条 中 断 机 器 指令 Cint 0x80)，3 引 | 发 处 理 器 从 用 户 态 切换 到 核心 态 ， 并 执行 
系统 中 断 0x80 (十 进 制 数 128) 的 中 汤 矢 量 所 指 问 的 代码 。 

较 新 的 x86-32 硬件 平台 实现 了 sysenter 指令 ， 较 之 传统 的 int 0x80 中 断 指 令 ，Ssysenter 

指令 进入 内 核 的 速度 更 快 。2.6 内 核 及 glibc 2.3.2 以 后 的 版 本 都 支持 sysenter 指令 。 

5. 为 啊 应 中 断 0x80， 内 核 会 调用 system call0 例 程 (位 于 汇编 文件 arch/i386/entry.S F) 来 
处 理 这 次 中 断 ， 有 具体 如 下 。 

a) 在 内 核 栈 中 保存 寄存 需 值 〈 参 见 6.5 15. 

bo 审核 系统 调用 编号 的 有 效 性 。 

c) 以 系统 调用 编号 对 存放 所 有 调用 服务 例 程 的 列表 《内核 变量 sys call table) 进行 索引 ， 
发 现 并 调用 相应 的 系统 调用 服务 例 程 。 大 系统 调用 服务 例 程 市 有 参数 ， 那 么 将 首先 检 
丛 参 数 的 有 效 性 。 人 例如， 会 检查 地 址 指 回 用 户 宇 间 的 内 存 位 置 是 否 有 效 。 随 后 ， 该 服 
务 例 程 会 执行 必要 的 任务 ， 这 可 能 涉及 对 特定 参数 中 指定 地 址 处 的 值 进 行 修改 ， 以 及 
在 用 户 内 存 和 内 核 内 存 间 传递 数据 《〈 比 如， 在 VO 操作 中 )。 最 后 ， 该 服务 例 程 会 将 结 
果 状 态 返 回 给 system_call0 例 程 。 

d) 从 内 核 栈 中 恢复 各 寄存 右 值 ， 并 将 系统 调用 返回 值 置 于 栈 中 。 

e) 返回 至 外 过 函数 ， 同 时 将 处 理 器 切换 回 用 户 态 。 

6. 操 系 统 调 用 服务 例 程 的 返回 值 表 明 调 用 有 误 , 外 壳 困 数 会 使 用 该 值 来 设置 全 局 变量 errno 
(参见 3.4 市 )。 然 后 ， 外 党 函数 会 返回 到 调用 程序 ， 并 同时 返回 一 个 整 型 值 ， 以 表明 系统 
调用 是 否 成 功 。 
fr Linux 上 ， 系 统 调用 服务 例 程 遵循 的 惯例 是 调用 成 功 则 返回 非 负 值 。 发 生 错 误 时 ， 例 程 

会 对 相应 erno 常量 取 反 ， 返 回 一 负 值 。C 语言 函数 库 的 外 壳 函 数 随即 对 其 再 次 取 反 《和 负 负 得 

IE), 将 结果 拷贝 至 errmno， 同 时 以 -1 作为 外 壳 函 数 的 返回 值 返 回 ， 回 调用 程序 表明 有 错误 发 生 。 

上 述 惯例 所 依赖 的 前 提 条 件 是 系统 调用 服务 例 程 ， 大 调 用 成 功 则 不 会 返回 负 值 。 可 是 ， 

对 于 少数 例 程 来 说 ， 这 一 前 提 并 不 成 立 。 一 般 情 况 下 ， 这 也 不 会 有 问题 ， 因 为 取 反 的 errno 

值 范围 不 会 与 调用 成 功 返 回 负 值 的 范围 有 交集 。 不 过 ， 有 一 种 情况 ， 沿 用 这 个 惯例 确实 会 

出 问题 : 系统 调用 fentlO] F GETOWN 操作 ， 会 在 63.3 Bn Ti. 

图 3-1 以 系统 调用 execve() 为 例 ， 展 示 了 上 文 述 及 事件 的 友 生 序列 。 在 Linux/x86-32 E, 
execve() 的 系统 调用 与 为 11( ”NR execve)。 因 此 ， 在 sys_call table 向 量 中 ， 条 日 11 包含 了 该 
系统 调用 的 服务 例 程 sys_execveO 的 地 址 。( 在 Linux F, 系统 调用 服务 例 程 的 命名 通常 会 采取 
sys_Xxyz() 的 形式 ， 其 中 ，xyz0O 正 是 所 论 及 的 系统 调用 。) 

在 是 单纯 为 了 和 车 握 本 书 的 后 续 内 容 ， 这 里 的 论述 的 确 有 些小 题 大 做 。 但 其 要 点 在 于 即便 对 
于 一 个 徐 单 的 系统 调用 ， 仍 要 完成 相当 多 的 工作 ， 因 此 系统 调用 的 开销 虽 小 ， 却 也 不 容 忽 视 。 

可 以 以 getppid0 系 统 调用 为 例 ， 研 判 一 下 发 起 系统 调用 的 开销 一 一 该 系统 调用 只 是 简 

单 地 返回 调用 进程 的 父 进 程 D. ÆA RIIT Linux 2.6.25 的 x86-32 系统 上 ， 调 用 

getppid() 一 干 万 次 大 约 需 要 2.2 秒 钟 ， 每 次 调用 大 致 需要 0.3 微 秒 。 相 形 之 下 ， 在 同一 系统 

上 ， 调 用 某 个 只 返回 整数 的 C 语言 函数 一 干 万 次 ， 仪 需 0.11 秒 ， 约 为 调用 getppid() 耗 费时 

间 的 120。 当 然 ， 大 多 数 系 统 调用 的 开销 都 明显 高 于 getppid()。 
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glibc 外 党 函数 
(sysdeps/unix/ 
sysv/linux/execve.c) 


应 用 程序 


execve(path, argv, envp) 


{ 











wes 1 dii int 0x80 
execve(path, (arguments: — NR. execve, 
argv, envp); 
me" path, argu, envp) 
[— return; E 
SE x 
ES IE 
x = 
———— Tr -==== ———— B m 
系统 调用 服 中 断 处 理 程序 em 
务 例 程 (arch/x86/kernel/entry 32.5) 
(arch/x86/kernel/ 





process 32.c) system call: 





sys execve() 


call sys call table 


[ NR execve] 


return error; 


) 


3-1: 系统 调用 的 执行 步骤 


因此 ， 从 CC 语言 编程 的 角度 来 看 ， 调 用 C 语言 函数 库 的 外 过 《wrapper) 函数 等 同 于 调用 
相应 的 系统 调用 服务 例 程 ， 在 本 书后 续 内 容 中 ,“ 调 用 系统 调用 xyzO" 3x28 él Wes " s 
用 外 元 函数 ， 由 外 充 函 数 去 调用 系统 调用 xyzO ”。 

为 调试 程序 ， 或 是 研究 程序 的 运作 机 制 ， 可 使 用 附录 A 所 介绍 的 strace 命令 ， 对 程序 发 
起 的 系统 调用 进行 跟 踩 。 

更 多 与 Linux 系统 调用 机 制 有 关 的 信息 请 见 [Love，2010]、[Bovet & Cesati，2005] 以 及 
[Maxwell, 1999], 























3.2 RAX 


一 个 库 函 数 是 构成 标准 C. Ve e ERU ITI A FEBR AZ S. CHAT Ro, AUR OCDE SUAE H. 
体 函 数 时 ， 通 第 将 其 称 为 “函数 ”而 非 “ 库 函数 ”) 库 函 数 的 用 途 多 种 多 样 ， 可 用 来 执行 以 
下 任务 : 打开 文件 、 将 时 间 转 换 为 可 旋 格 式 ， 以 及 进行 字符 串 比 较 等 。 

许多 库 函 数 〈 比 如 ， 字 符 串 操作 函数 ) 不 会 使 用 任何 系统 调用 。 另 一 方面 ， 还 有 些 库 函数 构 
建 于 系统 调用 层 之 上 。 例 如 ， 库 函数 fopen(0) 束 利用 系统 调用 open(0) 来 执行 打开 文件 的 实际 操作 。 
往往 ， 设 计 库 函数 是 为 了 提供 比 后 层 系 统 调 用 更 为 方便 的 调用 接口 。 例 如 ，printf0) 函 数 可 提供 格 
式 化 输出 和 数据 绥 存 功能 ， 而 write0 系 统 调 用 只 能 输出 学 节 块 。 同 理 ， 与 抵 层 的 brk0 系 统 调用 
相 比 ，malloc() 和 freeO 函 数 还 执行 了 各 种 登记 管理 工作 ， 内 存 的 释放 和 分 配 也 因此 而 容易 许多 。 
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3.3 标准 C 语言 函数 库 ，GNU C 语言 函数 库 (glibc) 


标准 C 语言 函数 库 的 实现 随 UNIX. 的 实现 而 异 。GNU C 语言 函数 库 (glibc, http://www. 
gnu.org/software/libc/) 是 Linux 上 最 党 用 的 实现 。 











最 初 ，Roland McGrath 是 GNU C 语言 函数 库 的 主要 开发 者 和 维护 者 。 如 今 ，Ulrich Drepper 
挑 起 了 这 副 重 担 。 

Linux 同样 支持 各 种 其 他 C 语言 男 数 库 ， 其 中 包括 应 用 于 先入 式 设备 领域 、 受 限 内 存 
条 件 下 的 C 语言 函数 库 。uClibc (http:/www.uclibc.org/) 和 dietlibc (http://www.fefe. 
de/dietlibc/) 便 是 其 中 的 两 个 例子 。 本 书 的 讨论 范围 仅 限 于 glibc， 因 为 为 Linux 开发 的 大 多 
数 应 用 程序 都 使 用 该 函数 库 。 











确定 系统 的 glibc 版 本 

有 了 时， 需要 确定 系统 所 安装 的 glibc 版 本 。 在 shell 中 ， 可 以 直接 运行 glibc 共享 库 文 件 一 一 
将 其 视 为 可 执行 文件 一 一 来 获取 glibc 版 本 。 这 会 输出 各 种 文本 信息 ， 其 中 也 包括 了 glbc 的 版 
本 








m 


$ /lib/libc.so.6 
GNU C Library stable release version 2.10.1, by Roland McGrath et al. 
Copyright (C) 2009 Free Software Foundation, Inc. 
This is free software; see the source for copying conditions. 
There is NO warranty; not even for MERCHANTABILITY or FITNESS FOR A 
PARTICULAR PURPOSE. 
Compiled by GNU CC version 4.4.0 20090506 (Red Hat 4.4.0-4). 
Compiled on a Linux >>2.6.18-128.4.1.el5<< system on 2009-08-19. 
Available extensions: 
The C stubs add-on version 2.1.2. 
crypt add-on version 2.1 by Michael Glad and others 
GNU Libidn by Simon Josefsson 
Native POSIX Threads Library by Ulrich Drepper et al 
BIND-8.2.3-T5B 
RT using linux kernel aio 
For bug reporting instructions, please see: 
«http: //www.gnu.org/software/libc/bugs.html». 


在 某 些 Linux 发 行 版 中 ，GNU C 语言 函数 库 的 路 径 名 并 非 “ibylibc.so.6” 确定 该 库 所 在 
位 置 的 方法 之 一 是 : 针对 某 个 与 glibc 动态 链接 的 可 执行 文件 (大 多 数 可 执行 文件 都 采用 这 种 
链接 方式 )， 运 行 ltdd《〈 列 出 动态 依赖 性 ) 程序 。 接 下 来 ， 再 检查 输出 的 库 依 赖 性 列表 ， 便 能 
发 现 glibc 共享 库 的 位 置 : 


$ 1dd myprog | grep libc 
libc.so.6 => /lib/tls/libc.so.6 (0x4004b000) 


应 用 程序 可 通过 测试 常量 和 调用 库 函 数 这 两 种 方法 ， DE XE SS EST CET glibc 版 本 。 从 版 
本 2.0 开始 , glibc 定义 了 两 个 常量 : GLIBC 和 GLIBC MINOR_， 供 程序 在 编译 时 (在 此 fdef 
语句 中 ) 测试 使 用 。 在 安装 有 glibc 2.12 版 本 的 系统 上 ， 以 上 两 个 常量 的 值 分 别 为 2 和 12。 然 而 ， 
如 果 程 序 在 A 系统 上 编译 ， 而 在 B 系统 〈 安 装 了 不 同 厂 本 的 glibc) 上 运行 ， 这 两 个 常量 作用 就 
有 限 了 。 为 应 对 这 种 可 能 ， 程 序 可 以 调用 函数 gnu get libc_version0， 来 确定 运行 时 的 glibc 版 本 。 
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&include «gnu/libc-version.h» 


const char *gnu get libc version(void); 


Returns pointer to null-terminated, statically allocated string 
containing GNU C library version number 


RAŽ gnu get libc version(ik|u| — Rf, 8I “2.12” BIEN. 


获取 glibe 版 本 信息 ， 还 有 一 种 方法 : EH confsrO KARRA Cglibe 特有 的 ) 
.CS GNU LIBC VERSION 配置 变量 的 值 。 这 一 调用 会 返回 类 似 于 “glibc 2.12” 的 字符 串 。 

















3.4 ”处 理 来 自 系统 调用 和 库 函 数 的 错误 


几乎 每 个 系统 调用 和 库 函 数 都 会 返回 某 类 状态 值 ， 用 以 表明 调用 成 功 与 否 。 要 了 解 调用 
是 人 否 成 功 ， 必 须 坚 持 对 状态 值 进行 检查 。 大 调用 失败 ， 那 么 必须 采取 相应 行动 。 人 至少， 程序 应 
该 显示 错误 消息 ， 警 示 有 意 想 不 到 的 事件 发 生 。 

不 检查 状态 值 ， 少 敲 几 个 字 ， 听 起 来 的 确 旅人 【尤其 是 见识 到 了 不 检查 状态 值 的 
UNIX/Linux 程序 以 后 )， 但 实际 却 得 不 偿 失 。 认 定 系 统 调 用 或 库 函 数 “不 可 能 失败 ”， 不 对 状 
态 返 回 值 进 行 检查 ， 这 会 浪费 挥 大 把 的 程序 调试 时 间 。 

少数 几 个 系统 函数 在 调用 时 从 不 失败 。 例 如， getpidO 鼠 能 成 功 返 回 进程 的 ID, 而 _exit( 
总 能 终止 进程 。 无 需 对 此 类 系统 调用 的 返回 值 进 行 检查 。 


处 理 系统 调用 错误 
每 个 系统 调用 的 手册 页 记录 有 调用 可 能 的 返回 值 ， 并 指出 了 哪些 值 表示 错误 。; 
回 值 为 -1 表示 出 错 。 因 此 ， 可 使 用 下 列 代码 对 系统 调用 进行 检查 ， 


fd = open(pathname, flags, mode); /* system call to open a file */ 
if (fd == -1) { 
/* Code to handle the error */ 






































Ei 
x 
Bi 





j 


if (close(fd) -- -1) ( 
/* Code to handle the error */ 
j 


系统 调用 失败 时 ， 会 将 全 局 整形 变量 ermo 设置 为 一 个 正 值 ， 以 标识 具体 的 错误 。 程 序 应 包含 
<errno.h> 头 文件 ， 访 文件 提供 了 对 errno 的 声明 ， 以 及 一 组 针对 各 种 钳 误 编号 而 定义 的 第 量 。 所 有 
这 些 符号 名 都 以 字母 已 打头 。 在 每 个 手册 页 内 标题 为 ERRORS HERAN, 部 刊载 有 一 份 相应 系统 
调用 可 能 返回 的 errno 值 列 表 。 以 下 便 是 利用 errno 诊断 系统 调用 错误 的 一 个 简单 示例 : 

cnt = read(fd, buf, numbytes); 

if (cnt == -1) { 

if (errno -- EINTR) 
fprintf(stderr, "read was interrupted by a signalWn"); 


else { 
/* Some other error occurred */ 
j 

















} 
1 译 者 注 : #include。 
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如 果 调 用 系统 调用 和 库 函 数 成 功 ，errno 绝 不 会 被 重 置 为 0， 故此 ， 该 变量 值 不 为 0， 可 能 
是 之 前 调用 失败 造成 的 。 此 外 ，SUSv3 允许 在 函数 调用 成 功 时 ， 将 erno 设置 为 非 去 值 〈 当 然 ， 
几乎 没有 函数 会 这 么 做 )。 因 此 ， 在 进行 错误 检查 时 ， 必 须 坚持 首先 检 和 碍 函数 的 返回 值 是 否 表 
明 调 用 出 错 ， 然 后 再 检查 errno 确定 错误 原因 。 

少数 系统 调用 《比如 ，getpriority0 ) 在 调用 成 功 后 ， 也 会 返回 -1。 要 判断 此 类 系统 调用 
ERRER, MEHAK erno 置 为 0， 并 在 调用 后 对 其 进行 检查 〈 上 述 手 法 同样 适用 于 
某 些 库 函 数 )。 

系统 调用 失败 后 ， 常 见 的 做 法 之 一 是 根据 errno 值 打印 错误 消息 。 提 供 库 函 数 perrorO f 
strerror()， 束 是 出 于 这 一 目的 。 

函数 perror0 会 打印 出 其 msg 参数 所 指 癌 的 字符 串 ， 紧 跟 一 条 与 当前 errno 值 相对 应 的 消 朋 。 























#include «stdio.h» 








void perror(const char *msg); 


以 下 是 对 系统 调用 错误 进行 处 理 的 一 种 简单 方式 : 
fd = open(pathname, flags, mode); 
if (fd -- -1) ( 
perror("open"); 
exit(EXIT FAILURE); 
j 


图 数 strerror0 会 针对 其 errnum 参数 中 所 给 定 的 错误 号 ， 返 回 相应 的 错误 字符 串 。 











#include «string.h» 


char *strerror(int errnum); 








Returns pointer to error string corresponding to errnum 





由 strerrorO 所 返回 的 字符 串 可 以 是 静态 分 配 的 , ARRE Jn EX strerrorO 1 8 H RT 86 2: 49. 
mA Nm. 

在 无 法 识别 errnum 所 含 的 错误 编号 ， 则 strerror() 3k [n]. “Unknown error nnn.” 形 式 的 字 
符 串 。 在 某 些 其 他 的 实现 中 ， 在 这 种 情况 下 ，strerrorO 会 返回 NULL. 

由 于 perrorO ll strerrorO 都 属于 对 语言 环境 敏感 (locale-sensitive) (人 参见 10.4 $) 的 函数 ， 
故而 错误 摘 述 中 使 用 的 都 是 本 地 语言 。 


处 理 来 目 库 函 数 的 销 误 
人 不同 的 库 函 数 在 调用 发 生 错误 时 ， 返 回 的 数据 类 型 和 值 也 各 不 相同 。( 参 见 每 个 函数 的 手 
册页 。) 从 错误 处 理 的 角度 来 说 ， 可 将 库 函 数 划 分 为 以 下 几 类 。 
。 东 坚 库 图 数 返 回 钳 误 信 息 的 方式 与 系统 调用 完全 相同 一 一 返回 值 为 -1， 伴 之 以 errno 
号 来 表示 有 具体 错误 。remove(0 便 是 其 中 一 例 ， 可 使 用 该 函数 来 删除 文件 〈 调 用 unlinkO) 
系统 调用 ) 或 目录 《调用 rmdir0 系 统 调用 )。 对 此 类 函数 所 发 生 的 错误 进行 诊断 ， 其 
方式 与 系统 调用 完全 相同 。 
o 攻 些 库 函 数 在 出 错时 会 返回 -1 之 外 的 其 他 值 ， 但 仍 会 设置 erno 来 表明 具体 的 出 错 情 
况 。 例 如 ，fopen0 在 出 错时 会 返回 一 个 NULL 指针 ， 还 会 根据 出 错 的 具体 底层 系统 调 
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HKE errno. AŽ perror() 和 strerror(O) 都 可 用 来 诊断 此 类 错误 。 
e 还 有 些 函 数 根本 不 使 用 errno。 对 此 类 函数 来 说 ， 确 定 错误 存在 与 否 及 其 起 因 的 方法 各 不 
相同 ， 可 见 诸 于 相应 函数 的 手册 页 中 ， 不 应 使 用 ermo、perror() 或 strerror(0) 来 诊断 错误 。 


3.5 ”天 于 本 书 示例 程序 的 注意 事项 
本 节 会 就 本 书 所 载 程序 示例 所 普遍 采用 的 各 种 惯例 及 特性 加 以 介绍 。 


3.5.1 命令 行 选项 及 参数 


本 书 所 载 的 许多 程序 示例 都 会 依照 命令 行 选 项 及 参数 来 决定 其 行为 。 

传统 的 UNIX 命令 行 选项 由 一 个 连 学 答 (-)、 表 示 选 项 的 喘 文 了 字母， 以 及 一 个 可 选 参 数组 
Wo CGNU 实用 工具 则 对 选项 语法 有 所 扩展 ， 以 两 个 连 字 从 开头 〈--)， 崇 跟 用 来 标识 选项 和 
可 选 参数 的 字符 串 。) 可 使 用 标准 库 函 数 getopt CAIK B) 对 命令 行 选 项 进行 解析 。 

这 些 示 例 之 中 ， 但 几 命 令 行 语法 占 为 周正 的 ， 虱 为 用 户 提 供 有 一 个 人 简 蛙 的 帮助 工具 : 在 
以 --help 选项 调用 程序 时 ， 会 显示 用 法 信息 ， 束 命令 行 选项 和 参数 的 语法 加 以 说 明 。 


3.5.2” 音 用 的 函数 及 头 文件 
本 书 的 大 多 数 程序 示例 都 包括 有 一 个 头 文件 ， 内 含 常用 的 各 种 定义 。 这 些 示例 同样 使 用 
了 一 系列 常用 函数 。 本 节 会 对 这 些 头 文件 及 函数 进行 讨论 。 
常用 的 头 文件 
程序 清单 3-1 所 列 的 头 文件 几乎 为 本 书 所 有 程序 示例 所 使 用 。 
程序 清单 3-1: 大 多 数 程序 示例 所 使 用 的 头 文件 















































lib/tlpi hdr.h 


#ifndef TLPI HDR H 
define TLPI HDR H /* Prevent accidental double inclusion */ 


#include «sys/types.h» /* Type definitions used by many programs */ 


include <stdio.h> /* Standard I/O functions */ 

include <stdlib.h> /* Prototypes of commonly used library functions, 
plus EXIT SUCCESS and EXIT FAILURE constants */ 

include <unistd.h> /* Prototypes for many system calls */ 

include «errno.h» /* Declares errno and defines error constants */ 

#include «string.h» /* Commonly used string-handling functions */ 

include "get num.h" /* Declares our functions for handling numeric 


arguments (getInt(), getLong()) */ 
include "error functions.h" /* Declares our error-handling functions */ 
typedef enum ( FALSE, TRUE } Boolean; 


define min(m,n) ((m) < (n) ? (m) : (n)) 
define max(m,n) ((m) > (n) ? (m) : (n)) 


#endif 
lib/tlpi hdr.h 
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错误 诊断 函数 
为 向 化 本 书 程 序 示 例 中 的 错误 处 理 ， 我 们 编写 了 错误 诊断 函数 ， 对 其 的 声明 如 程序 清 
单 3-2 所 示 。 


程序 清单 3-2: 单 用 销 误 处 理 函 数 的 声明 











lib/error functions.h 


itifndef ERROR FUNCTIONS H 
itdefine ERROR FUNCTIONS H 


void errMsg(const char *format, ...); 

Hifdef | GNUC — 

/* This macro stops 'gcc -Wall' complaining that "control reaches 
end of non-void function" if we use the following functions to 
terminate main() or some other non-void function. */ 

#define NORETURN attribute — (( noreturn )) 

#else 

#define NORETURN 

#endif 

void errExit(const char *format, ...) NORETURN ; 

void err exit(const char *format, ...) NORETURN ; 

void errExitEN(int errnum, const char *format, ...) NORETURN ; 

void fatal(const char *format, ...) NORETURN ; 

void usageErr(const char *format, ...) NORETURN ; 


void cmdLineErr(const char *format, ...) NORETURN ; 


#endif 
lib/error functions.h 


本 书 使 用 errMsg()、errExit()、err exit() 以 及 errExitEN() 函 数 ， 以 诊断 调用 系统 调用 和 库 
为 数 时 所 发 生 的 错误 。 


#include "tlpi hdr.h" 





void errMsg(const char *format, ...); 

void errExit(const char *format, ...); 

void err exit(const char *format, ...); 

void errExitEN(int errmum, const char *format, ...); 








函数 errMsg0 会 在 标准 错误 设备 上 打印 消息 。 除 了 将 一 个 终止 换行 符 上 自动 退 加 到 输出 字符 
串 尾 部 以 外 ， 该 函数 的 参数 列表 与 printt) 所 用 相同 。errMsgO 函 数 会 打印 出 与 当前 errno 值 相对 
应 的 错误 文本 ， 其 中 包括 了 错误 名 (比如 ，EPERM) 以 及 由 strerror0O 返 回 的 错误 描述 ， 外 加 
由 参数 列表 指定 的 格式 化 输出 。 

errExitO 函 数 的 操作 方式 与 errMsg0 相 似 ， 只 是 还 会 以 如 下 两 种 方式 之 一 来 终止 程序 。 其 一 ， 调 
用 exit0 退 出 。 其 二 ， 若 将 环境 变量 EF DUMPCORE 定义 为 非 空 字符 串 ， 则 调用 abort0 退 出 ， 同 时 
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生成 核心 转 储 (core dump) 文件 ， 供 调试 器 调试 之 用 。( 本 书 22.1 市 会 对 核心 转 储 文件 加 以 解释 。) 

图 数 err_exit() 类 似 于 errExitD， 但 存在 两 方面 的 过 开 。 

。 打印 错误 消息 之 前，err_exitO0 不 会 刷新 标准 输出 。 

e effr_exitO0 终 下 进程 使 用 的 是 _exit0， 而 非 exit0。 这 一 退出 方式 ， 略 去 了 对 stdio 缓冲 区 

的 刷新 以 及 对 退出 处 理 程 序 Cexit handler) 的 调用 。 

本 书 第 25 章 描 述 了 _exitO 与 exitO 之 间 的 区 别 ， 还 探讨 了 在 forkO 创 建 的 子 进程 中 对 stdio 
缓冲 区 和 退出 处 理 程 序 的 处 理 方 式 。 阅 读 第 25 章 ， 会 使 上 述 err_exit() 操 作 中 的 差 寞 细 市 得 以 
澄清 。 这 里 只 是 想 提 醒 谈 者 ， 在 编写 的 库 困 数 创 建 了 和子 进 程 ， 且 该 子 进程 因 及 生 错 误 而 需要 
终止 时 ，err_exitO 恰 好 能 一 显 身手 。 它 避免 了 对 子 进程 继承 自 父 进程 〈 即 调用 进程 ) 的 stdio 
缓冲 区 副本 进行 刷新 ， 且 不 会 调用 由 父 进程 所 建立 的 退出 处 理 程 序 。 

在 功能 上 ，errExitEN() 函 数 与 errExitO 大 体 相 同 ， 区 别 仅仅 在 于 : 与 errExitO 打 印 与 当前 
errno 值 相对 应 的 错误 文本 不 同 ，errExitENO 只 会 打印 与 ermum 参数 中 给 定 的 错误 号 (error 
number)〔 这 也 是 该 函数 后 级 名 “EN” 的 由 来 》 相 对 应 的 文本 。 

在 本 书 中 调用 了 POSIX 线程 API 的 程序 示例 中 ， 主 要 使 用 errExitENO 来 处 理 错误 。 与 传 
统 的 UNIX 系统 调用 返回 -1 表示 错误 不 同 ，POSIX 线程 函数 会 在 其 结果 中 返回 一 个 (POSIX 
线程 函数 返回 0 表示 成 功 ) 错误 号 《〈 正 数 ， 类 型 为 errno 所 专用 )。 

针对 POSIX 线程 函数 ， 可 使 用 如 下 代码 来 诊断 错误 : 

errno = pthread create(Sthread, NULL, func, &arg); 


if (errno !- O) 
errExit("pthread create"); 


然而 ， 这 一 方法 效率 不 局 ， 因 为 在 线程 程序 中 ，ermo 实际 已 被 定义 为 宏 ， 展 开 后 是 返回 
可 修改 左 值 的 一 个 函数 调用 。 因 此 ， 每 次 使 用 errno 都 会 引发 一 次 函数 调用 。 使 用 errExitENO 
改写 上 述 代码 ， 功 能 相同 ， 但 更 为 高 效 ， 如 下 所 未 : 


int s; 

































































s = pthread create(8&thread, NULL, func, &arg); 
if (s != 0) 
errExitEN(s, "pthread create"); 











在 C 语言 术语 中 ， 左 值 是 一 个 用 来 指 代 存 储 区 域 的 表达 式 。 左 值 最 为 常见 的 用 法 是 作 
为 一 个 变量 的 标识 符 。 茶 些 操作 符 也 会 产生 左 值 。 例 如 ,大 p 为 指向 菏 块 存储 区 域 的 指针 ， 
则 *p 便 是 一 个 左 值 。POSIX 线程 API 中 ， 将 erno 重新 定义 为 一 个 函数 ， 该 函数 会 返回 一 
个 指 癌 线 程 专用 存储 区 域 的 指针 请 参阅 31.3 331). 


诊断 其 他 类 型 的 错误 时 ， 本 书 使 用 的 是 fatal0、usageErrO 以 及 cmdLineErr()。 











#include "tlpi hdr.h" 


void fatal(const char *format, ...); 
void usageErr(const char *format, ...); 
void cmdLineErr(const char *format, ...); 











KZ fatalO0 用 来 诊断 一 般 性 错误 ， 其 中 包括 未 设置 ermo 的 库 函 数 错误 。 际 了 将 一 个 终止 
换行 符 目 动 过 加 到 和 输出 字符 串 尾 部 以 外 ，fatalO 的 参数 列表 与 printfO) 基 本 相同 。 该 函数 会 在 标 





1 译 者 注 : 以 宏 的 形式 。 
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准 错误 上 打印 格式 化 输出 ， 然 后 ， 像 errExitO 那 样 终止 程序 。 


PKZ usageErr() 用 来 诊断 命令 行 参 数 使 用 方面 的 错误 。 其 参数 列表 风格 与 printt0) 相 同 ， 并 在 
标准 错误 上 打印 字符 串 “Usage:”， 随 之 以 格式 化 输出 ， 然 后 调用 exit0 终 止 程序 。( 本 书 的 一 








些 程序 示例 目 行 提供 有 对 usageErr() 的 扩展 版 本 ， 命 名 为 usageError(). ) 


FA Zt cmdLineErr() 4D) usageErr()， 但 其 错误 诊断 是 针对 于 特定 程序 的 命令 行 参 数 。 


程序 清单 3-3 列 出 的 为 本 书 错误 诊断 函数 的 实现 。 
程序 清单 3-3: 为 本 书 所 有 程序 所 使 用 的 锯 误 处 理 函 数 


lib/error functions.c 


#include «stdarg.h» 

#include "error functions.h" 

#include "tlpi hdr.h" 

include "ename.c.inc" /* Defines ename and MAX ENAME */ 


Hifdef | GNUC — 

| attribute (( noreturn )) 
#endif 

static void 

terminate(Boolean useExit3) 


{ 


char *s; 


/* Dump core if EF DUMPCORE environment variable is defined and 
is a nonempty string; otherwise call exit(3) or exit(2), 
depending on the value of 'useExit3'. */ 


s - getenv("EF DUMPCORE"); 


if (s != NULL 8& *s !- '\o') 
abort(); 
else if (useExit3) 
exit(EXIT FAILURE); 
else 
| exit(EXIT FAILURE); 
} 
static void 
outputError(Boolean useErr, int err, Boolean flushStdout, 
const char *format, va list ap) 
i 
#define BUF SIZE 500 
char buf[BUF SIZE], userMsg[BUF SIZE], errText[BUF SIZE]; 


vsnprintf(userMsg, BUF SIZE, format, ap); 


if (useErr) 
snprintf(errText, BUF SIZE, " [Xs %s]", 
(err > 0 8& err <= MAX ENAME) ? 
ename[err] : "?UNKNOWN?", strerror(err)); 
else 
snprintf(errText, BUF SIZE, ":"); 


snprintf(buf, BUF SIZE, "ERRORXs sn", errText, userMsg); 
if (flushStdout) 


fflush(stdout); /* Flush any pending stdout */ 
fputs(buf, stderr); 
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fflush(stderr); /* In case stderr is not line-buffered */ 


} 
void 
errMsg(const char *format, ...) 
{ 
va list argList; 
int savedErrno; 
savedErrno - errno; /* In case we change it here */ 
va start(arglist, format); 
outputError(TRUE, errno, TRUE, format, argLlist); 
va end(argList); 
errno - savedErrno; 
} 
void 
errExit(const char *format, ...) 
{ 
va list argList; 
va start(arglist, format); 
outputError(TRUE, errno, TRUE, format, argLlist); 
va end(argList); 
terminate(TRUE); 
} 
void 
err exit(const char *format, ...) 
{ 
va list argList; 
va start(arglist, format); 
outputError(TRUE, errno, FALSE, format, arglist); 
va end(argList); 
terminate(FALSE); 
} 
void 
errExitEN(int errnum, const char *format, ...) 
{ 
va list argList; 
va start(arglist, format); 
outputError(TRUE, errnum, TRUE, format, arglist); 
va end(argList); 
terminate(TRUE); 
} 
void 
fatal(const char *format, ...) 
{ 


va list argList; 


va start(arglist, format); 
outputError(FALSE, O, TRUE, format, arglist); 
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va end(argList); 


terminate(TRUE); 
} 


void 
usageErr(const char *format, ...) 


va list argList; 
fflush(stdout); /* Flush any pending stdout */ 


fprintf(stderr, "Usage: "); 

va start(arglist, format); 
vfprintf(stderr, format, arglist); 
va end(argList); 


fflush(stderr); /* In case stderr is not line-buffered */ 
exit(EXIT FAILURE); 
} 


void 
cmdLineErr(const char *format, ...) 


{ 


va list argList; 
fflush(stdout); /* Flush any pending stdout */ 


fprintf(stderr, "Command-line usage error: "); 
va start(arglist, format); 

vfprintf(stderr, format, arglist); 

va end(argList); 


fflush(stderr); /* In case stderr is not line-buffered */ 
exit(EXIT FAILURE); 


lib/error functions.c 


程序 清单 3-4 列 出 了 程序 清单 3-3 所 包含 的 文件 enames.c.inc。 该 文件 定义 了 一 个 名 为 “ename” 
的 字符 串 数 组 ， 其 内 容 是 与 ermo 的 各 种 可 能 值 相 对 应 的 符号 名 称 。 本 书 所 采用 的 错误 处 理 函 数 
会 使 用 该 数组 ， 去 打印 与 某 个 特定 错误 号 相对 应 的 符号 名 。 之 所 以 做 如 此 变通 ， 是 为 了 应 对 以 下 
两 种 实际 情况 : 一 方面 ，strerror0 不 会 标识 出 与 错误 消息 相对 应 的 符号 常量 ;而 另 一 方面 ， 手 册 
页 在 描述 错误 时 ， 使 用 的 是 符号 名 称 。 打 印 出 符号 名 便于 读者 在 手册 页 中 得 找 错误 原因 。 

由 于 errno 值 随 Linux 便 件 架 构 的 不 同 而 有 所 变化 ， 因 此 ename.c.inc 文件 的 内 容 与 特定 
的 硬件 架构 相关 。 程 序 清单 3-4 所 示 的 ename.c.inc 文件 版 本 专用 于 Linux 2.6/x86-32 系统 。 
构建 该 文件 的 脚本 lib/Build_ename.sh， 包 含 于 为 本 书 友 布 的 源码 当中 。 可 以 使 用 该 脚本 ， 
针对 特定 的 硬件 平台 及 内 核 版 本 ， 来 构建 ename.c.inc 文件 。 

请 注意 ， 数 组 ename 中 的 某 些 字符 串 为 空 。 它 们 与 未 使 用 的 错误 值 相对 应 。 此 外 ， 其 中 的 一 
些 字符 串 包含 了 两 个 错误 名 称 ， 之 则 以 和 斜 杠 分 隅 ， 是 对 应 两 个 符号 错误 名 上 共有 相同 数值 的 情况 。 


















































从 ename.c.inc 文件 中 ， 可 以 看 出 错误 EAGAIN 和 EWOULDBLOCK 具有 相同 数值 。 
SUSv3 明确 允许 这 一 做 法 ， 而 且 在 大 多 数 其 他 UNIX 实现 (并 非 全 部 ) 上， 这些 和 常量 值 均 
相同 。 系 统 调用 返回 此 类 错误 的 情况 是 : 本 应 阻塞 〈( 亦 即 在 完成 调用 前 被 强制 等 等 ;， 而 调 
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用 者 要 求 系统 调用 返回 错误 。EAGAIN 源 于 System V， 是 由 实施 UO 操作 、 信 和 号 操作 、 消 
县 队列 操作 以 及 文件 锁定 操作 〈fcntlO0) 的 系统 调用 所 返回 的 错误 。EWOULDBLOCK 则 发 
源 于 BSD， 由 文件 锁定 〈flockO) 以 及 与 套 接 字 相 关 的 系统 调用 返回 。 

在 SUSv3 中 ， 仅 在 与 套 接 字 相关 的 各 种 接口 规范 中 提 及 EWOULDBLOCK。 对 此 类 接 
口 来 说 ，SUSv3 人 允许 非 阻 塞 调用 要 么 返回 EAGAIN， 要 么 返回 EWOULDBLOCK。 对 于 所 
有 其 他 的 非 阻 塞 调 用 ，SUSv3 只 明确 定义 了 EAGAIN 错误 。 








程序 清单 3-4:， Linux 错误 名 ( x86-32 版 ) 
lib/ename.c.inc 


static char *ename[] = 1 
JU qc. 
/* 1 */ "EPERM", "ENOENT", "ESRCH", "EINTR", "EIO", "ENXIO", "E2BIG", 
/* 8 */ "ENOEXEC", "EBADF", "ECHILD", "EAGAIN/EWOULDBLOCK", "ENOMEM", 
/* 13 */ "EACCES", "EFAULT", "ENOTBLK", "EBUSY", "EEXIST", "EXDEV", 
/* 19 */ "ENODEV", "ENOTDIR", "EISDIR", "EINVAL", "ENFILE", "EMFILE", 
/* 25 */ "ENOTTY", "ETXTBSY", "EFBIG", "ENOSPC", "ESPIPE", "EROFS", 
/* 34 */ "EMLINK", "EPIPE", "EDOM", "ERANGE", "EDEADLK/EDEADLOCK" , 
/* 36 */ "ENAMETOOLONG", "ENOLCK", "ENOSYS", "ENOTEMPTY", "ELOOP", "", 
/* 42 */ "ENOMSG", "EIDRM", "ECHRNG", "EL2NSYNC", "EL3HLT", "EL3RST", 
/* 48 */ "ELNRNG", "EUNATCH", "ENOCSI", "EL2HLT", "EBADE", "EBADR", 
/* 54 */ "EXFULL", "ENOANO", "EBADROC", "EBADSLT", "", "EBFONT", "ENOSTR", 
/* 61 */ "ENODATA", "ETIME", "ENOSR", "ENONET", "ENOPKG", "EREMOTE", 
/* 67 */ "ENOLINK", "EADV", "ESRMNT", "ECOMM", "EPROTO", "EMULTIHOP", 
/* 73 */ "EDOTDOT", "EBADMSG", "EOVERFLOW", "ENOTUNIQ", "EBADFD", 
/* 78 */ "EREMCHG", "ELIBACC", "ELIBBAD", "ELIBSCN", "ELIBMAX", 
/* 83 */ "ELIBEXEC", "EILSEQ", "ERESTART", "ESTRPIPE", "EUSERS", 
/* 88 */ "ENOTSOCK", "EDESTADDRREQ", "EMSGSIZE", "EPROTOTYPE", 
/* 92 */ "ENOPROTOOPT", "EPROTONOSUPPORT", "ESOCKTNOSUPPORT ", 
/* 95 */ "EOPNOTSUPP/ENOTSUP", "EPFNOSUPPORT", "EAFNOSUPPORT", 
/* 98 */ "EADDRINUSE", "EADDRNOTAVAIL", "ENETDOWN", "ENETUNREACH", 
/* 102 */ "ENETRESET", "ECONNABORTED", "ECONNRESET", "ENOBUFS", "EISCONN", 
/* 107 */ "ENOTCONN", "ESHUTDOWN", "ETOOMANYREFS", "ETIMEDOUT", 
/* 111 */ "ECONNREFUSED", "EHOSTDOWN", "EHOSTUNREACH", "EALREADY", 
/* 115 */ "EINPROGRESS", "ESTALE", "EUCLEAN", "ENOTNAM", "ENAVAIL", 
/* 120 */ "EISNAM", "EREMOTEIO", "EDOQUOT", "ENOMEDIUM", "EMEDIUMTYPE", 
/* 125 */ "ECANCELED", "ENOKEY", "EKEYEXPIRED", "EKEYREVOKED" , 
/* 129 */ "EKEYREJECTED", "EOWNERDEAD", "ENOTRECOVERABLE", "ERFKILL" 


B 


#define MAX ENAME 132 
lib/ename.c.inc 


解析 效 值 型 命令 行 参 数 的 函 效 


程序 清单 3-5 中 的 头 文 件 提 供 了 两 个 函数 声明 ， 在 本 书 中 频 索 用 于 解析 整形 命令 行 参数 : 
getInt() 和 getLong()。 较 之 于 atoiO、atol0 以 及 strtol(), 它们 的 主要 优点 在 于 针对 数值 型 参数 提 
供 了 一 些 基 本 的 有 效 性 检查 。 


#include "tlpi hdr.h" 























int getInt(const char *arg, int flags, const char *name); 
long getLong(const char *arg, int flags, const char *mame); 


Doth return arg converted to numeric form 
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PR Zi. getInt() fll getLong() 分 别 将 arg Tí I6] IT] 34] H8 E63 7J int 或 longs WR arg 未 包含 一 个 
7 UTPECBCY MN HR CBIDUBAS AU ELUCET GNIS, EA XA ERABUZSTT BD — A8 ATH 
息 ， 并 终止 程序 。 

各 参数 name JEF, MHEARAN FIE, H TERR arg 对 应 于 命令 行 中 相应 参数 的 
名 称 。 在 上 述 两 函数 中 ， 无 论 打 印 任何 错误 消息 ， 该 字符 串 都 是 消息 中 的 一 部 分 。 

可 通过 flags 参数 对 getmt0 和 getLongO 函 数 的 操作 施加 一 些 控制 。 默 认 情 况 下 ， 两 个 函 
数 会 处 理 包 含有 符号 十 进 制 整数 的 字符 串 。 大 将 定义 于 程序 清单 3-5 中 的 一 个 或 多 个 GN_* 系 
列 常量 与 flags 相 或 ， 则 既 可 以 选择 其 他 的 转换 进 制 ， 也 能 将 数值 范围 限制 为 非 负 或 正 整数 。 


















































虽然 flags 参数 允许 程序 强制 执行 正文 所 述 的 范围 检查 ， 但 在 条 些 情 况 下 ， 即 便 这 么 做 
看 起 来 很 合理 , 程序 示例 也 无 需 做 类 似 检 测 。 例 如 , 程序 清单 47-1 中 就 并 未 对 参数 init-value 
进行 检查 。 这 意味 看 ， 用 户 可 将 一 个 负数 作为 初始 值 赋 给 某 个 信号 量 ， 这 会 引发 随后 的 
semectlO 系 统 调用 返回 销 误 〈ERANGE)， 因 为 信号 量 个 能 为 负 值 。 在 此 交情 况 下 符 略 对 范围 
的 检查 ， 不 但 能 够 让 读者 体验 对 系统 调用 及 库 狼 效 的 正确 使 用 ， 还 能 观察 到 输入 无 效 参数 时 
所 发 生 的 情形 。 通 常 ， 现 实 世界 中 的 应 用 程序 会 对 目 身 命令 行 参数 施 以 更 为 严格 的 检查 。 
































程序 清单 3-6 给 出 了 函数 getmntO0 和 getLongO 的 实现 。 
程序 清单 3-5，get_num.c 的 头 文件 


lib/get num.h 


#ifndef GET NUM H 
#define GET NUM H 


#define GN NONNEG 01 /* Value must be >= 0 */ 
#define GN GT 0 02 /* Value must be > 0 */ 


/* By default, integers are decimal */ 


itdefine GN ANY BASE 0100 /* Can use any base - like strtol(3) */ 
#define GN BASE 8 0200 /* Value is expressed in octal */ 
#define GN BASE 16 0400 /* Value is expressed in hexadecimal */ 


long getLong(const char *arg, int flags, const char *name); 
int getInt(const char *arg, int flags, const char *name); 


ftendif 
lib/get num.h 


程序 清单 3-6: 解析 数值 型 命令 行 参数 的 函数 
lib/get num.c 
#include «stdio.h» 
include <stdlib.h> 
include <string.h> 
#include «limits.h» 
#include «errno.h» 
#include "get num.h" 
static void 
gnFail(const char *fname, const char *msg, const char *arg, const char *name) 


fprintf(stderr, "As error", fname); 
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if (name !- NULL) 
fprintf(stderr, " (in Xs)", name); 
fprintf(stderr, ": %s\n", msg); 
if (arg !- NULL 8& *arg !- '\o') 
fprintf(stderr, " offending text: %s\n", arg); 


exit(EXIT FAILURE); 
} 


static long 
getNum(const char *fname, const char *arg, int flags, const char *name) 


1 
long res; 
char *endptr; 
int base; 


if (arg == NULL || *arg == '\o') 
gnFail(fname, "null or empty string", arg, name); 


base = (flags & GN ANY BASE) ? 0 : (flags & GN BASE 8) ? 8 : 
(flags & GN BASE 16) ? 16 : 10; 


errno - 0; 
res = strtol(arg, &endptr, base); 
if (errno !- 0) 
gnFail(fname, "strtol() failed", arg, name); 


if (*endptr !- '\o') 
gnFail(fname, "nonnumeric characters", arg, name); 


if ((flags & GN NONNEG) && res « O) 
gnFail(fname, "negative value not allowed", arg, name); 


if ((flags & GN GT 0) && res <= 0) 
gnFail(fname, "value must be » O", arg, name); 


return res; 


j 


long 
getLong(const char *arg, int flags, const char *name) 


return getNum("getLong", arg, flags, name); 


} 
int 
getInt(const char *arg, int flags, const char *name) 
{ 
long res; 
res = getNum("getInt", arg, flags, name); 
if (res » INT MAX || res « INT MIN) 
gnFail("getInt", "integer out of range", arg, name); 
return (int) res; 
} 


lib/get num.c 
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3.6 ”可 移植 性 问题 


本 节 将 探 守 可 移植 性 系统 编程 方面 的 议题 。 除 了 会 介绍 特性 测试 宏 ， 以 及 SUSv3 所 定义 的 
标准 系统 数据 类 型 之 外 ， 还 会 关注 一 些 其 他 的 可 移植 性 问题 。 


3.6.1 ”特性 测试 宏 

系统 调用 和 库 函 数 API 的 行为 受 各 种 标准 (参见 1.3 50 的 制约 。 这 些 标准 中 的 一 部 分 是 
由 Open Group (SUS) 这 样 的 标准 机 构 来 制定 的 ， 而 另 一 部 分 则 是 由 具有 重要 历史 意义 的 两 
个 UNIX 实现 BSD 和 System V Release4《〈 以 及 相关 的 System V 接口 定义 ) 来 定义 。 

编写 可 移植 性 应 用 程序 时 ， 有 时 会 希望 各 个 头 文件 只 显露 放 循 特定 标准 的 定义 《第 量 、 函 
数 原型 等 )。 要 达到 这 一 目的 ， 在 编译 程序 时 需要 定义 下 列 一 个 或 多 个 特性 测试 宏 。 方 式 之 一 
是 在 程序 源码 包含 任何 头 文件 之 前 ， 定 义 如 下 宏 : 

#define BSD SOURCE 1 

此 外 ， 还 可 以 使 用 C 编译 占 的 -D 选项 : 

$ cc -D BSD SOURCE prog.c 


术语 “特性 测试 宏 ” 似 乎 易于 让 人 产生 误解 ， 但 只 要 从 UNIX 实现 的 角度 看 来 ， 读 者 
便 会 发 现 这 一 称谓 其 实 颇 有 道理 。 通 过 测试 (使 用 ##f) 应 用 程序 为 宏 所 定义 的 值 ， 实 现 可 
以 决定 应 该 让 哪些 (由 头 文件 提供 的 ) 特性 可 见 。 

以 下 特性 测试 宏 由 相关 标准 定义 而 成 ， 因 而 在 支持 这 些 标准 的 所 有 系统 上 ， 对 这 些 宏 的 
使 用 均 是 可 移植 的 : 
_POSIX_SOURCE 

一 经 定义 《任何 值 )， 头 文件 会 显露 符合 POSIX.1-1990 和 ISO C (19900 标准 的 定义 。 该 
宏 已 被 POSIX C SOURCE 取代 。 


_POSIX_C_SOURCE 

若 定 义 为 1， 效 果 与 POSIX SOURCE 相同 。 若 将 其 值 定义 为 大 于 等 于 199309， 头 文件 
还 会 显露 遵从 POSIX.1b《〈 实 时 ) 标准 的 定义 。 奉 将 其 值 定义 为 大 于 等 于 199506， 便 会 开启 对 
POSIX.1c (线程 ) 定义 的 支持 。 若 将 其 值 定义 为 200112, 则 开启 对 POSIX.1-2001 基本 规范 CHE 
除了 XSI 扩 展 ) 定义 的 支持 。(2.3.3 版 本 之 前 ，glibc 头 文件 对 值 为 200112 的 POSIX C SOURCE 
不 做 解释 。〉 若 将 其 值 定义 为 200809， 便 会 开启 对 POSIX.1-2008 基本 规范 定义 的 支持 。(2.10 
版 本 之 前 ，glibe 头 文件 对 值 为 200809 的 POSIX C SOURCE 不 做 解释 。) 


_XOPEN_SOURCE 

一 经 定义 《任何 值 )， 头 文件 会 显露 对 POSIX.1、POSIX.2 和 X/Open(XPG4) 标 准 的 定义 。 
右 将 其 值 定 义 为 大 于 等 于 3$00， 还 会 开局 对 SUSv2 (UNIX 98 和 XPG5S) 扩 展 的 文 持 。 大 将 其 值 
设置 为 大 于 等 于 600， 则 又 开局 了 对 SUSv3 XSI (UNIX 03) 扩 展 和 C99 扩展 的 支持 。(2.2 版 本 之 
前 ，glibc 头 文 件 对 值 为 600 的 XOPEN _ SOURCE 不 做 解释 。) 若 将 其 值 设 置 为 大 于 等 于 700, 
便 会 开启 对 SUSv4 XSI 扩展 的 文 持 (2.10 CZ Bi, glibc 头 文件 对 值 为 700 的 XOPEN SOURCE 
不 做 解释 )。 之 所 以 选择 500. 600 和 700 作为 取 值 ， 是 因为 SUSv2、SUSv3 和 SUSv4 分 别 是 



















































































1 译 者 注 : #include。 
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X/Open 规范 的 第 5 号 、 第 6 号 和 第 7 号 。 

以 下 列 出 为 glibc 专用 的 特性 测试 宏 : 
_BSD_SOURCE 

一 经 定义 《任何 值 )， 开 局 对 BSD 定义 的 文 持 。 此 外 ， 只 要 定义 了 该 安 ， 便 以 值 199506 定 
X f POSIX C _ SOURCE。 极 少数 的 情况 下 ， 当 标准 之 间 发 生 冲突 时 ， 显 式 设置 该 宏 会 导致 
系统 向 BSD 定义 倾斜 。 








_SVID_SOURCE 
一 经 定义 《任何 值 )， 头 文件 会 显露 符合 System V 接口 规范 〈SVID ) 的 定义 。 
_GNU_SOURCE 


一 经 定义 《任何 值 )， 头 文件 除了 会 显露 符合 前 述 所 有 标准 的 定义 〈 通 过 设置 前 述 所 有 安 
来 提供 ) 外， 还 会 开启 对 各 种 GNU 扩展 定义 的 文 持 。 

在 不 融 任 何 特 殊 选 项 调用 GNU C 编译 器 时 ， 即 默认 定义 了 _POSIX_SOURCE、_POSIX_ 
C SOURCE-200809 (glibc 版 本 为 2.5-2.9 时 ， 其 值 为 200112; glibe 版 本 低 于 2.4 时 ， 其 值 为 
199506)、 BSD SOURCE 以 及 SVID SOURCE, 

在 对 个 别 宏 进 行 了 定义 ， 或 以 其 标准 模式 之 一 去 调用 编译 器 时 (比如 ,cc -ansi 或 cc — 
std=c99)， 只 会 按 需 提供 定义 。 不 过 ， 有 一 个 例外 : RX POSIX C SOURCE 另行 定义 ， 
日 未 以 标准 模式 之 一 去 调用 编译 器 ， 则 POSIX C SOURCE 的 值 会 被 定义 为 200809 (glibce 版 
本 为 2.4-2.9 时 ， 其 值 为 200112，glibc 版 本 低 于 2.4 时 ， 其 值 为 199506). 

定义 多 个 宏 有 车 加 效应 ， 故 而 缺 省 情况 下 所 提供 的 宏 设 置 ， 也 可 使 用 如 下 cc 命令 来 明确 选择 : 

$ cc -D POSIX SOURCE -D POSIX C SOURCE=199506 \ 

-D BSD SOURCE -D SVID SOURCE prog.c 

<features.h> 头 文件 和 feature test macros(7) 手 册页 ， 针 对 赋 给 每 个 特性 测试 安 的 值 ， 提 供 
了 更 多 精确 信息 。 


























POSIX C SOURCE.  XOPEN SOURCE 以 及 POSIX.1/SUS 


在 POSIX.1-2001/SUSv3 中 ， 仅 对 POSIX C SOURCE 和 XOPEN SOURCE 特性 测试 宏 
进行 了 明确 定义 ， 应 用 程序 要 符合 该 标准 ， 应 分 别 将 上 述 两 宏 的 值 定义 为 200112 和 600。 将 
POSIX C SOURCE 值 定义 为 200112， 即 表示 应 用 程序 符合 POSIX.1-2001 基本 规范 〈 即 符 
合 除 XSI 扩展 规范 以 外 的 POSIX 规范 )。 将 XOPEN SOURCE 值 定义 为 600， 即 表示 应 用 程 
序 符合 SUSv3 规范 〈 即 符合 XSI 规范 基本 规范 加 XSI 扩展 规范 )。 上 述 声 明 同 样 适用 
T POSIX.1-2008/SUSv4， 只 是 需要 将 上 述 两 个 特性 测试 宏 的 值 分 别 定义 为 200809 和 700. 

SUSv3 明文 规定 将 XOPEN SOURCE 设置 为 600 所 提供 的 特性 ， 就 包含 了 将 POSIX C 
SOURCE 设置 为 200112 时 所 激活 的 所 有 特性 。 因 此 ， 为 符合 SUSv3 (EU XSI 规范 )， 应 用 程 
序 只 需要 定义 XOPEN SOURC。SUSv4 做 出 了 类 似 规定 ， 将 XOPEN SOURCE 设置 为 700 
所 提供 的 特性 ， 包 含 了 _POSIX_C_SOURCE 值 被 设 置 为 200809 时 所 激活 的 所 有 特性 。 

















函数 原型 及 源码 示例 中 的 特性 测试 宏 


手册 页 则 摘 述 了 欲 使 菏 个 特定 常量 定义 或 函数 声明 在 头 文 件 中 可 见 ， 应 该 定义 哪些 特性 
测试 宏 。 为 本 书 编写 的 所 有 源码 示例 ， 编 译 时 采用 缺 省 的 GNU C 语言 编译 器 选项 或 如 下 选项 : 
$ cc -std-c99 -D XOPEN SOURCE-600 
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对 于 在 本 书 中 出 现 的 函数 ， 为 了 能 在 以 上 述 两 种 方式 编译 的 程序 中 编译 通过 ， 在 其 原型 
处 均 注 明了 使 用 这 些 函 数 所 必须 定义 的 任何 特性 测试 宏 。 手 册页 中 ， 对 于 局 用 每 一 函数 声明 
所 希 定 义 的 特性 测试 安 ， 则 有 更 为 精确 的 描述 。 


3.6.2 ”系统 数据 类 型 


不 同 实现 的 数据 类 型 ， 例 如 : 进程 ID、 用 户 ID 以 及 文件 偏 移 量 ， 表 示 时 均 采 用 标准 C 
语言 类 型 。 尽 管 也 有 可 能 使 用 C 语言 的 基本 类 型 ， 诸 如 int 和 long, 来 声明 存储 此 类 信息 的 变 
量 ， 但 这 一 做 法 降低 了 不 同 UNIX 系统 间 相 互 移 植 的 难度 ， 分 析 如 下 。 

e Bi UNIX 实现 的 不 同 〈 例 如 ，long 型 可 能 在 系统 A EI&HBEZ ACE. ERA BE 

为 8 字 节 )， 有 时 甚至 是 同一 实现 中 编 详 环境 的 不 同 ， 这 些 基本 闫 型 的 大 小 各 不 相同 。 
更 有 甚 者， 不同 实现 可 能 会 使 用 不 同类 型 来 表示 相同 信息 。 人 例如， 进程 ID 在 系统 A 
上 为 int 型， 而 在 系统 B 上 为 long 型 。 

。 即便 是 针对 同一 球 UNIX 实现 ， 用 以 表征 信息 的 类 型 在 不 同 版 本 之 间 也 会 有 所 不 同 。 

Linux 上 较为 知名 的 例子 是 用 户 ID 和 组 ID。 在 Linux 2.2 及 其 之 前 , 这 些 值 以 16 位 表 
示 。 在 2.4 及 其 之 后 ， 则 以 32 位 表示 。 

为 避免 此 类 可 移植 性 问题 ，SUSv3 规范 了 各 种 标准 系统 数据 类 型 ， 并 要 求 名 个 实现 适当 
加 以 定义 和 使 用 。 每 种 类 型 的 定义 均 使 用 C 语言 的 typedef 特性 。 例 如 ，pid_t 数据 类 型 用 以 
表示 进程 ID， 在 Linux/x86-32 上 ， 其 类 型 定义 如 下 : 

typedef int pid t; 

标准 系统 数据 类 型 中 的 大 多 数 ， 其 命名 均 以 4 结尾 。 其 中 的 许多 都 声明 于 头 文 件 
<sys/types.h> 中 ， 余 下 的 少量 则 定义 于 其 他 头 文件 中 。 

应 用 程序 应 采用 这 些 类 型 定义 来 声明 其 使 用 的 变量 ， 才 能 保证 可 移植 性 。 例 如 ， 如 下 声 
明 将 允许 应 用 程序 在 任何 符合 SUSv3 标准 的 系统 上 正确 表示 进程 ID. 

pid t mypid; 

表 3-1 列 出 将 在 书 中 碰 到 的 部 分 系统 数据 类 型 。 对 于 表 中 的 某 些 特定 类 型 ，SUSvV3 要 求 
以 “运算 类 型 (arithmetic type)” 来 加 以 实现 。 这 意味 看 ， 实 现 所 选择 的 撒 层 闫 型 ， 要 么 为 整 
数 类 型 ， 要 么 为 浮 点 (实数 或 复数 ) 型 。 


表 3-1: 系统 数据 类 型 选 录 
















































































blkent t 文件 块 数量 (15.1 节 ) 
blksize t 文件 块 大 小 (15.1 节 ) 
cc t : 终端 特殊 字符 (62.4 市 ) 
clock t 整 型 或 浮 点 型 实数 ”| 以 时 钟 周 期 计量 的 系统 时 间 〈10.7 7H) 








clockid t 运算 类 型 之 一 针对 POSIX.1b 时 钟 和 定时 器 函数 的 时 钟 标 识 符 
comp t SUSv3 未 作 规 范 经 由 压缩 处 理 的 时 钟 周期 〈28.1 782 

dev t 运算 类 型 之 一 设备 写 ， 包 含 主 、 次 设备 写 〈15.1 节 ) 

DIR 无 类 型 要 求 目录 流 (18.8 节 ) 

fd set 结构 类 型 select() (63.2.1 节 ) 中 的 文件 描述 符 集合 
fsblkcnt t 无 符号 整 型 文件 系统 块 数量 (14.11 节 ) 
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fsfilent t 


gid t 
id t 


in addr t 


in port t 


msglen t 
msgqnum t 
nfds t 
nlink t 
off t 
pid t 
ptrdiff t 
rlim t 
sa family t 
shmatt t 
sig atomic t 
siginfo t 
sigset t 
size t 
socklen t 
speed t 
ssize t 


stack t 
suseconds t 


tcflag t 
time t 
timer t 


uid t 


FIJ am 





Hog gm mm E 


i 


求 








续 表 





文件 数量 (14.11 782 
数值 型 组 标识 从 (8.3 市 ) 


用 以 存放 标识 符 的 通用 类 型 ， 其 大 小 至 少 可 放置 pid t. uid t 
和 gid t 类 型 


IPv4 地 址 (59.4 T5) 
IP m1 (59.4 T) 
文件 i-node 号 (15.1 T) 
System V IPC 键 (45.2 13) 
文件 权限 及 类 型 (15.1 节 ) 





POSIX JH ABA FI TRES T 


System V 消 恩 队列 所 允许 的 学 节 数 (46.4 7) 
System V TH AAZ SE IG (46.4 节 ) 
poll) (63.2.2 节 ) 中 的 文件 描述 符 数 量 
文件 的 〈 硬 ) 连接 数量 (15.1 78) 

文件 偏 移 量 或 大 小 (4.7 节 及 15.1 节 ) 

进程 ID、 进 程 组 ID RAW ID (6.3 节 、34.2 节 、34.3 T) 
两 指针 差 值 ， 为 有 符号 整 型 

资源 限制 (36.2 市) 

套 接 字 地 址 族 (56.4 节 ) 

与 System V 共享 内 存 段 相连 的 进程 数量 

可 进行 原子 访问 的 数据 类 型 (21.1.3 市 ) 

言 号 起 源 的 相关 信息 〈21.4 T) 

信号 集合 (20.9 节 ) 

对 象 大 小 (以 字 节 数 计 ) 

套 接 字 地 址 结构 大 小 (以 字 节 数 计 )(56.3 节 ) 
终端 线 速 度 (62.7 节 ) 

字 节 数 或 (为 负 时 ) 标识 错误 

对 备 选 信号 栈 的 描述 (21.3 市 ) 














微 秒 级 的 时 间 间 隔 〈10.1 节 ) 





终 妆 模式 标志 位 的 位 掩 码 (62.2 节 ) 

目 所 谓 纪 元 (Epoch) (10.1 3) 始 ， 以 秒 计 的 日 历时 间 
POSIX.Ib 间隔 定时 堪 函 数 〈23.6 2. 的 定时 器 标识 符 
数值 型 用 户 标识 符 (8.1 节 ) 
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在 后 续 章 广 中 论 及 表 3-1 的 数据 类 型 时 , 常会 作 如 下 表述 : 攻关 型 “为 一 整 效 关 型 《由 SUSV3 
所 规定 )” 这 是 指 SUSv3 要 求 以 整 型 来 定义 该 闫 型 ， 但 不 要 求 使 用 菏 一 特定 的 原生 (native). 23 
PRA! AU: short, int IX long). GH, FXT Linux 中 的 每 种 系统 数据 类 型 ， 书 中 不 会 言明 实 
际会 使 用 哪 种 原生 数据 类 型 加 以 表示 ， 因 为 编写 可 移植 应 用 程序 时 无 需 关 注 这 扩 。) 


打印 系统 数据 类 型 值 

当 需 要 打印 表 3-1 所 列 数值 型 系统 数据 类 型 〈 例 如 : pid tb uid t) 的 值 时 ， 调 用 printtO 应 
留意 不 要 引入 对 表现 形式 的 依赖 。 这 一 依赖 是 由 于 C 语言 的 〈 升 级 型 ) 目 动 类 型 转换 造成 的 。 
该 转换 会 将 short 型 转换 为 int 型 ， 而 对 于 int 型 和 long 型 则 置 之 不 问 。 这 就 意味 着 传 入 printf() 
的 要 么 为 int 型， 要 么 为 long 型 。 然 而 ， 因 为 printfO 在 运行 时 无 从 判定 其 参数 类 型 ， 调 用 者 必须 
明确 其 格式 限定 符 为 %d 还 是 %ld。 问 题 在 于 在 printtD) 中 仅 吏 一 种 限定 符 进 行 编码 会 导致 对 实现 


的 依赖 。 和 常见 的 应 对 策略 是 强制 转换 相应 值 为 long 型 后 ， 再 使 用 %ld 的 限定 符 ， 如 下 所 示 : 
pid t mypid; 
































mypid = getpid(); /* Returns process ID of calling process */ 
printf("My PID is %ld\n", (long) mypid); 


上 述 技术 有 个 例外 。 因 为 在 一 些 编 详 环 境 中 数据 类 型 off t 大 小 与 long long 相当 ,所 以 会 
将 off t 强制 转换 为 该 类 型 并 使 用 %lld 的 限定 符 ， 如 5.10 市 所 述 。 


C99 标准 为 printf 定义 了 名 为 z 的 长 度 修饰 从 ， 以 表明 紧 随 其 后 的 整 型 转换 是 与 size t 或 
ssize t 类 型 相对 应 的 。 因 而 ， 要 对 付 这 些 类 型 , 束 可 以 用 %zd 来 取代 %ld 外 加 类 型 转换 的 方法 了 。 
尽管 glibe 文 持 该 限定 符 , 但 其 并 未 获得 所 有 UNIX 实现 的 支持 , 故而 本 书 也 避免 来 用 这 一 做 法 。 

C99 标准 还 定义 有 名 为 j 的 长 度 修饰 从， 并 规定 其 相应 参数 的 类 型 为 intmax_t 或 
uintmax t)， 该 关 型 乙 大 ,足以 用 其 表示 任何 类 型 的 整数 。 最 终 ， 使 用 intmax_t 强制 转换 外 
MAjd 限定 符 的 方案 应 取代 long 强制 转换 外 加 %ld 限定 符 的 方案 ， 成 为 打印 数值 型 系统 效 
据 闫 型 的 首选 ， 因 为 前 者 可 以 处 理 long long 型 值 和 请 如 int128 t 之 类 的 任 一 可 扩展 整数 类 
型 。 然 而 ， 出 于 相同 的 原因 (未 获得 所 有 UNIX 实现 的 文 持 )， 本 书 没有 采用 这 一 技术 。 


3.6.3 ”其 他 的 可 移植 性 问题 
本 节 所 讨论 的 ， 是 进行 系统 编程 时 可 能 会 过 到 的 一 些 其 他 可 移植 性 问题 。 


初始 化 操作 和 使 用 结构 


每 种 UNIX 实现 ， 痢 明确 定义 了 一 系列 标准 结构 ， 用 于 各 种 系统 调用 及 库 函 数 。 现 试 举 
一 例 ， 请 考虑 用 来 表示 信号 量 操作 (通过 semop0 系 统 调用 去 执行 ) 的 结构 sembuf: 


struct sembuf { 


















































unsigned short sem num; /* Semaphore number */ 
short sem op; /* Operation to be performed */ 
short sem flg; /* Operation flags */ 


尽管 SUSv3 定义 了 诸如 sembuf 之 类 的 结构 ， 但 意识 到 如 下 两 点 尤为 重要 。 
e 总 体 而 言 ， 未 对 此 类 结构 内 部 的 字段 顺序 作出 规范 。 

。 一 些 情 况 下 ， 此 类 结构 内 会 包含 额外 的 、 与 实现 相关 的 字段 。 

因此 ， 以 如 下 方式 对 数据 结构 进行 初始 化 ， 其 代码 是 无 法 移植 的 : 
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struct sembuf s = ( 3, -1, SEM UNDO }; 

这 段 初 始 化 程序 尽管 在 Linux 上 运行 没有 问题 ， 但 在 其 他 一 些 实现 上 ， 由 于 对 sembuf Zi 
构 的 定义 中 顺序 会 有 所 不 同 ， 故 而 将 无 法 工作 。 要 在 初始 化 时 消除 此 类 移植 问题 ， 必 须 明 确 
采用 如 下 赋值 语句 : 


struct sembuf s; 





s.sem num = 3; 
s.sem op -1; 
s.sem flg - SEM UNDO; 


如 果 采 用 的 是 C99 语言 标准 ， 可 以 利用 该 语言 针对 结构 初始 化 的 新 语法 ， 写 出 等 价 代码 : 

struct sembuf s = { .sem num = 3, .sem op = -1, .sem flg = SEM UNDO }; 

若 需 要 将 标准 结构 的 内 容 转 储 到 文件 时 ， 标 准 结 构 的 成 员 顺 序 也 要 加 以 考虑 。 此 时 要 消 
除 可 移植 性 问题 ， 简 单 地 将 结构 以 二 进 制 形式 号 入 是 无 济 于 事 的 。 相 反 ， 必 须 将 结构 内 字段 
以 特定 顺序 逐一 加 以 记录 《可 能 是 以 文本 形式 )。 


使 用 未 见 诸 于 所 有 实现 的 安 


A, RUMAKI UNIX 实现 都 对 一 个 宏 做 了 定义 。 例 如 ，WCOREDUMPO 宏 《用 于 检 
汕 子 进程 是 售 生成 了 核心 转 储 文件 ) 的 使 用 非 音 广泛 ， 但 SUSv3 却 并 未 对 其 进行 规范 。 因 此 ， 
ER UNIX 实现 上 ， 该 宏 并 不 存在 。 要 妥善 处 理 此 类 湾 在 的 可 移植 性 问题 ， 可 以 使 用 C 语 
言 的 预 编 详 指 令 贞 fdef， 如 下 所 示 : 

#ifdef WCOREDUMP 


/* Use WCOREDUMP() macro */ 
#endif 


不 同 实现 间 所 需 头 文件 的 变化 


有 些 情况 下 ， 包 含 各 种 系统 调用 和 库 函 数 原 型 的 头 文件 ， 在 不 同 UNIX 实现 之 间 会 有 所 
不 同 。 本 书 仅 展示 Linux 的 需求 ， 并 注 明 其 与 SUSv3 间 的 各 种 变化 。 

本 书 论 及 部 分 函数 时 , BIAR ERLI, 伴 之 以 “ 谍 出 于 可 移植 型 考虑 */” 形 式 的 注解 。 
这 表明 Linux 和 SUSv3 郊 不 需要 此 头 文 件 ， 但 由 于 杂 些 其 他 (尤其 是 老 一 些 有 的 ) 实现 可 能 需 
要 ， 在 可 移植 程序 中 应 将 其 纳入 。 


POSIX.1-1990 曾 规 定 ， 编 程 时 如 需 使 用 其 所 规 范 的 许多 函数 ， 在 包含 与 该 函数 相关 的 
任何 其 他 头 文 件 之 前 , 必须 包含 头 文 什 <sys/types.h>。 可 是 , 这 一 要 求 不 久 束 成 了 多 此 一 蔡 。 
绝 大 多 数 现代 UNIX 实现 中 的 应 用 程序 ， 在 使 用 这 些 函数 时 都 无 需 包 含 此 头 文 件 。SUSvI1 
因而 删除 了 这 一 要 求 。 然 而， 在 编写 可 移植 程序 时 ， 将 以 其 为 首 的 头 文件 包括 在 内 ， 仍 不 
失 为 明智 之 举 。( 不 过 ， 本 书 的 程序 示例 中 省 去 这 一 头 文件 ， 因 为 在 Linx 平台 下 此 举 实 属 
多 余 ， 而 程序 代码 也 因此 少 了 一 行 。) 
















































































3.7 ”总结 


系统 调用 允许 进程 加 内 核 请 求 服 务 。 与 用 户 空 间 的 函数 调用 相 比 ， 哪 介 是 最 简单 的 
系统 调用 都 会 产生 显 震 的 开销 ， 其 原因 是 为 了 执行 系统 调用 ， 系 统 需 要 临时 性 地 切换 到 
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Bob. Iah, AERIS UE RHS HIE ACER VALER VALEE TRECE Aha v e 
NE IE o 

标准 的 C EA RAUR T KEERA DRAEN]. ASERS HR cU HI 
完成 工作 , WA- HS PEERS ASTE? ERRARTE. 在 Linux E, 一 般 情况 下 , 使 用 glibc 
VES C 语言 标准 库 的 实现 。 

大 多 数 系 统 调用 和 库 函 数 都 会 返回 一 个 状态 值 ， 以 表明 调用 成 功 与 否 。 对 这 一 返回 状态 
进行 检查 是 一 条 纺 程 铁 律 。 

为 本 书 的 程序 示例 还 实现 有 一 批 函 数 。 其 所 执行 的 任务 包括 诊断 错误 和 解析 命令 行 参数 。 

本 革 也 提供 了 一 系列 指南 及 技术 ， 以 帮助 读者 编写 可 移植 的 系统 程序 ， 此 类 程序 可 在 任 
何 符合 标准 的 系统 上 运行 。 

编译 应 用 程序 时 ， 可 定义 不 同 的 特性 测试 宏 ， 以 控制 尖 文 件 显露 对 特定 标准 的 定义 。 妆 
希望 确保 程序 符合 东 些 正式 或 由 实现 定义 的 标准 时 ， 上 述 做 法 可 谓 是 非常 实用 。 

利用 定义 于 各 个 标准 中 《而 非 原 生 C 语言 类 型 ) 的 系统 数据 类 型 ， 能 够 改善 系统 编程 
的 可 移植 性 。SUSv3 定义 有 大 量 系统 数据 类 型 ，UNIX 实现 应 加 以 文 持 ， 应 用 程序 应 予以 
采用 。 









































3.8 练习 


3-1 ”使 用 Linux 专 有 的 rebootO 系 统 调 用 重 司 系统 时 ， 必 须 将 第 二 个 参数 magic2 定义 为 一 
组 magic 号 之 一 (例如 ，LINUX REBOOT MAGIC2)。 这 些 magic 号 有 何 意义 ? 
(将 magic 号 转换 为 十 六 进 制 数 ， 对 解 题 会 有 所 帮助 。) 
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Vt 


X MF 1/O: 通用 的 1/O 模型 


现在 ， 我 们 开始 深入 研究 系统 调用 API。 作 为 UNIX 系统 设计 思想 的 核心 理念 ， 文 件 Cile) 
是 一 个 不 错 的 起 点 。 本 章 重 点 介绍 用 于 文件 输入 /输出 的 系统 调用 。 

本 章 开 篇 会 讨论 文件 描述 符 的 概念 ,随后 会 逐一 讲解 构成 通用 VO 模型 的 系统 调用 ,其 中 
包括 : 打开 文件 、 关 闭 文 件 、 从 文件 中 读数 据 和 问 文件 中 写 数据 。 

本 章 所 关注 的 是 磁盘 文件 的 VO 操作 。 然 而 ， 鉴 于 可 以 采用 相同 的 系统 调用 对 诸如 管 
终 闹 等 所 有 类 型 的 文件 施 以 输入 /输出 操作 ， 故 而 本 革 的 大 部 分 内 容 会 与 后 络 o 

第 5 章 会 在 本 章 基础 上 对 文件 IO 做 深入 探讨 。 绥 冲 Cbuffering) 是 文件 VO 的 另 一 要 点 ， 

复杂 程度 足以 专 冬 一 革 讲 述 。 第 13 SEDIS Y PEU stdio 库 中 的 VO 缓冲 。 














4.1 概述 


所 有 执行 VO 操作 的 系统 调用 都 以 文件 描述 符 ， 一 个 非 负 整数 《〈 通 种 是 小 整数 )， 来 指 代 
打开 的 文件 。 文 件 揪 述 从 用 以 表示 所 有 类 型 的 已 打开 文件 ， 包 括 管 关 (pipe)、FIFO、socket、 终 剖 、 
设备 和 普通 文件 。 针 对 每 个 进程 ， 文 件 描述 符 都 目 成 一 套 。 

按照 惯例 ， 大 多 数 程序 都 期 望 能 够 使 用 3 种 标准 的 文件 描述 符 ， 见 表 4-1。 在 程序 开始 运 
行 之 前 ，shell 代表 程序 打开 这 3 个 文件 措 述 符 。 更 确切 地 说 ， 程 序 继承 了 shell 文件 摘 述 符 的 
副本 一 一 在 shell 的 日 党 操作 中 ， 这 3 个 文件 描述 符 始 终 是 打开 的 。( 在 区 互 式 shell 中 ， 这 3 
个 文件 揪 述 符 通常 指 问 shell 运行 所 在 的 终端 。〉 如 末 命 令 行 指定 对 输入 /和 输出 进行 重 定 向 操作 ， 
那么 shell 会 对 文件 描述 符 做 适当 修改 ， 然 后 再 局 动 程序 。 














表 4-1: 标准 文件 描述 符 


标准 输入 STDIN FILENO stdin 


标准 输出 STDOUT FILENO stdout 
标准 错误 STDERR FILENO stderr 
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在 程序 中 指 代 这 些 文件 描述 符 时 ， 可 以 使 用 数 子 (0、1、2) 表示 ， 或 者 采用 <unistd.h> 
所 定义 的 POSIX 标准 名 称 一 一 些 方法 更 为 可 取 。 


虽然 stdin, stdout 和 stderr 变量 在 程序 初始 化 时 用 于 指 代 进 程 的 标准 输入 、 标 准 输 
出 和 标准 错误 ,但 是 调用 freopen0) 库 函数 可 以 使 这 些 变 量 指 代 其 他 任何 文件 对 象 。 作 为 
其 操作 的 一 部 分 ，freopenO 可 以 在 将 流 〈stream) 重新 打开 之 际 一 并 更 换 隐匿 其 中 的 文 
件 描述 符 。 换 言 乙 ， 针 对 stdout 调用 freopen0 〇 函数 后 ， 无 法 保证 stdout 变量 值 仍然 为 1。 




















下 面 介 绍 执行 文件 VO 操作 的 4 个 主要 系统 调用 (编程 语言 和 软件 包 遂 常会 利用 UO 函数 
库 对 它们 进行 间接 调用 )。 

e fd = open(pathname, flags, mode) 函数 打开 pathname 所 标识 的 文件 ， 并 返回 文件 摘 
述 符 ， 用 以 在 后 续 函 数 调用 中 指 代 打开 的 文件 。 如 果 文 件 不 存在 ，openO 了 图 数 可 以 
创建 之 ， 这 取决 于 对 位 掩 码 参数 flags 的 设置 。flags 参数 还 可 指定 文件 的 打开 方式 : 只 
谈 、 只 写 亦 或 是 恋 写 方式 。mode 参数 则 指定 了 由 openO 调 用 创建 文件 的 访问 权限 ， 
如 果 open() 函 数 并 未 创建 文件 ， 那 么 可 以 忽略 或 省 上 mode 参数 。 

e numread = read(fd, buffer, count). 调用 从 fd 所 指 代 的 打开 文件 中 读 取 至 多 count FTH 
数据 ， 并 存储 到 buffer 中 。read0O 调 用 的 返回 值 为 实际 读 取 到 的 凶 节 数 。 如 果 再 无 池 市 
ai Aa: 读 到 文件 结尾 人 符 EOF 时 )， 则 返回 值 为 0。 

e numwritten = write(fd, buffer, count) 调用 从 buffer PIEZIA count 字 节 的 数据 写 入 由 
fd DEVI] TIT CE HP s write U3 HH BER REC SEE SARRE HA 
能 小 于 count. 

e status = close(fd) 在 所 有 输入 /输出 操作 完成 后 ， 调 用 close), EFRA fd 以 及 
与 之 相关 的 内 核资 源 。 

在 详细 说 明 这 些 系 统 调 用 之 前 , 程序 清单 4-1 人 简要 展示 了 它们 的 使 用 方法 。 该 程序 实现 了 
一 个 简 版 的 cp() 命 令 ， 将 源 文件 内 容 复 制 到 新 文件 中 。 在 命令 行 中 ， 程 序 的 第 一 个 参数 代表 
已 存在 的 源 文件 ， 第 二 个 参数 则 代表 新 文件 。 程 序 清单 4-1 如 下 所 示 : 

$ ./copy oldfile newfile 


程序 清单 4-1: 使 用 MO 系统 调用 















































fileio/copy.c 


#include «sys/stat.h» 
#include «fcntl.h» 
#include "tlpi hdr.h" 


#ifndef BUF SIZE /* Allow "cc -D" to override definition */ 
#define BUF SIZE 1024 
#endif 


int 

main(int argc, char *argv[]) 
int inputFd, outputFd, openFlags; 
mode t filePerms; 


ssize t numRead; 
char buf[BUF SIZE]; 


if (argc != 3 || stremp(argv[1], "--help") == 0) 
usageErr("%s old-file new-fileWn", argv[0]); 
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/* Open input and output files */ 


inputFd = open(argv[1], O RDONLY); 
if (inputFd -- -1) 
errExit("opening file Xs", argv[1]); 


openFlags = O CREAT | O WRONLY | O TRUNC; 
filePerms - S IRUSR | S IWUSR | S IRGRP | S IWGRP | 
S IROTH | S IWOTH; /* rw-rw-rw- */ 
outputFd - open(argv[2], openFlags, filePerms); 
if (outputFd == -1) 
errExit("opening file Xs", argv[2]); 


/* Transfer data until we encounter end of input or an error */ 


while ((numRead = read(inputFd, buf, BUF SIZE)) > O) 
if (write(outputFd, buf, numRead) !- numRead) 
fatal("couldn't write whole buffer"); 

if (numRead -- -1) 
errExit("read"); 


if (close(inputFd) == -1) 
errExit("close input"); 

if (close(outputFd) -- -1) 
errExit("close output"); 


exit(EXIT SUCCESS); 


fileio/copy.c 


4.2 ÑH I/O 


UNIX LO RER EAR AL eA HE) 88 HI PEIUS» AREE 4 AEIR 
统 调用 open), read(). write()l close) n] AX ARAR ERAT IO RIE, uit EXm A 2S IT] 
设备 。 因 此 ， 仅 使 用 这 些 系统 调用 编写 的 程序 ， 将 对 任何 奖 型 的 文件 有 效 。 例 如 ， 针 对 程序 清 
TÉ. 4-1 中 的 程序 ， 如 下 操作 都 是 有 效 的 : 




















$ ./copy test test.old Copy a regular file 
$ ./copy a.txt /dev/tty Copy a regular file to this terminal 
$ ./copy /dev/tty b.txt Copy input from this terminal to a regular file 


$ ./copy /dev/pts/16 /dev/tty Copy input from another terminal 

要 实现 通用 1O, 束 必须 确保 每 一 文件 系统 和 设备 驱动 程序 都 实现 了 相同 的 VO 系统 调用 集 。 
由 于 文件 系统 或 设备 所 特有 的 操作 细节 在 内 核 中 处 理 ， 在 编程 时 通常 可 以 忽略 设备 专 有 的 因 
Ro 一 旦 应 用 程序 需要 访问 文件 系统 或 设备 的 专 有 功能 时 ， 可 以 选择 瑞士 军刀 般 的 ioctl0) 系 统 
调用 (4.8 市 )， 该 调用 为 通用 VO 模型 之 外 的 专 有 特性 提供 了 访问 接口 。 











4.3 ”打开 一 个 文件 : open() 
openO 调 用 既 能 打开 一 个 业已 存在 的 文件 ， 也 能 创建 并 打开 一 个 新 文件 。 


#include «sys/stat.h» 
#include «fcntl.h» 
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int open(const char *pathname, int flags, ... /* mode t mode */); 








Returns file descriptor on success, or -1 on error 





要 打开 的 文件 由 参数 pathname 来 标识 。 如 果 pathname 是 一 符号 链接 ， 会 对 其 进行 解 引用 。 
如 果 调 用 成 功 , open0 将 返回 一 文件 描述 符 , 用 于 在 后 续 函 数 调 用 中 指 代 该 文件 。 FRE, 
则 返回 -1， 并 将 errno 置 为 相应 的 错误 标志 。 

参数 flags 为 位 掩 码 ， 用 于 指定 文件 的 访问 模式 ， 可 选择 表 4-2 所 示 的 常量 之 一 。 


早期 的 UNIX 实现 中 使 用 数字 0、1、2， 而 非 表 4-2 中 所 列 的 常量 名 称 。 大 多 数 现 代 
UNIX 实现 将 这 些 和 常量 定义 为 上 述 相 应 数字 (以 期 与 早期 系统 保持 莱 容 )。 由 此 可 见 ， 
O_RDWR 并 不 等 同 于 O_RDONLY |O_WRONLY, mE RAD) JE TE ARR VR 











当 调用 open0 创 建新 文件 时 ， 位 掩 码 参数 mode 指定 了 文件 的 访问 权限 。(SUSv3 规定 ，mode 
的 数据 类 型 mode t 属于 整数 类 型 。) WR open0 并 未 指定 O_CREAT fræ WE ELE mode 参数 。 


表 4-2: 文件 访问 模式 


访问 模式 


O RDONLY 以 只 读 方 式 打 开 文 件 





O WRONLY 以 只 写 方式 打开 文件 
O RDWR 以 读 写 方式 打开 文件 





15.4 节 将 详细 朱 述 文件 权限 。 之 后 ， 恋 者 会 了 解 到 新 建文 件 的 访问 权限 不 仅仅 依赖 于 参 
数 mode， 而 且 受 到 进程 的 umask 1H. (15.4.6 3) 和 【可 能 存在 的 ) 父 目 录 的 默认 访问 控制 列 
K (17.6 T) 影响 。 与 此 同时 ， 需 要 注意 mode 参数 可 以 指定 为 数字 (通常 为 八进制 数 )， 更 
为 可 取 的 做 法 是 对 0 个 或 多 个 表 15-4 (15.4.1 "BO 中 所 列 位 掩 码 音量 进行 旬 辑 或 〈|) 操作 。 

程序 清单 4-2 展示 了 open0) 调 用 的 儿 个 使 用 实例 ， 其 中 有 些 调用 用 到 了 其 他 标志 位 ， 后续 
将 会 加 以 介绍 。 


人 
程序 清单 4~2， open 函数 使 用 的 例子 




















/* Open existing file for reading */ 
fd = open("startup", O RDONLY); 
if (fd -- -1) 


errExit("open"); 


/* Open new or existing file for reading and writing, truncating to zero 
bytes; file permissions read«write for owner, nothing for all others */ 


fd - open("myfile", O RDWR | O CREAT | O TRUNC, S IRUSR | S IWUSR); 
if (fd -- -1) 
errExit("open"); 


/* Open new or existing file for writing; writes should always 
append to end of file */ 


fd - open("w.log", O WRONLY | O CREAT | O TRUNC | O APPEND, 
S IRUSR | S IWUSR); 
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if (fd == -1) 
errExit("open"); 


open() 调 用 所 返回 的 文件 描述 符 数值 
SUSv3 规定 ， 如 果 调 用 open0 成 功 ， 必 须 保 证 其 返回 值 为 进程 未 用 文件 描述 符 中 数值 最 
小 者 。 可 以 利用 该 特性 以 特定 文件 描述 符 打开 某 一 文件 。 例 如 ， 如 下 代码 序列 就 会 确保 使 用 
标准 输入 〔 文 件 换 述 符 0) 打开 一 文件 。 
if (close(STDIN FILENO) == -1) /* Close file descriptor 0 */ 
errExit("close"); 











fd = open(pathname, O RDONLY); 
if (fd -- -1) 
errExit("open"); 
由 于 文件 描述 符 0 未 用 ， 所 以 openO 调 用 势必 使 用 此 描述 符 打开 文件 。53.5 市 中 所 论 及 的 
dup20 和 fentl0) 也 可 实现 类 似 功能 ， 但 对 于 文件 揪 述 符 的 控制 更 加 灵活 。 该 市 还 将 举例 说 明 对 
于 业已 打开 的 文件 ， 控 制 其 揪 述 符 为 何 大 有 益处 。 


4.3.1 open() 调 用 中 的 flags 参数 


在 程序 清单 4-2 展示 的 一 些 open() 调 用 例子 中 , flags 参数 除了 使 用 文件 访问 标志 外 , 还 使 
用 了 其 他 操作 标志 (O CREAT, O TRUNC 和 O APPEND)。 现 在 将 详细 介绍 flags 参数 。 表 
4-3 总 结 了 可 参与 flags 参数 逐 位 或 运算 (|) 的 一 整套 常量 。 最 后 一 列 显 示 常 量 标准 化 于 SUSV3 
还 是 SUSv4。 


表 4-3: open() 系 统 调用 的 flags 参数 值 介绍 

















统一 UNIX 规范 版 本 
O_RDONLY BRENAFI IT v3 
O WRONLY HREINA v3 
O RDWR PEE Jr 3X312T v3 
O CLOEXEC 设置 close-on-exec 标志 “〈 目 Linux 2.6.23 版 本 开始 ) 
O CREAT 知 文件 不 存在 则 创建 之 
O_DIRECT 无 缓冲 的 输入 /输出 





O DIRECTORY 如 果 pathname 不 是 目录 ， 则 失败 
O EXCL 结合 O_CREAT 参数 使 用 ， 专 门 用 于 创建 文件 








O LARGEFILE 在 32 位 系统 中 使 用 此 标志 打开 大 文件 


调用 readO 时 , 不 修改 文件 最 近 访 问 时 间 ( 目 Linux 2.6.8 
版 本 开始 ) 


O NOCTTY 不 要 让 pathname (PT EMRA imwe BJ Ze m 
O NOFOLLOW 对 符号 链接 不 予 解 引用 
O TRUNC 截断 已 有 文件 ， 使 其 长 度 为 零 


O NOATIME 
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统一 UNIX 规范 版 本 





O APPEND 总 在 文件 尾部 追加 数据 


O ASYNC 当 VO 操作 可 行 时 ， 产 生 信 号 〈signal) 通知 进程 


O DSYNC 提供 同步 的 IO 数据 完整 性 CE Linux 2.6.33 版 本 开始 ) 
O NONBLOCK UJE 3€ 77; AFI I 
O SYNC 以 同步 方式 写 入 文件 





K 4-3 中 常量 分 为 如 下 几 组 。 

e 文件 访问 模式 标志 : 先前 描述 的 O RDONLY、O WRONLY 和 O RDWR 标志 均 在 此 
列 ， 调 用 open0 时 ， 上 述 三 者 在 flags 参数 中 不 能 同时 使 用 ， 只 能 指定 其 中 一 种 。 调 用 
fcntl() 的 F_GETFL 操作 能 够 检索 文件 的 访问 模式 〈 见 5.3 75. 

o 文件 创建 标志 : 这 些 标志 在 表 4-3 中 位 于 第 二 部 分 ， 其 控制 范围 不 拘 于 open0 调 用 行为 
的 方方面面 ， 还 涉及 后 续 VO 操作 的 各 个 选项 。 这 些 标志 不 能 检索 ， 也 无 法 修改 。 

e 已 打开 文件 的 状态 标志 : 这 些 标志 是 表 4-3 中 的 剩余 部 分 , 使 用 fentl0 的 F_GETFL 和 
F SETFL 操作 可 以 分 别 检索 和 修改 此 类 标志 。 有 时 干脆 将 其 称 之 为 文件 状态 标志 。 


始 于 内 核 版 本 2.6.22， 读 取 位 于 /proc/PID/fdinfo 目录 下 的 linux 系统 专 有 文件 ， 可 以 
获取 系统 内 任 一 进程 中 文件 接 述 生 的 相关 信息 。 针 对 进程 中 每 一 个 已 打开 的 文件 插 述 香 ， 
该 目录 下 都 有 相应 文件 ， 以 对 应 文件 措 述 符 的 数值 命名 。 文 件 中 的 pos 子 段 表示 当前 的 文 
件 俩 移 量 〈4.7 市 )。 而 flags 子 段 则 为 一 个 八进制 数 ， 表 征文 件 访问 标记 和 已 打开 文件 的 
状态 标志 。( 该 数学 的 解码 需要 参考 这 些 标志 在 C 语言 函数 库 头 文 件 中 所 定义 的 数值 。) 


如 下 是 flags 第 量 的 详细 摘 述 。 


























O_APPEND 
总 是 在 文件 尾部 追加 数据 ，5.1 节 将 讨论 此 标志 的 意义 。 
O_ASYNC 


当 对 于 open H H ATR In FI SCP SANE RI ELSE VO 操作 时 ， 系 统 会 产生 一 个 信和 号 通知 进 
程 。 这 一 特性 ， 也 被 称 为 信号 驱动 WO， 仪 对 特定 类 型 的 文件 有 效 ， 诸 如 终端 、FIFOS 及 socket. 
(在 SUSv3 中 并 未 规定 O_ASYNC 标志 ， 但 大 多 数 UNIX 实现 邦 文 持 此 标记 或 者 老 版 本 中 与 其 
等 效 的 FASYNC 标志 。) 在 Linux 中 ， 调 用 openO 时 指定 O_ASYNC 标记 没有 任何 实质 效 来 。 
要 启用 信号 驱动 VO 特性 ， 必 须 调用 fent10 的 F_SETFL 操作 来 设置 O_ ASYNC bios OIL 5.3 节 )。 
(其 他 一 些 UNIX 系统 的 实现 有 次 似 行为 。) KTF O ASYNC 标志 的 更 多 和 内容 请 参考 63.3 Ti. 


O CLOEXEC (B Linux 2.6.23 版 本 开始 支持 ) 

为 新 《创建 ) 的 文件 描述 符 局 用 close-on-flag 标志 《FD_CLOEXEC)。27.4 TEES FD_ 
CLOEXEC 标志 。 使 用 O_CLOEXEC 标志 (打开 文件 ), 可 以 免 去 程序 执行 fentl0) 的 F_GETFD 
fl F SETFD 操作 来 设置 close-on-exec 标志 的 额外 工作 。 在 多 线程 程序 中 执行 fentl() 的 F_GETFD 
和 下 SETFD 操作 有 可 能 导致 竞争 状态 ， 而 使 用 O_CLOEXEC 标志 则 能 够 避免 这 一 点 。 可 能 引发 
范 争 的 场景 是 : 线程 某 甲 打开 一 文件 摘 述 符 ， 和 莹 试 为 该 描述 符 标 记 close-on-exec 标志 ， 于 此 同时 ， 
线程 某 乙 执行 forkO 调 用 ， 然 后 调用 exec0 执 行 任意 一 个 程序 。( 假 设 在 某 甲 打开 文件 描述 符 和 调用 
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fcntl() Ei. close-on-exec 标志 之 间 ， 某 乙 成 功 地 执行 了 fork0 和 exec0 操 作 。) IIE2S EA n] EREE 
AREE TAI SCARE 4 IN EASRREP. GERE ORTGSATCODAGSITIIAESSS 5.1 T.) 
O CREAT 

如 果 文 件 不 存在 ， 将 创建 一 个 新 的 空 文件 。 即 使 文件 以 只 读 方 式 打 开 ， 此 标志 依然 有 效 。 
如 果 在 open0 调 用 中 指定 O_CREAT 标志 ， 那 么 还 需要 提供 mode 参数 ， 否 则 ， 会 将 新 文件 的 
权限 设置 为 栈 中 的 某 个 随机 值 。 
O_DIRECT 

无 系统 缓冲 的 文件 VO 操作 。 该 特性 将 在 13.6 PETER. IEO DIRECT fies I) A EXE 
义 在 <fentl.h> 中 有 效 ， 必 须 定 义 _GNU_SOURCE 功能 测试 宏 。 
O DIRECTORY 

如 果 pathname 参数 并 非 目 录 ， 将 返回 错误 〈 错 误 号 errno 为 ENOTDIR)。 这 一 标志 是 专 
为 实现 opendirO 函 数 (18.8 7) 而 设计 的 扩展 标志 。 为 使 O_ DIRECTORY 标记 的 常量 定义 在 
<fcntl.h> 中 有 效 ， 必 须 定义 _GNU_SOURCE 功能 测试 宏 。 


O DSYNC (HB Linux 2.6.33 版 本 开始 支持 ) 

根据 同步 VO 数据 完整 性 的 完成 要 求 来 执行 文件 写 操作 。 参 见 13.3 节 中 关于 内 核 VO 组 
冲 的 讨论 。 
O_EXCL 

此 标志 与 O CREAT 标志 结合 使 用 表明 如 果 文 件 已 经 存在 ， 则 不 会 打开 文件 ， 且 open0 
调用 失败 ， 并 返回 错误 ， 错 误 号 erno 为 EEXIST。 换 言 之 ， 此 标志 确保 了 调用 者 (open( ) 的 调用 
进程 》 束 是 创建 文件 的 进程 。 检 查 文件 存在 与 耕 和 创建 文件 这 两 步 属 于 同一 原子 操作 。5.1 78 
将 讨论 原子 操作 的 概念 。 如 果 在 flags 参数 中 同时 指定 了 O CREAT M O EXCL fis; H. pathname 
参数 是 符号 链接 ， 则 open0 函 数 调 用 失败 (错误 号 errno 为 EEXIST)。SUSv3 之 所 以 如 此 规定 ， 
是 要 求 有 特权 的 应 用 程序 在 已 知 目录 下 创建 文件 ， 从 而 消除 了 如 下 安全 隐患 ， 使 用 符号 链接 
打开 文件 会 导致 在 另 一 位 置 创 建文 件 〈 例 如 ， 系 统 目录 )。 
O_LARGEFILE 

文 持 以 大 文件 方式 打开 文件 。 在 32 位 操作 系统 中 使 用 此 标志 ， 以 文 持 大 文件 操作 。 尽 管 
在 SUSv3 中 没有 规定 这 一 标志 ， 但 其 他 一 些 UNIX 实现 都 支持 这 一 特性 。 此 标志 在 诸如 Alpha, 
IA-64 之 类 的 64 位 Linux 实现 中 是 无 效 的 。 更 多 的 内 容 将 在 5.10 市 中 讨论 。 
O NOATIME (B Linux 2.6.8 版 本 开始 ) 

在 读 文件 时 ， 不 更 新 文件 的 最 近 访 问 时 间 (15.1 节 中 所 描述 的 st atime 属性 )。 要 使 用 
该 标志 ， 要 么 调用 进程 的 有 效用 户 ID 必须 与 文件 的 拥有 者 相 匹 配 ， 要 么 进程 需要 拥有 特权 
(CAP FOWNER)。 人 否则 ，openO 调 用 失败 ， 并 返回 销 误 ， 错 误 号 errno 为 EPERM。(〈 事 实 上 ， 
如 9.5 节 所 述 ， 对 于 非特 权 进 程 ， 当 以 O_ NOATIME 标志 打开 文件 时 ， 与 文件 用 户 ID 必须 
匹配 的 是 进程 的 文件 系统 用 户 ID, 而 非 进程 的 有 效用 户 ID. ) 此 标记 是 Linux 特有 的 非 标准 
扩展 。 要 从 <fentl.h> 中 启用 此 标志 ， 必 须 定义 _GNU_SOURCE 功能 测试 安 。O_NOATIME 标 
六 的 设计 旨 在 为 索引 和 备份 程序 服务 。 该 标志 的 使 用 能 够 显著 减少 磁盘 的 活动 量 ， 省 却 了 婚 

































































1 译 者 注 : 所 谓 synchronized I/O data integration completion 在 SUS 的 base definition 3.374 中 有 详细 定义 ， 但 
FRATE, WENE. ENSZ (UNIX 环境 局 级 编程 》v2 一 书 〈 后 续 译 注 中 简称 为 APUEv2) 3.3 TXF 
O DSYNC 的 描述 。 
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要 恋 取 文件 内 容 ， 又 要 更 新 文件 inode Zi fJ rnisam i Rl SE IRIBSU ERA, XENUOD T WARTEN TA 
上 的 反复 寻 道 时 间 (14.4 节 )。mount0 函 数 中 MS NOATIME 标志 (14.8.1 75) 和 FS NOATIME 
FL 标志 (15.5 节 ) 与 O NOATIME 标志 功能 相似 。 


O NOCTTY 

如 果 正 在 打开 的 文件 属于 终端 设备 ，O_NOCTTY 标志 防止 其 成 为 控制 终端 。34.4 节 将 讨 
论 控制 终 疾 。 如 有 果 正 在 打开 的 文件 不 是 终 问 设备 ， 则 此 标志 无 效 。 
O NOFOLLOW 

X6, UI pathname SAET rE, open) KORX] pathname 参数 进行 解 引用 。 一 旦 
在 open) KŽP HRE T O NOFOLLOW 标志 ， 且 pathname 参数 属于 符号 链接 ， 则 open() 函 数 将 
返回 失败 (错误 号 errno 为 ELOOP)。 此 标记 在 特权 程序 中 极为 有 有用， 能够 确保 openO ER ZING] 
符号 链接 进行 解 引 用 。 为 使 O NOFOLLOW 标志 在 <fentl.h> 中 有 效 ， 必 须 定 义 _GNU_SOURCE 
功能 测试 宏 。 











O_NONBLOCK 

以 非 阻塞 方式 打开 文件 ， 参 照 5.9 市 。 
O SYNC 

以 同步 VO 方式 打开 文件 ， 参 见 13.3 节 针 对 内 核 IO 缓冲 的 讨论 。 
O_TRUNC 


如 果 文 件 已 经 存在 且 为 普通 文件 ， 那 么 将 清空 文件 内 容 ， 将 其 长 度 置 0。 在 Linux 下 使 用 
此 标志 ， 无 论 以 读 、 写 方式 打开 文件 ， 都 可 清空 文件 内 容 〈 在 这 两 种 情况 下 ， 都 必须 拥有 对 
文件 的 写 权 限 )。SUSv3 对 O_RDONLY 5 O TRUNC 标志 的 组 合 未 作 规 定 ， 但 多 数 其 他 UNIX 
实现 与 Linux 的 处 理 方式 相同 。 


4.3.2 open() 函 数 的 错误 

车 打开 文件 时 发 生 错 误 ，open0 将 返回 -1， 错 误 号 ermo 标识 错误 原因 。 以 下 是 一 些 可 能 
发 生 的 错误 〈 除 了 在 上 节 参 数 摘 述 中 已 经 提 及 的 错误 之 外 )。 
EACCES 

文件 权限 不 允许 调用 进程 以 flags 参数 指定 的 方式 打开 文件 。 无 法 访问 文件 ， 其 可 能 的 原 
因 有 目录 权限 的 限制 、 文 件 不 存在 并 且 也 无 法 创建 该 文件 。 
EISDIR 

所 指定 的 文件 属于 目录 ， 而 调用 者 企图 打开 该 文件 进行 写 操作 。 不 允许 这 种 用 法 。( 田 一 
方面 ， 在 某 些 场合 中 ， 打 开 有 目录 进行 恋 操 作 是 必要 的 。18.11 而 将 举例 说 明 。) 
EMFILE 

进程 已 打开 的 文件 描述 符 数 量 达 到 了 进程 资源 限制 所 设 定 的 上 限 〈 在 363 TE 
RLIMIT NOFILE 参数 )。 





























ENFILE 
文件 打开 数量 已 经 达到 系统 允许 的 上 限 。 
ENOENT 
要 么 文件 不 存在 且 未 指定 O. CREAT 标记， 要么 指定 了 O_CREAT 标志 ， 但 pathname 参 
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数 所 指定 路 径 的 目录 之 一 不 存在 ， 或 者 pathname 参数 为 符号 链接 ， 而 该 链接 指向 的 文件 不 存 
在 〈 衬 链接 )。 
EROFS 

所 指定 的 文件 隶属 于 只 读 文 件 系统 ， 而 调用 者 企图 以 写 方式 打开 文件 。 
ETXTBSY 

所 指定 的 文件 为 可 执行 文件 (程序 )， 且 正在 运行 。 系 统 不 允许 修改 正在 运行 的 程序 〈 比 如 
以 写 方式 打开 文件 )。( 必 须 首先 终止 程序 运行 ， 然 后 方 可 修改 可 执行 文件 。) 

后 续 在 描述 其 他 系统 调用 或 库 函 数 时 , 一 般 不 会 再 以 上 述 方式 展现 可 能 发 生 的 一 系列 错 
误 。( 每 个 系统 调用 或 库 函 数 的 错误 列表 可 从 相关 操作 手册 中 查询 获得 。) 采用 上 述 方式 原因 
有 二 ， 一 是 因为 open0 是 本 书 详细 描述 的 首 个 系统 调用 ， 而 上 述 列 表 表 明 任 一 原因 都 有 可 能 
导致 系统 调用 或 库 图 数 的 调用 失败 。 二 是 open0 调 用 失败 的 具体 原因 列表 本 身 惑 烦 为 值得 玩 
味 ， 它 展示 了 影响 文件 访问 的 若干 因素 ， 以 及 访问 文件 时 系统 所 执行 的 一 系列 检查 。( 上述 
错误 列表 并 不 完整 ， 更 多 open() 调 用 失败 的 错误 原因 请 查看 open(2) 的 操作 手册 。) 


4.3.3 ”creat() 系 统 调用 


在 早期 的 UNIX 实现 中 ，openO 只 有 两 个 参数 ， 无 法 创建 靳 文件 ， 而 是 使 用 creatO 系 统 调 
用 来 创建 并 打开 一 个 痢 文 件 。 
































#include «fcntl.h» 


int creat(const char *pathname, mode t mode); 


Returns file descriptor, or -1 on error 








creat() 系 统 调用 根据 pathname 参数 创建 并 打开 一 个 文件 ， 大 文件 已 存在 ， 则 打开 文件 ， 并 清 
TUFA, KEKER 0。creat0 返 回 一 文件 摘 述 待 ， 供 后 续 系 统 调用 使 用 。creatO 系 统 调 
用 等 价 于 如 下 open0O 调 用 : 

fd = open(pathname, O WRONLY | O CREAT | O TRUNC, mode); 

尽管 creatO 在 一 些 老 旧 程序 的 代码 中 还 时 有 所 见 ， 但 由 于 open0 的 flags 参数 能 对 文件 打 
开 方 式 提供 更 多 控制 〈 例 如 : 可 以 指定 O_RDWR five 1 O WRONLY 标志 )， 对 creat0 的 使 用 
现在 已 不 多 见 。 














4.4 读 取 文件 内 容 : read() 
read0 系 统 调用 从 文件 描述 签 亿 所 指 代 的 打开 文件 中 读 取 数据 。 





#include «unistd.h» 


ssize t read(int fd, void *buffer, size t count); 





Returns number of bytes read, 0 on EOF, or -1 on error 











count 参数 指定 最 多 能 读 取 的 字 节 数 。(size t 数据 类 型 属于 无 符号 整数 类 型 。) buffer 参数 
提供 用 来 存放 输入 数据 的 内 存 缓冲 区 地 址 。 组 冲 区 人 至少 应 有 count 个 字 节 。 
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系统 调用 不 会 分 配 内 存 缓冲 区 用 以 返回 信息 给 调用 者 。 所 以 ， 必 须 预先 分 配 大 小 合适 
的 缓冲 区 并 将 缓冲 区 指针 传递 给 系统 调用 。 与 此 相反 ， 有 些 库 函 数 却 会 分 配 内 存 绥 冲 区 用 
以 返回 信息 给 调用 者 。 


如 果 read0 调 用 成 功 ， 将 返回 实际 读 取 的 字 节 数 ， 如 果 遇 到 文件 结束 (EOF) 则 返回 0， 
如 果 出 现 错误 则 返回 -1。ssize t 数据 类 型 属于 有 符号 的 整数 类 型 用 来 存放 〈 读 取 的 ) 字 节 数 
或 -1 表示 错误 )。 

一 次 read0 〇 调用 所 读 取 的 字 节 数 可 以 小 于 请 求 的 字 节 数 。 对 于 普通 文件 而 言 ， 这 有 可 能 是 
因为 当前 读 取 位 置 靠近 文件 尾部 。 

当 read0 应 用 于 其 他 文件 类 型 时 ， 比 如 管道 、FIFO、socket 或 者 终 疹 ， 在 不 同 环境 下 也 会 
出 现 readO 调 用 读 取 的 字 节 数 小 于 请 求 字 节 数 的 情况 。 例 如 ， 默 认 情 况 下 从 终端 读 取 字 符 ， 一 
遇 到 换行 符 〈m)，read0 调 用 就 会 结束 。 在 后 续 章 节 论 及 其 他 类 型 文件 时 ， 会 再 次 针对 这 些 情 
况 进 行 探讨 。 

使 用 read0 从 终端 读 取 一 连 串 字符 ， 我 们 也 许 期 望 下 面 的 代码 会 起 作用 : 


#define MAX READ 20 
char buffer[MAX READ]; 



































if (read(STDIN FILENO, buffer, MAX READ) -- -1) 
errExit(" read"); 

printf("The input data was: %s\n", buffer); 

这 段 代 码 的 输出 可 能 会 很 奇怪 ， 因 为 输出 结果 除了 实际 输入 的 字符 串 外 还 会 包括 其 他 字 
符 。 这 是 因为 read() 调 用 没有 在 printf0 函 数 打 印 的 字符 串 尾部 瀛 加 一 个 表示 终止 的 空 学 行 。 岂 
索 片 刻 就 会 意识 到 这 肯定 是 症结 所 在 ， 因 为 read0 能 够 从 文件 中 读 取 任意 序列 的 字 节 。 有 些 情 
况 下 ， 和 输入 信息 可 能 是 文本 数据 ,但 在 其 他 情况 下 ， 又 可 能 是 二 进 制 整数 或 者 二 进 制 形 陈 的 C 
语言 数据 结构 。read() 无 从 区 分 这 些 数据 ， 故 而 也 无 法 避 从 C 语言 对 字符 串 处 理 的 约定 ， 在 字 
从 串 尾 部 退 加 标识 字符 串 结 束 的 空子 行 。 如 果 输 入 绥 冲 区 的 结尾 处 需要 一 个 表示 终止 的 空子 
符 ， 必 须 显 式 姐 加 。 


char buffer[MAX READ + 1]; 
ssize t numRead; 


















































numRead - read(STDIN FILENO, buffer, MAX READ); 
if (numRead == -1) 
errExit("read"); 


buffer[numRead] = 'No'; 
printf("The input data was: %s\n", buffer); 


EET RCSAYANE ER ER AE TIBI TRITANI vu 32 T 6 BAR. MARIKKI ED 2 EG TRUE 
取 的 最 大 字符 种 长 度 多 出 1 TE. 




















4.5 数据 写 入 文件 ，write() 
write0 系 统 调用 将 数据 写 入 一 个 已 打开 的 文件 中 。 
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#include <unistd.h> 


ssize t write(int fd, void *buffer, size_t count); 


Returns number of bytes written, or -1 on error 














write0 调 用 的 参数 含义 与 read0 调 用 相 类 似 。buffer 参数 为 要 写 入 文件 中 数据 的 内 存 地 址 ，count 
参数 为 欲 从 buffer 写 入 文件 的 数据 字 节 数 ， 锯 参数 为 一 文件 摘 述 符 ， 指 代数 据 要 写 入 的 文件 。 

WR write0) 调 用 成 功 ， 将 返回 实际 写 入 文件 的 子 市 数 ， 该 返回 值 可 能 小 于 count 参数 值 。 
这 航 称 为 “部 分 写 ”。 对 磁盘 文件 来 说 ， 造 成 “部 分 写 ” 的 原因 可 能 是 由 于 磁盘 已 满 ， 或 是 因 
为 进程 资源 对 文件 大 小 的 限制 。( 相 关 的 限制 为 RLIMIT_FSIZE， 将 在 36.3 WHR. ) 

对 磁盘 文件 执行 VO 操作 时 ，write0 调 用 成 功 并 不 能 保证 数据 已 经 写 入 磁盘。 因为 为 了 减 
少 磁盘 活动 量 和 加 快 write0 系 统 调 用 ， 内 核 会 缓存 磁盘 的 VO 操作 ， 第 13 革 将 会 详 加 介绍 。 














4.6 ”天 闭 文 件 : close() 


close0 系 统 调用 关闭 一 个 打开 的 文件 描述 符 ， 并 将 其 释放 回调 用 进程 ， 供 该 进程 继续 使 用 。 
当 一 进程 终止 时 ， 将 目 动 天 财 其 已 打开 的 所 有 文件 描述 符 。 











#include «unistd.h» 


int close(int fd); 








Returns 0 on success, or -1 on error 





显 陈 关闭 不 再 需要 的 文件 描述 符 往 往 是 民 好 的 编程 习惯 ， 会 使 代码 在 后 续 修 改 时 更 具 可 
读 性 ， 也 更 可 靠 。 进 而 言 乙 ， 文 件 描 述 符 属 于 有 限 资源 ， 因 此 文件 描述 符 关 闭 失 败 可 能 会 导 
致 一 个 进程 将 文件 描述 符 资 源 消耗 殉 尽 。 在 编 与 需要 长 期 运行 并 处 理 大 量 文件 的 程序 时 ， 比 
如 shell 或 者 网 络 服务 右 软 件 ， 需 要 特别 加 以 关注 。 

像 其 他 所 有 系统 调用 一 样 ， 应 对 close0 的 调用 进行 错误 检查 ， 如 下 所 示 : 

if (close(fd) == -1) 

errExit("close"); 

上 述 代 人 码 能 够 捕获 的 错误 有 : PERU TP ARTTATBUOCUTE EAS TE, Bid PRX B I8] — 3€ 

件 摘 述 待 ， 也 能 捕获 特定 文件 系统 在 关闭 操作 中 诊断 出 的 错误 条 件 。 


针对 特定 文件 系统 的 错误 ，NEFS《〈 网 络 文件 系统 ) NUE Pi. WR NFS 出 现 提交 失败 ， 这 
意味 看 数据 没有 抵达 远程 磁 禹 ， 随 之 将 这 一 错误 作为 closeO 调 用 失败 的 原因 传递 给 应 用 系统 。 

















4.7 ”改变 文件 仿 移 量 : lseek() 

对 于 每 个 打开 的 文件 ， 系 统 内 核 会 记录 其 文件 偏 移 量 ， 有 时 也 将 文件 偏 移 量 称 为 读 写 全 
移 量 或 指针 。 文 件 偏 移 量 是 指 执行 下 一 个 read0 或 write0 操 作 的 文件 起 始 位 置 ， 会 以 相对 于 文 
件 头 部 起 始点 的 文件 当前 位 置 来 表示 。 文 件 第 一 个 字 节 的 偏 移 量 为 0. 
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文件 打开 时 ， 会 将 文件 偶 移 量 设置 为 指 问 文件 开始 ， 以 后 每 次 read) gk, writeO 调 用 将 上 自动 
对 其 进行 调整 ， 以 指 同 已 谈 或 已 号 数据 后 的 下 一 字 和 。 因 此 ， 连 续 的 read0 和 writeO 调 用 将 投 
顺序 递 进 ， 对 文件 进行 操作 。 

针对 文件 描述 符 fd 参数 所 指 代 的 已 打开 文件 ，lseek0 系 统 调用 依照 offset 和 whence 参数 
值 调 整 该 文件 的 偏 移 量 。 











#include «unistd.h» 


off t lseek(int fd, off t offset, int whence); 


Returns new file offset if successful, or -1 on error 








offset 参数 指定 了 一 个 以 字 节 为 单位 的 数值 。(SUSv3 规定 off t 数据 类 型 为 有 符号 整 型 
数 。) whence 参数 则 表明 应 参照 哪个 基点 来 解释 offset 参数 ， 应 为 下 列 其 中 之 一 : 
SEEK SET 

将 文件 偏 移 量 设 置 为 从 文件 头 部 起 始点 开始 的 offset 个 字 节 。 
SEEK_CUR 

相对 于 当前 文件 偏 移 量 ， 将 文件 偏 移 量 调整 offset 个 字 节 。 
SEEK END 

将 文件 偏 移 量 设置 为 起 始 于 文件 尾部 的 offset 个 字 节 。 也 就 是 说 ，offset 参数 应 该 从 文件 
最 后 一 个 字 节 之 后 的 下 一 个 字 节 算 起 。 

图 4-1 展示 了 whence 参数 的 含义 。 


文件 包含 N i 文件 末尾 之 后 未 D 


n 串 一 

















字 节 数据 写 数据 的 字 节 
dE EE [ [| … A n 
| i ! 
偏 移 量 
| SEEK S ET SE EK CUR O SEEK E ND 1 


whence 参数 值 ! 


4-1: 解释 Iseek( AXP whence 参数 








在 早期 的 UNIX 实现 中 ，whence 参数 用 整数 0、1、2 来 表示 ， 而 非 正 文中 显示 的 SEEK *55 
量 。BSD 的 早期 版 本 使 用 另 一 套 命 名 : L SET. L INCR M L XTND 来 表示 whence 参数 。 

如 条 whence 参数 值 为 SEEK CUR 或 SEEK END, offset 参数 可 以 为 正 数 也 可 以 为 负数 ; 
如 果 whence 参数 值 为 SEEK SET, offset 参数 值 必须 为 非 负 数 。 

lseek() 调 用 成 功 会 返回 狐 的 文件 偏 移 量 。 下 面 的 调用 只 是 获取 文件 偏 移 量 的 当前 位 置 ， 并 
没有 修改 它 。 

curr = lseek(fd, 0, SEEK CUR); 














A UNIX 系统 (Linux 不 在 此 列 ) 实现 了 非 标 准 的 tell(fqd) 函 数 ， 其 调用 目的 与 上 述 
lseek() 相 同 。 





1 译 者 注 : 简 而 言 之 ， 相 对 于 文件 头 部 的 绝对 侦 移 量 = 当前 文件 侦 移 量 +offset。 
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这 里 给 出 了 lseekO 调 用 的 其 他 一 坚 例 子 ， 在 注释 中 说 明了 将 文件 侦 移 量 移 到 的 具体 位 置 。 





lseek(fd, O, SEEK SET); /* Start of file */ 

lseek(fd, O, SEEK END); /* Next byte after the end of the file */ 
lseek(fd, -1, SEEK END); /* Last byte of file */ 

lseek(fd, -10, SEEK CUR); /* Ten bytes prior to current location */ 


lseek(fd, 10000, SEEK END); /* 10001 bytes past last byte of file */ 

IseekQ Ji] H] HL ze V8] E AL P 53 OCT ETIDAS PETHOS B] CITAR Siu. 并 没有 引起 对 任何 物理 
设备 的 访问 。 

5.4 市 将 进一步 插 述 文件 仿 移 量 、 文 件 插 述 从 、 已 打开 文件 三 者 之 间 的 关系 。 

lseek() 并 不 适用 于 所 有 类 型 的 文件 。 不 允许 将 lseekO 应 用 于 管道 、FIFO、socket 或 者 终 新 。 
一 旦 如 此 , 调用 将 会 失败 , 并 将 errno 置 为 ESPIPE。 另 一 方面 , 只 要 合情合理 , 也 可 以 将 Iseek() 
应 用 于 设备 。 例 如 ， 在 磁盘 或 者 磁 币 上 合 找 一 处 具体 位 置 。 


lseekO 调 用 名 中 的 1 源 于 这 样 一 个 事实 : offset 参数 和 调用 返回 值 的 类 型 起 初 都 是 long 
型 。 早 期 的 UNIX 系统 还 提供 了 seekO 〇 系统 调用 ， 当 时 这 两 个 值 的 类 型 为 int 型 。 























X. f il 

如 果 程 序 的 文件 偏 移 量 已 然 跨 越 了 文件 结尾 , 然后 再 执行 VO 操作 , 将 会 发 生 什么 情况 ? 
read() 调 用 将 返回 0， 表示 文件 结尾 。 有 点 令 人 惊讶 的 是 ，write0) 函 数 可 以 在 文件 结尾 后 的 任意 
位 置 写 入 数据 。 

从 文件 结尾 后 到 新 写 入 数据 间 的 这 段 空 间 被 称 为 文件 空洞 。 从 编程 角度 看 ， 文 件 空洞 中 
是 存在 字 节 的 ， 读 取 空 洞 将 返回 以 0〈 衬 字 节 ) 填充 的 绥 冲 区 。 

然而 ， 文 件 空洞 不 占用 任何 磁盘 空间 。 直 到 后 续 某 个 时 点 ， 在 文件 空洞 中 写 入 了 数据 ， 文 
件 系 统 才 会 为 之 分 配 磁 盘 块 。 文 件 空洞 的 主要 优势 在 于 ， 与 为 实际 需要 的 空 字 节 分 配 做 盘 块 
相 比 ， 稀 玻 填充 的 文件 会 占用 较 少 的 磁盘 空间 。 核 心 转 储 文件 (core dump) CJ, 22.1 节 ) 是 
包含 空洞 文件 的 常见 例子 。 


对 于 文件 空洞 不 占用 磁盘 空间 的 说 法 需要 稍微 限定 一 下 。 在 大 多 数 文件 系统 中 ， 文 件 
空间 的 分 配 是 以 块 为 单位 的 (14.3 节 )。 块 的 大 小 取决 于 文件 系统 , 通常 是 1024 F, 2048 
字 节 、4096 字 节 。 如 果 空 洞 的 边界 混在 块 内 ， 而 非 恰好 沙 在 块 边 界 上 ， 则 会 分 配 一 个 完整 
的 块 来 存储 数据 ， 块 中 与 空洞 相关 的 部 分 则 以 空 字 节 填充 。 


大 多 数 “ 原 生 ”UNIX 文件 系统 部 支持 文件 空洞 的 概 仿 ， 但 很 多 “ 非 原生 ”文件 系统 比 
W, 微软 的 VEFAT) 并 不 支持 这 一 概念 。 不 文 持 文 件 空洞 的 文件 系统 会 显 式 地 将 空 字 市 与 入 文件 。 

空洞 的 存在 意味 看 一 个 文件 名 义 上 的 大 小 可 能 要 比 其 占用 的 磁盘 存储 总 量 要 大 (有 时 会 
大 出 许多 )。 回 文件 空 镁 中 写 入 季节 ， 内 核 需 要 为 其 分 配 存储 单元 ， 即 使 文件 大 小 不 变 ， 系 统 
的 可 用 磁盘 空间 也 将 减少 。 这 种 情况 并 不 常见 ， 但 也 需要 了 解 。 


SUSv3 的 函数 posix fallocate(fd, offset, len) 规 定 ， 针 对 文件 描述 符 fd 所 指 代 的 文件 ， 
能 确保 按照 由 offset 参数 和 len 参数 所 确定 的 字 节 范围 为 其 在 磁盘 上 分 配 存储 空间 。 这 样 ， 
应 用 程序 对 文件 的 后 续 writeO 调 用 不 会 因 和 磁盘 空间 耗 尽 而 失败 《否则 ， 当 文件 中 一 个 空洞 
被 填 满 后 ， 或 者 因 其 他 应 用 程序 消耗 了 磁盘 空间 时 ， 都 可 能 因 磁 答 空 间 耗 尽 而 引发 此 类 错 
误 )。 在 过 去 ，glibc 库 在 实现 posix fallocate() KAHT, 388233 m JR xe Y. EL VALER REA] ES AN — 
MEN 0 的 宇和 以 达到 预期 结果 。 目 内 核 版 本 2.6.23 开始 ，Linux 系统 提供 了 fallocate() 系 
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统 调用 ， 能 更 为 高 效 地 确保 所 需 存 储 空 间 的 分 配 。 当 fallocateO 调 用 可 用 时 ，glibc 库 会 利用 
其 来 实现 posix fallocateO 函 数 的 功能 。 
14.4 节 将 描述 空洞 在 文件 中 的 表示 方式 。15.1 节 将 描述 statO0 系 统 调用 ， 该 调用 能 够 提供 
文件 当前 大 小 和 实际 分 配给 文件 的 块 数 量 等 信息 。 














示例 程序 

程序 清单 4-3 演示 了 lseek() 与 read0、writeO 的 协作 使 用 。 该 程序 的 第 一 个 命令 行 参 数 为 
将 要 打开 的 文件 名 称 ， 余 下 的 参数 则 指定 了 在 文件 上 执行 的 输入 /输出 操作 。 每 个 表示 操作 的 
参数 部 以 一 个 字母 开 尖 ， 译 跟 以 相关 值 〈 中 间 无 空格 分 阳 )。 





soffset: 从 文件 开始 检索 到 offset ^ D BL 

rlength: 在 当前 文件 偏 移 量 处 ， 从 文件 中 读 取 length 字 节 数据 ， 并 以 文本 形式 显示 。 
Rlength: 在 当前 文件 偏 移 量 处 ， 从 文件 中 读 取 length 字 节 数据 ， 并 以 十 六 进 制 形式 
显示 。 


wstr: 在 当前 文件 仿 移 量 处 ， 问 文件 瑟 入 由 str 指定 的 字符 是 。 











程序 清单 4-3: read()、write0 和 lseek0 的 使 用 示范 


fileio/seek io. 


#include «sys/stat.h» 
#include «fcntl.h» 
#include «ctype.h» 
#include "tlpi hdr.h" 


int 


main(int argc, char *argv[]) 


{ 


size t len; 

off t offset; 

int fd, ap, j; 

char *buf; 

ssize t numRead, numWritten; 


if (argc < 3 || stremp(argv[1], "--help") == 0) 
usageErr("Xs file (r«length»|R«length»|w«string»|s«offset»]... n", 
argv[0]); 


fd = open(argv[1], O RDWR | O CREAT, 
S IRUSR | S IWUSR | S IRGRP | S IWGRP | 
S IROTH | S IWOTH); /* rw-rw-rw- */ 
if (fd == -1) 
errExit("open"); 


for (ap = 2; ap < argc; ap++) { 
switch (argv[ap][0]) { 


case 'r':  /* Display bytes at current offset, as text */ 
case 'R':  /* Display bytes at current offset, in hex */ 
len = getLong(&argv[ap][1], GN ANY BASE, argv[ap]); 


buf = malloc(len); 
if (buf -- NULL) 
errExit("malloc"); 


numRead - read(fd, buf, len); 
if (numRead -- -1) 
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errExit("read"); 


if (numRead == O) { 
printf("%s: end-of-fileWn", argv[ap]); 
} else { 
printf("%s: ", argv[ap]); 
for (j = 0; j< o jt) { 
if (argv[ap][0 r') 
a “sprint niu char) buf[j]) ? 
buf[j] : '?'); 
else 
printf("402x ", (unsigned int) buf[j]); 


printf("Nn"); 


free(buf); 
break; 


case 'w': /* Write string at current offset */ 
numWritten = write(fd, &argv[ap][1], strlen(8argv[ap][1])); 
if (numWritten == -1) 
errExit("write"); 
printf(" 5s: wrote %ld bytesNn", argv[ap], (long) numWritten); 


break; 


case 's':  /* Change file offset */ 
offset = getLong(&argv[ap][1], GN ANY BASE, argv[ap]); 
if (lseek(fd, offset, SEEK SET) == -1) 
errExit("lseek"); 
printf("Xs: seek succeededWn", argv[ap]); 
break; 


default: 
cmdLineErr("Argument must start with [rRws]: %s\n", argv[ap]); 


j 
j 


exit(EXIT SUCCESS); 


fileio/seek io.c 


下 和 面 的 shell 会 话 演示 了 程序 清单 4-3 程序 的 使 用 ， 还 显示 了 从 文件 衬 洞 中 该 取 学 和 时 的 情况 ; 
$ touch tfile Create new, empty file 

$ ./seek io tfile s100000 wabc Seek to offset 100,000, write “abc” 

s100000: seek succeeded 

wabc: wrote 3 bytes 























$ ls -1 tfile Check size of file 

-IW-I--r-- 1 mtk users 100003 Feb 10 10:35 tfile 

$ ./seek io tfile s10000 R5 Seeh to offset 10,000, read 5 bytes from hole 
s10000: seek succeeded 

R5: 00 00 00 00 00 Bytes in the hole contain 0 


4.8 ”通用 VO 模型 以 外 的 操作 : ioctl() 


在 本 章 上 述 通用 VO 模型 之 外 ，ioctl0 系 统 调用 叉 为 执行 文件 和 设备 操作 提供 了 一 种 多 用 
途 机 制 。 
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include «sys/ioctl.h» 


int ioctl(int fd, int request, ... /* argp */); 





Value returned on success depends on request, or -1 on error 





fd 参数 为 菏 个 设备 或 文件 已 打开 的 文件 插 述 从 ，request 参数 指定 了 将 在 fd 上 执行 的 控制 操 
作 。 只 体 设备 的 头 文 件 定 义 了 可 传递 给 request 参数 的 音量 。 

ioctl0) 调 用 的 第 三 个 参数 采用 了 标准 C 语言 的 省 略 符号 〈…) 来 表示 〈 称 之 为 argp)， 可 以 
古 任意 数据 类 型 。ioctl0 根 据 request 的 参数 值 来 确定 argp 所 期 望 的 类 型 。 通 第 情况 下，argp 
是 指 问 整数 或 结构 的 指针 ， 有 些 迟 况 下 ， 不 寅 要 使 用 argp。 

后 面 各 章 中 将 会 有 许多 ioctl0 的 用 法 展示 例如 15.5 9). 














SUSv3 为 ioctd0 制 定 的 唯一 规定 是 针对 流 (STREAM) 设备 的 控制 操作 。( 流 是 System V 
操作 系统 中 的 特性 。 尺 管 为 其 开发 有 一 些 插件 ， 主 流 的 Linux 内 核 并 不 支持 该 特性 。) 本 书 
述 及 的 ioctl0 的 其 他 操作 都 不 在 SUSv3 的 规范 之 列 。 然 而 ， 从 早期 版 本 开始 ，ioctl0 调 用 就 
是 UNIX 系统 的 一 部 分 , 因此 本 书 所 描述 的 几 个 ioctlO 操 作 在 许多 其 他 UNIX 系统 中 都 已 实 
现 。 在 讨论 ioctl0 调 用 的 各 个 操作 时 ， 会 点 出 存在 的 可 移植 性 问题 。 








4.9 £f 


为 了 对 普通 文件 执行 VO 操作 ， 肯 先 必 须 调用 open0 以 获得 一 个 文件 摘 述 符 。 随 之 使 用 
read0 和 writeO 执 行文 件 的 VO 操作 ， 然 后 应 使 用 closeO 释 放 文 件 摘 述 符 及 相关 资源 。 这 些 系 
统 调 用 可 对 所 有 类 型 的 文件 执行 IO 操作 。 

所 有 类 型 的 文件 和 设备 驱动 都 实现 了 相同 的 VO 接口 ， 这 保证 了 IO 操作 的 通用 性 ， 同 时 
也 意味 看 在 无 需 针 对 特定 文件 类 型 编写 代码 的 情况 下 ， 程 序 通 常 就 能 操作 所 有 类 型 的 文件 。 

对 于 已 打开 的 每 个 文件 ， 内 核 都 维护 有 一 个 文件 仿 移 量 ， 这 决定 了 下 一 次 读 或 号 操作 的 
起 始 位 置 。 读 和 写 操作 会 隐 式 修改 文件 偏 移 量 。 使 用 lseek0 函 数 可 以 显 式 地 将 文件 偏 移 量 置 
为 文件 中 或 文件 结尾 后 的 任 一 位 置 。 在 文件 原 结尾 处 之 后 的 某 一 位 置 写 入 数据 将 导致 文件 空 
洞 。 从 文件 空洞 处 恋 取 文件 将 返回 全 0 子 节 。 

对 于 未 纳入 标准 IO 模型 的 所 有 设备 和 文件 操作 而 言 ，ioctl0 系 统 调用 是 个 “百宝箱 ”。 



































4.10 ”练习 


4-l. tee 命令 是 从 标准 输入 中 读 取 数据 ， 直 全 文件 结尾 ， 随 后 将 数据 写 入 标准 输出 和 命令 行 
参数 所 指定 的 文件 。(44.7 市 讨论 FIFO 时 ， 会 展示 使 用 tee 命令 的 一 个 例子 。) 请 使 用 
VO 系统 调用 实现 tee 命令 。 上 默认 情况 下 ， 有 已 存在 与 命令 行 参数 指定 文件 同名 的 文件 ， 
tee 命令 会 将 其 覆 过 。 如 文件 已 存在 ， 请 实现 -a 命令 行 选项 (tee-a file) 在 文件 结尾 处 
追加 数据 。( 请 参考 附录 B 中 对 getopt0 函 数 的 描述 来 解析 命令 行 选项 。) 

4-2. ”编写 一 个 类 似 于 cp 命令 的 程序 ， 当 使 用 该 程序 复制 一 个 包含 空洞 《连续 的 罕 字 他) 
的 普通 文件 时 ， 要 求 目 标 文 件 的 空洞 与 源 文件 保持 一 致 。 
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9. 


深入 探究 文件 MO 


本 章 将 延续 上 一 间 有 的 讨论 ， 进 一 步 探 究 文件 LO。 

在 后 续 的 关于 openO 系 统 调用 的 探讨 中 ， 将 引入 原子 Catomicity) 操作 的 概念 一 一 将 某 一 
系统 调用 所 要 完成 的 各 个 动作 作为 不 可 中 断 的 操作 ， 一 次 性 加 以 执行 。 原 子 操作 是 许多 系统 
调用 得 以 正确 执行 的 必要 条 件 。 

本 章 还 将 介绍 另 一 个 与 文件 操作 相关 的 系统 调用 : 多 用 途 的 fcntl0， 并 展示 其 应 用 之 一 评 
取 和 设置 打开 文件 的 状态 标志 。 

随后 ， 本 章 将 审视 用 于 表示 文件 描述 符 和 已 打开 文件 的 内 核 数 据 结构 。 后 续 各 章 将 探讨 
文件 VO 的 某 些 微妙 之 处 ,理解 这 些 数据 结构 之 间 的 关系 对 此 将 有 所 助 蔓 。 基 于 这 一 模型 ， 本 
草 还 将 解释 如 何 复制 文件 描述 符 。 

之 后 ， 本 章 将 讨论 一 些 文 持 扩 展 读 写 功能 的 系统 调用 。 此 类 调用 可 以 在 不 改变 文件 当前 偶 移 量 
的 情况 下 ， 在 文件 的 特定 位 置 处 进行 恋 写 操作 ， 以 及 对 程序 中 多 个 缓冲 区 进行 数据 《〈 双 癌 ) 传输 。 

最 后 ， 将 简要 介绍 非 阻 加 IO 的 概念 ， 并 述 及 一 些 用 于 读 写 大 文件 的 扩展 接口 。 

此 外 ， 因 为 临时 文件 在 许多 系统 程序 中 有 广泛 的 应 用 ， 所 以 本 章 也 会 介绍 一 些 相 关 库 函 
数 : 在 保证 随机 生成 唯一 文件 名 称 的 同时 ， 用 于 创建 和 操作 临时 文件 。 


51 原子 操作 和 竞争 条 件 


在 探究 系统 调用 时 会 反复 涉及 原子 操作 的 概念 。 所 有 系统 调用 都 是 以 原子 操作 方式 执行 
的 。 之 所 以 这 么 说 ， 是 指 内 核 保 证 了 某 系统 调用 中 的 所 有 步骤 会 作为 独立 操作 而 一 次 性 加 以 
执行 ， 其 间 不 会 为 其 他 进程 或 线程 所 中 靳 。 

原子 性 是 某 些 操作 得 以 圆满 成 功 的 关键 所 在 。 特 别 是 它 规避 了 竞争 状态 (race conditions) 
(有 时 也 称 为 苋 争 昌 险 )。 苋 争 状 态 古 这 样 一 种 情形 : 操作 共有 再 资源 的 两 个 进程 “或 线程 )， 其 
结果 取决 于 一 个 无 法 预期 的 顺序 ， 即 这 些 进程 获得 CPU 使 用 权 的 先后 相对 顺序 。 

接 下 来 ， 将 讨论 涉及 文件 UO 的 两 种 苋 争 状态 ， 并 展示 了 如 何 使 用 open0O 的 标志 位 ， 来 你 
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UETH2SOCTEBRTE IF TE, Mati Ego E86 eee 
22.9 TAFIA SigsuspendO 系 统 调 用 。24.4 市 将 介绍 forkO 调 用 ， 届 时 将 再 次 探讨 竞争 状态 。 


以 独占 方式 创建 一 个 文件 


4.3.1 节 曾 述 及 : 当 同 时 指定 O_EXCL 与 O CREAT 作为 open0 的 标志 位 时 ， 如 果 要 打开 
的 文件 已 然 存 在 ， 则 open0O 将 返回 一 个 错误 。 这 提供 了 一 种 机 制 ， 保 证 进程 是 打开 文件 的 创建 
者 。 对 文件 是 否 存 在 的 检查 和 创建 文件 属于 同一 原子 操作 。 要 理解 这 一 点 的 重要 性 ， 请 思考 程 
序 清单 5-1 所 示 代 码 ， 该 段 代 码 中 并 未 使 用 O_EXCL 标志 。( 在 此 ， 为 了 对 执行 该 程序 的 不 同 
进程 加 以 区 分 ， 在 输出 信息 中 打印 有 通过 调用 getpidO 所 返回 的 进程 号 。) 


程序 清单 5-1: 试图 以 独占 方式 打开 文件 的 锯 误 代码 























— from fileio/bad exclusive open.c 
fd = open(argv[1], O WRONLY); /* Open 1: check if file exists */ 
if (fd !- -1) { /* Open succeeded */ 
printf("[PID 41d] File \"%s\" already existsWn", 
(long) getpid(), argv[1]); 


close(fd); 
} else { 
if (errno != ENOENT) { /* Failed for unexpected reason */ 
errExit("open"); 
} else { 


/* WINDOW FOR FAILURE */ 
fd = open(argv[1], O WRONLY | O CREAT, S IRUSR | S IWUSR); 
if (fd == -1) 

errExit("open"); 


printf("[PID 41d] Created file \"%s\" exclusivelyNn", 
(long) getpid(), argv[1]); /* MAY NOT BE TRUE! */ 


from fileio/bad exclusive open.c 


程序 清单 5-1 EIS. Ex I RR H open0 两 次 外 ， 还 潜伏 看 一 个 bug。 
假设 如 下 情况 : 当 第 一 次 调用 open0 时 ， 布 望 打开 的 文件 还 不 存在 ， 而 当 第 二 次 调用 openO 时 ， 
其 他 进程 已 经 创建 了 该 文件 。 如 图 5-1 所 示 ， 知 内核 调度 融 判 断 出 分 配给 A 进程 的 时 间 厂 已 
经 耗 尽 ， 并 将 CPU 使 用 权 交 给 B 进程 ， 束 可 能 会 及 生 这 种 问题 。 再 比如 两 个 进程 在 一 个 多 
CPU 系统 上 同时 运行 时 ， 也 会 出 现 这 种 情况 。 图 5-1 展示 了 两 个 进程 同时 执行 程序 清单 5-1 
中 代码 的 情形 。 在 这 一 场景 下 ， 进 程 A 将 得 出 错误 的 结论 : 目标 文件 是 由 目 己 创建 的 。 因 为 
无 论 目 标 文件 存在 与 否 ， 进 程 A 对 openO 的 第 二 次 调用 都 会 成 功 。 

虽然 进程 将 目 己 误 认 为 文件 创建 者 的 可 能 性 相对 较 小 ， 但 剃 竟 是 存在 的 ， 这 已 然 将 此 段 
代码 置 于 不 可 靠 的 境地 。 操 作 的 结果 将 依赖 于 对 两 个 进程 的 调度 顺序 ， 这 一 事实 也 残 意味 看 
UY EFAS. 

为 了 说 明 这 段 代码 的 确 存 在 问题 ， 可 以 用 一 段 代码 莹 换 程序 清单 5-1 中 的 注释 行 “ 处 理 文 件 
个 存在 的 情况 ”， 在 检查 文件 是 否 存在 与 创建 文件 这 两 个 动作 之 间 人 为 制造 一 个 长 时 间 的 等 竺 。 


printf("[PID 41d] File \"%s\" doesn't exist yet n", (long) getpid(), argv[1]); 
if (argc > 2) 1 /* Delay between check and create */ 
sleep(5); /* Suspend execution for 5 seconds */ 
printf("[PID 41d] Done sleepingWn", (long) getpid()); 
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进程 进程 BB 


open(..., O WRONLY); 














MH open() Wi 

| 时 间 片 耗 尽 | 时 间 片 开始 

一 一 | 

| 

' | Wa n openi) 失败 

| 

| 

i | open(..., O WRONLY 

| | O CREAT, ...); 

' 调用 open() 成 功 ， 
oe EJ f| it 

! 时 间 片 开始 | 时 间 片 结束 

4————————||-— 


open(..., O WRONLY | 


| U CREAT, cud) 
调用 open() 成 功 





图 5-1: 未 能 以 独占 万 式 创建 文件 


sleep0 〇 ) 库 函数 可 将 当前 执行 的 进程 挂 起 指定 的 秒 数 。23.4 市 将 讨论 该 函数 。 

如 末 同 时 运行 程序 清单 5-1 中 程序 的 两 个 实例 , 两 个 进程 都 会 声称 目 己 以 独占 方式 创建 了 
ats. 

$ ./bad exclusive open tfile sleep & 

[PID 3317] File "tfile" doesn't exist yet 

[1] 3317 

$ ./bad exclusive open tfile 

[PID 3318] File "tfile" doesn't exist yet 

[PID 3318] Created file "tfile" exclusively 

$ [PID 3317] Done sleeping 

[PID 3317] Created file "tfile" exclusively Not true 























从 上 面 输出 的 倒数 第 二 行 可 以 发 现 ，shell 提示 符 里 夹杂 了 第 一 个 实例 的 输出 信息 。 


由 于 第 一 个 进程 在 检查 文件 是 否 存 在 和 创建 文件 之 则 发 生 了 中 断 ， 造 成 两 个 进程 都 声称 上 自己 
是 文件 的 创建 者 。 结 合 O_CREAT M O EXCL 标志 来 一 次 性 地 调用 open0 可 以 防止 这 种 情况 ， 因 
为 这 确保 了 检查 文件 和 创建 文件 的 步骤 属于 一 个 单一 的 原子 〈 即 不 可 中 断 的 ) 操作 。 














加 文件 尾部 追加 数据 


用 以 说 明 原子 操作 必要 性 的 第 二 个 例子 是 ， 多 个 进程 同时 向 同一 个 文件 (例如 ， 全 局 日 
志文 件 ) 尾部 添加 数据 。 为 了 达到 这 一 目的 ， 也 许可 以 考虑 在 每 个 写 进 程 中 使 用 如 下 代码 。 
if (lseek(fd, 0, SEEK END) == -1) 
errExit("lseek"); 
if (write(fd, buf, len) !- len) 
fatal("Partial/failed write"); 
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但 是 , 这 段 代 码 存在 的 缺陷 与 前 一 个 例子 如 出 一 辐 。 如 果 第 一 个 进程 执行 到 lseek0 和 write() 
之 则 ， 被 执行 相同 代码 的 第 二 个 进程 所 中 断 ， 那 么 这 两 个 进程 会 在 写 入 数据 前 ， 将 文件 偏 移 
量 设 为 相同 位 置 ， 而 当 第 一 个 进程 再 次 获得 调度 时 ， 会 履 盖 第 二 个 进程 已 写 入 的 数据 。 此 时 
再 次 出 现 了 竞争 状态 ， 因 为 执行 的 结果 依赖 于 内 核对 两 个 进程 的 调度 顺序 。 

要 规避 这 一 问题 ， 需 要 将 文件 偏 移 量 的 移动 与 数据 写 操作 纳入 同一 原子 操作 。 在 打开 文 
件 时 加 入 O_APPEND 标志 就 可 以 保证 这 一 点 。 

有 些 文件 系统 (例如 NFS) Ax REO APPEND 标志 。 在 这 种 情况 下 ， 内 核 会 选择 
按 如 上 代码 所 示 的 方式 ， 施 之 以 非 原 子 操作 的 调用 序列 ， 从 而 可 能 导致 上 述 的 文件 脏 写 
入 问题 。 




















5.2 文件 控制 操作 : fcntl() 


fcntlO 系 统 调用 对 一 个 打开 的 文件 描述 符 执 行 一 系列 控制 操作 。 





#include «fcntl.h» 


int fcntl(int fd, int cmd, ...); 








Return on success depends on cmd, or -1 on error 








cmd 参数 所 文 持 的 操作 范围 很 广 。 本 曹 随 后 各 节 会 对 其 中 的 部 分 操作 加 以 研讨 ， 剩 下 的 
操作 将 在 后 续 各 章 中 进行 论述 。 

fcntl0 的 第 三 个 参数 以 省 略 号 来 表示 ， 这 意味 看 可 以 将 其 设置 为 不 同 的 闫 型， 或 者 加 以 省 
略 。 和 内核 会 依据 cmd 参数 如果 有 的 话 ) 的 值 来 确定 该 参数 的 数据 类 型 。 


5.3 ”打开 文件 的 状态 标志 


fentl(0) 的 用 途 之 一 十 针对 一 个 打开 的 文件 ， 获 取 或 修改 其 访问 模式 和 状态 标记 《这 些 值 是 
通过 指定 open0 调 用 的 flag 参数 来 设置 的 )。 要 获取 这 些 设 置 ， 应 将 fentl0 的 cmd 参数 设置 为 
F GETFL. 


int flags, accessMode; 











flags = fcntl(fd, F GETFL); /* Third argument is not required */ 
if (flags -- -1) 

errExit("fcnt1"); 
在 上 述 代 人 码 之 后 ， 可 以 以 如 下 代码 测试 文件 是 否 以 同步 写 方式 打开 : 


if (flags & O SYNC) 
printf("writes are synchronized Nn"); 





SUSv3 规定 : 针对 一 个 打开 的 文件 ， 只 有 通过 open0 或 后 续 fentl0 的 F_SETFL 操作 ， 才 能 
对 该 文件 的 状态 标志 进行 设置 。 然 而 在 如 下 方面 ，Linux 实现 与 标准 有 所 偏离 : 如 果 一 个 程 
序 编译 时 采用 了 5.10 市 所 提 及 的 打开 大 文件 技术 ， 那 么 当 使 用 F_GETEFL 命令 获取 文件 状 
态 标志 时 ， 标 志 中 将 总 是 包含 O_LARGEFILE 标志 。 
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判定 文件 的 访问 模式 有 一 点 复杂 ， 这 是 因为 0 RDONLY(0), O WRONLY(1)f O RDWRQ) 
这 3 个 常量 并 不 与 打开 文件 状态 标志 中 的 单个 比特 位 对 应 。 因 此 ， 要 判定 访问 模式 ， 需 使 用 
fi O ACCMODE 与 flag 相 与 ， 将 结果 与 3 个 常量 进行 比 对 ， 示 例 代码 如 下 : 

accessMode = flags & O ACCMODE; 


if (accessMode == O WRONLY || accessMode == O RDWR) 
printf("file is writable Wn"); 


可 以 使 用 fent] F SETFL 命令 来 修改 打开 文件 的 菜 些 状 态 标 志 。 人 允许 更 改 的 标记 
O APPEND, O NONBLOCK, O NOATIME, O ASYNC 和 O DIRECT。 系 统 将 忽略 对 其 他 
标志 的 修改 操作 。( 有 些 其 他 的 UNIX 实现 允许 fentl0 修 改 其 他 标志 ， 如 O_SYNC。) 
使 用 fentl0) 修 改 文件 状态 标志 ， 尤 其 适用 于 如 下 场景 。 
。 文件 不 是 由 调用 程序 打开 的 ， 所 以 程序 也 无 法 使 用 open0 调 用 来 控制 文件 的 状态 标志 
(例如 ， 文 件 是 3 个 标准 输入 输出 摘 述 符 中 的 一 员 ， 这 些 接 述 符 在 程序 局 动 之 前 束 被 
TIT. 

o 文件 描述 符 的 获取 是 通过 open0 之 外 的 系统 调用 。 比 如 pipeO 调 用 ， 该 调用 创建 一 个 
管道 ， 并 返回 两 个 文件 描述 符 分 别 对 应 管道 的 两 器 。 再 比如 socketO 调 用 ， 该 调用 创 
建 一 个 套 接 字 并 返回 指 同 该 套 接 字 的 文件 描述 符 。 

为 了 修改 打开 文件 的 状态 标志 ， 可 以 使 用 fentl0 的 F_GETFL 命令 来 获取 当前 标志 的 副本 ， 
然后 修改 需要 变更 的 比特 位 ， 最 后 再 次 调用 fentl(0) 函 数 的 F_SETFL 命令 来 更 狐 此 状态 标志 。 
因此 ， 为 了 添加 O APPEND 标志 ， 可 以 编写 如 下 代码 : 

int flags; 






































flags = fcntl(fd, F GETFL); 

if (flags -- -1) 
errExit("fcnt1"); 

flags |- O APPEND; 

if (fcntl(fd, F SETFL, flags) == -1) 
errExit("fcnt1"); 


5.4 文件 描述 符 和 打开 文件 之 间 的 天 系 


到 目前 为 止 ， 文 件 朱 述 符 和 打开 的 文件 之 间 似 乎 呈现 出 一 一 对 应 的 关系 。 然 而 ， 实 际 并 
非 如 此 。 多 个 文件 描述 符 指 癌 同 一 打开 文件 ， 这 既 有 可 能 ， 也 属 必 要 。 这 些 文件 描述 符 可 在 
相同 或 不 同 的 进程 中 打开 。 

要 理解 具体 情况 如 何 ， 需 要 查看 由 内 核 维护 的 3 个 数据 结构 。 

。 进程 级 的 文件 摘 述 符 表 。 

。 系统 级 的 打开 文件 表 。 

e 文件 系统 的 i-node X. 

针对 每 个 进程 ， 内 核 为 其 维护 打开 文件 的 描述 符 Copen file descriptor) 表 。 该 表 的 每 一 条 
目 都 记录 了 单个 文件 摘 述 符 的 相关 信息 ， 如 下 所 示 。 

o 控制 文件 摘 述 和 从 操作 的 一 组 标志 。( 目 前 ， 此 类 标志 仪 定义 了 一 个 ， 即 close-on-exec 标 

忘 ， 将 在 27.4 BF UTR.) 
e 对 打开 文件 句柄 的 引用 。 
内 核对 所 有 打开 的 文件 维护 有 一 个 系统 级 的 描述 表格 Copen file description table)。 有 时 ， 也 
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称 之 为 打开 文件 表 Copen file table)， 并 将 表 中 各 条 目 称 为 打开 文件 句柄 Copen file handle) 。 一 
个 打开 文件 句柄 存储 了 与 一 个 打开 文件 相关 的 全 部 信息 ， 如 下 所 示 。 

e 当前 文件 偏 移 量 (调用 read0 和 writeO 时 更 新 ， 或 使 用 lseekO 直 接 修改 )。 

e 打开 文件 时 所 使 用 的 状态 标志 〈“ 即 ，open0 的 flags 参数 )。 

e 文件 访问 模式 (如 调用 openO 时 所 设置 的 只 读 模式 、 只 写 模 式 或 读 写 模式 )。 

e 与 信号 驱动 IO 相关 的 设置 ( 见 63.3 市 )。 

e 对 该 文件 i-node 对象 的 引用 。 

每 个 文件 系统 都 会 为 驻 留 其 上 的 所 有 文件 建立 一 个 inode 表 。 第 14 章 将 话 细 讨 论 inode Zi 
构 和 文件 系统 的 总 体 结 构 。 这 里 只 是 列 出 每 个 文件 的 inode fill, Br. 

e 文件 类 型 (例如 ， 常 规 文件 、 套 接 字 或 FIFO) 和 访问 权限 。 

e 一 个 指针 ， 指 问 该 文件 所 持 有 的 锁 的 列表 。 

e 文件 的 各 种 属性 ， 包 括 文件 大 小 以 及 与 不 同类 型 操作 相关 的 时 间 蕉 。 


此 处 将 忽略 i-node TET TINTE ger yos 2e. WA DH i-node 记录 了 文件 的 固有 属 
性 ， 诸 如 : 文件 类 型 、 访 问 权 限 和 时 间 戳 。 访 问 一 个 文件 时 ， 会 在 内 存 中 为 i-node 创建 一 
个 副本 ， 其 中 记录 了 引用 该 inode 的 打开 文件 句柄 数量 以 及 该 inode 所 在 设备 的 主 、 从 设 
备 号 ， 还 包括 一 些 打 开 文 件 时 与 文件 相关 的 临时 属性 ， 例 如 : 文件 锁 。 


图 5-2 展示 了 文件 摘 述 符 、 打 开 的 文件 句柄 以 及 i-node 之 间 的 关系。 在 下 网 中 ， 两 个 进程 
拥有 诸多 打开 的 文件 摘 述 符 。 
在 进程 A 中 ， 文 件 摘 述 符 1 和 20 都 指 癌 同一 个 打开 的 文件 句柄 〈 标 号 为 23)。 这 可 能 是 
通过 调用 dupO0、dup20 或 fentl0 而 形成 的 (参见 5.5 节 )。 
HEFE A 的 文件 描述 符 2 和 进程 B 的 文件 描述 符 2 都 指 癌 同一 个 打开 的 文件 句柄 (标号 为 73 )。 
这 种 情形 可 能 在 调用 forkO 后 出 现 〈 即 ， 进 程 A 与 进程 B 之 间 是 父子 关系 )， 或 者 当 某 进程 通过 
UNIX 域 套 接 字 将 一 个 打开 的 文件 摘 述 符 传 递 给 另 一 进程 时 ， 也 会 发 生 《〈 参 见 61.13.3 5. 
此 外 ， 进 程 A 的 描述 符 0 和 进程 B 的 描述 符 3 分 别 指 回 不 同 的 打开 文件 句柄 ， 但 这 些 名 
13318 I] i-node 表 中 的 相同 条 目 “1976)， 换 言 之 ， 指 问 同一 文件 。 发 生 这 种 情况 是 因为 每 个 
进程 各 目 对 同一 文件 发 起 了 openO 调 用 。 同 一 个 进程 两 次 打开 同一 文件 ， 也 会 友 生 类 似 情 况 。 
上 述 讨 论 揭 示 出 如 下 要 点 。 
e 两 个 不 同 的 文件 描述 符 ， 奉 指 癌 同一 打开 文件 句柄 ， 将 共 吾 同一 文件 伺 移 量 。 因 此 ， 
如 果 通 过 其 中 一 个 文件 摘 述 答 来 修改 文件 偏 移 量 〈( 由 调用 read0、write0) 或 Iseek() 
所 致 )， 那 么 从 另 一 文件 摘 述 符 中 也 会 观察 到 这 一 变化 。 无 论 这 两 个 文件 摘 述 符 分 属 
于 不 同 进程 ， 还 是 同属 于 一 个 进程 ， 情 况 都 是 如 此 。 
。 要 获取 和 修改 打开 的 文件 标志 (例如 ，O_APPEND、O NONBLOCK 和 O_ASYNC)， 可 
执行 fentl0) 的 F_GETFL 和 F_SETFL 操作 ， 其 对 作用 域 的 约束 与 上 一 条 据 为 类 似 。 
e 相形 之 下 ， 文 件 描述 符 标 志 GREN, close-on-exec 标志 ) 为 进程 和 文件 描述 符 所 私有 。 
对 这 一 标志 的 修改 将 不 会 影响 同一 进程 或 不 同 进 程 中 的 其 他 文件 捅 述 符 。 






























































1 译 者 注 : 为 避免 混淆 ， 译 文 将 原文 中 的 open file description table 和 open file description 分 别 以 “打开 文 
件 表 ” 和 “打开 文件 句柄 ”和 蕉 换 。 但 在 给 译 者 的 回信 中 ， 作 者 尽管 承认 这 一 表述 方式 容易 使 读者 产生 混淆 ， 但 
仍 坚 持 open file description table 和 open file description 的 称谓 ， 原 因 有 二 : 一 ，open file description 是 相关 标 
准 所 采用 的 术语 ， 而 与 标准 保持 一 致 实 属 必 要 ; 二 , handle 通常 用 于 引用 用 户 空间 中 的 应 用 对 象 , 而 此 处 的 open 
file description 则 无 法 由 用 户 空 间 中 的 应 用 直接 访问 。 
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SERA 打开 文件 表 i-node 
文件 描述 符 表 系统 级 ) (系统 级 ) 








进程 了 





5-2: 文件 描述 得 、 打 开 的 文件 句柄 和 i-node 之 间 的 关系 


5.5 ”复制 文件 描述 和 仔 


Bourne shell 的 IO 重 定向 语法 2>&1, 意 在 通知 shell 把 标准 错误 (文件 描述 符 2) 重 定向 
到 标准 输出 《文件 掏 述 符 1)。 因 此 ， 下 列 命令 将 把 《因为 shell 按 从 左 至 右 的 顺序 处 理 LO. 重 
定向 语句 ) 标准 输出 和 标准 错误 写 入 result.log 文件 : 

$ ./myscript > results.log 2»81 

shell 通过 复制 文件 描述 符 2 实现 了 标准 错误 的 重 定向 操作 ， 因 此 文件 描述 符 2 与 文件 描 
述 符 1 指向 同一 个 打开 文件 句柄 (类 似 于 图 5-2 中 进程 A 的 描述 符 1 和 20 指向 同一 打开 文件 
句柄 的 情况 )。 可 以 通过 调用 dup0 和 dup20 来 实现 此 功能 

请 注意 ,要 满足 shell 的 这 一 要 求 , 仅仅 简单 地 打开 results.log 文件 两 次 是 远 远 不 够 的 (第 
一 次 在 描述 符 1 上 打开 ， 第 二 次 在 描述 符 2 上 打开 )。 首 先 两 个 文件 描述 符 不 能 共 孚 相同 的 文 
件 俩 移 量 指针 ， 因 此 有 可 能 导致 相互 履 关 彼此 的 输出 。 再 者 打开 的 文件 不 一 定 孢 是 磁盘 文件 。 
在 如 下 命令 中 ， 标 准 错 误 束 将 和 标准 输出 一 起 送 达 同一 

$ ./myscript 2»81 | less 

dupO 调 用 复制 一 个 打开 的 文件 描述 符 oldfdu， 并 返回 一 个 新 描述 符 ， 二 者 都 指 回 同一 打开 
的 文件 句柄 。 系 统 会 你 证 新 描述 符 一 定 是 编号 值 最 低 的 未 用 文件 描述 符 


#include «unistd.h» 


























int dup(int o/dfd); 


Returns (new) file descriptor on success, or -1 on error 











假设 发 起 如 下 调用 : 
1 译 者 注 : 将 文件 描述 符 1 复制 到 文件 描述 符 2。 
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newfd - dup(1); 

再 假定 在 正常 情况 下 ，shell 已 经 代表 程序 打开 了 文件 描述 符 0、1 和 2， 且 没 有 其 他 描述 
符 在 用 ，dup0O 调 用 会 创建 文件 描述 符 1 的 副本 ， 返 回 的 文件 描述 符 编号 值 为 3。 

如 采 硕 望 返回 文件 描述 符 2， 可 以 使 用 如 下 技术 : 


close(2); /* Frees file descriptor 2 */ 
newfd - dup(1); /* Should reuse file descriptor 2 */ 


只 有 当 描 述 符 0 已 经 打开 时 ， 这 段 代码 方 可 工作 。 如 采 想 进一步 简化 上 述 代码 ， 同 时 总 
征 能 获得 捷 期 望 的 文件 描述 符 ， 可 以 调用 dup20. 














#include «unistd.h» 


int dup2(int oldfd, int newfd); 


Returns (new) file descriptor on success, or -1 on error 








dup20 系 统 调用 会 为 oldfd 参数 所 指定 的 文件 描述 符 创 建 副 本 ， 其 编号 由 newfd 参数 指定 。 
如 果 由 newfd 参数 所 指定 编号 的 文件 描述 符 之 前 已 经 打 开 ， 那 么 dup20 会 首先 将 其 关闭 。(Cdup20 
调用 会 默然 忽略 newfd 关闭 期 间 出 现 的 任何 错误 。 故 此 ， 编 码 时 更 为 安全 的 做 法 是 : 在 调用 
dup20 之 前 ， 若 newfd 已 经 打开 ， 则 应 显 式 调 用 close() 将 其 关闭 。) 

前 述 调用 close0 和 dupO 的 代码 可 以 简化 为 : 

dup2(1, 2); 

右 调 用 dup20 成 功 ， 则 将 返回 副本 的 文件 描述 符 编 号 《〈 即 newfd 参数 指定 的 值 )。 

如 果 oldfd 并 非 有 效 的 文件 描述 符 ， 那 么 dup20 调 用 将 失败 并 返回 错误 EBADFE, HAX 
M] newfd。 如 果 oldfd 有 效 ， 且 与 newfd 值 相 等 ， 那 么 dup20 将 什么 也 不 做 ， 不 关闭 newfd, 
并 将 其 作为 调用 结果 返回 。 

fcntl()I'] F DUPFD 操作 是 复制 文件 摘 述 符 的 另 一 接口 ， 更 共有 灵活 性 。 

newfd = fcntl(oldfd, F DUPFD, startfd); 

该 调用 为 oldfd 创建 一 个 副本 ， 且 将 使 用 大 于 等 于 startfd 的 最 小 未 用 值 作 为 摘 述 符 编 号 。 
该 调用 还 能 体 证 新 摘 述 符 newfd) 编 扎 沙 在 特定 的 区 间 范 围 内 。 总 是 能 将 dup0 和 dup20) 
调用 改写 为 对 close0 和 fentlO0 的 调用 ， 虽 然 前 者 更 为 简洁 。( 还 需 注意 ， 正 如 手册 页 中 所 描述 
的 ，dup20 和 fentl0 二 者 返回 的 errno EVA E 4E — 18 2:51] ) 

由 图 5-2 可 知 ,， SCPETEDISTISEIIAE EIR ARE [8] —$TJF SC PE JS P ER] CTI D EAA 
Mus o Am, GIOCTETRSTI TH HEB GTI EOCTETIXS TII HIE close-on-exec 标记 
(FD CLOEXECO 总 是 处 于 关闭 状态 。 下 面 将 要 介绍 的 接口 ， 可 以 直接 控制 新 文件 摘 述 符 的 
close-on-exec 标志 。 

dup30 系 统 调用 完成 的 工作 与 dup20 相 同 ， 只 是 新 增 了 一 个 附加 参数 flag， 这 是 一 个 可 以 
修改 系统 调用 行为 的 位 掩体 。 




































































#define GNU SOURCE 
#include «unistd.h» 


int dup3(int oldfd, int newfd, int flags); 


Returns (new) file descriptor on success, or -1 on error 








目前 ，dup30 只 支持 一 个 标志 O_CLOEXEC， 这 将 促使 内 核 为 新 文件 描述 符 设 置 close-on-exec 
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标志 《FD_CLOEXEC)。 设 计 该 标志 有 的 缘由 ， 类 似 于 43.1 市 对 open0 调 用 中 O. CLOEXEC 标 
志 的 描述 。 

dup30 系 统 调 用 始 见 于 Linux 2.6.27， 为 Linux 所 特有 。 

Linux 从 2.6.24 开始 文 持 fcntO 用 于 复制 文件 摘 述 符 的 附加 命令 : FDUPFD CLOEXEC. 
该 标志 不 仪 实 现 了 与 F_DUPFD 相同 的 功能 , 还 为 新 文件 摘 述 符 设 置 close-on-exec 标志 。 同 样 ， 
此 命令 之 所 以 得 以 一 显 身 手 ， 其 原因 也 类 似 于 open0 调 用 中 的 O_CLOEXEC 标志 。SUSv3 并 
未 论 及 F_DUPFD _ CLOEXEC 标志 ， 但 SUSv4 对 其 作 了 规范 。 





5.6 在 文件 特定 偏 移 量 处 的 |/O: pread() 和 pwrite() 
系统 调用 pread0 和 pwrite0 完 成 与 read0 和 write0 相 类 似 的 工作 ， 只 是 前 两 者 会 在 offset 参数 
所 指定 的 位 置 进 行文 件 IO 操作 ,而 非 始 于 文件 的 当前 仿 移 量 处 ,， 且 它们 不 会 改变 文件 的 当前 


fue E o 











#include <unistd.h> 
ssize_t pread(int fd, void *buf, size_t count, off_t offset); 

Returns number of bytes read, 0 on EOF, or -1 on error 
ssize_t pwrite(int fd, const void *buf, size_t count, off_t offset); 


Returns number of bytes written, or -1 on error 














pread() 调 用 等 同 于 将 如 下 调用 纳入 同一 原子 操作 : 
off t orig; 
orig = lseek(fd, 0, SEEK CUR); /* Save current offset */ 


lseek(fd, offset, SEEK SET); 
s = read(fd, buf, len); 


lseek(fd, orig, SEEK SET); /* Restore original file offset */ 
对 pread0 和 pwrite()ifj zi, fd 所 指 代 的 文件 必须 是 可 定位 的 〈 即 允许 对 文件 摘 述 符 执 行 
lseekO 调 用 )。 





多 线程 应 用 为 这 些 系统 调用 提供 了 用 武之 地 。 正如 第 29 章 所 述 , 进程 下 辖 的 所 有 线程 将 共 
享 同一 文件 描述 符 表 。 这 也 意味 看 每 个 已 打开 文件 的 文件 偏 移 量 为 所 有 线程 所 共享 。 当 调用 
pread() 或 pwriteO0 时 ， 多 个 线程 可 同时 对 同一 文件 摘 述 符 执 行 VO 操作 ， 且 不 会 因 其 他 线程 修 
改 文 件 俩 移 量 而 受到 影响 。 如 末 还 试图 使 用 lseek0 和 reado write) KRE pread() CR 
pwrite())， 那 么 将 引发 竞争 状态 ， 这 类 似 于 5.1 节 讨 论 O APPEND 标志 时 的 描述 〈 当 多 个 进 
程 的 文件 换 述 符 指向 相同 的 打开 文件 句柄 时 , 使 用 pread() 和 pwrite() 系 统 调用 同样 能 够 避免 进 
EEA tH BL fe AS e 






































如 果 需 要 反复 执行 lseek0J， 并 伴 之 以 文件 IJO， 那 么 pread0 和 pwrite0) 系 统 调 用 在 某 些 
情况 下 是 具有 性 能 优势 的 。 这 是 因为 执行 单个 pread() (或 pwrite0) 系统 调用 的 成 本 要 低 于 
执行 lseek0 和 read() (EX write0) 两 个 系统 调用 。 然 而 ， 较 之 于 执行 VO 实际 所 需 的 时 间 ， 
系统 调用 的 开销 就 有 些 相形 见 细 了 。 























1 ŽRE: 执行 实际 VO 的 开销 要 远大 于 执行 系统 调用 ， 系 统 调用 的 性 能 优势 作用 有 限 。 
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5.7 分 散 输 入 和 集中 输出 (Scatter-Gather 1/O): readv() 
和 writev() 
readv0 和 writev0 系 统 调用 分 别 实现 了 分 散 输入 和 集中 输出 的 功能 。 





#include «sys/uio.h» 


ssize t readv(int fd, const struct iovec *20v, int tovcnt); 
Returns number of bytes read, 0 on EOF, or -1 on error 


ssize t writev(int fd, const struct iovec *7ov, int ?ovcnl); 








Returns number of bytes written, or -1 on error 


这 些 系 统 调用 并 非 只 对 单个 缓冲 区 进行 该 号 操作 ， 而 是 一 次 即 可 传输 多 个 绥 冲 区 的 数据 。 
数组 iov 定义 了 一 组 用 来 传输 数据 的 组 冲 区 。 整 型 数 iovcnt 则 指定 了 iov 的 成 员 个 数 。iov 中 的 
每 个 成 员 都 是 如 下 形式 的 数据 结构 。 


struct iovec { 
void *iov base; /* Start address of buffer */ 
size t iov len; /* Number of bytes to transfer to/from buffer */ 











15 





SUSv3 标准 允许 系统 实现 对 iov 中 的 成 员 个 数 加 以 限制 。 系 统 实 现 可 以 通过 定义 
<limits.h> 文 件 中 IOV MAX 来 通告 这 一 限额 ， 程 序 也 可 以 在 系统 运行 时 调用 sysconf ( SC 
IOV_MAX) 来 获取 这 一 限额 。(11.2 节 将 介绍 sysconfO。) SUSv3 要 求 该 限额 不 得 少 于 16。Linux 
将 IOV MAX 的 值 定 义 为 1024， 这 是 与 内 核对 该 同 量 大 小 的 限制 (由 内 核 常 量 UIO_MAXIOV 
定义 ) 相对 应 的 。 

IRT, glibc 对 readv0 和 writev0 的 封装 函数 还 悄悄 做 了 些 额 外 工作 。 若 系统 调用 因 
iovcnt 参数 值 过 大 而 失败 ， 外 和 却 函数 将 临时 分 配 一 块 绥 冲 区 ， 其 大 小 站 以 容纳 iov 参数 所 有 
成 员 所 插 述 的 数据 缓冲 区 ， 随 后 再 执行 read0 或 write0 调 用 (参见 后 文 对 使 用 write() S230 
writev() 功 能 的 讨论 )。 




















图 5-3 展示 的 是 一 个 天 于 iov、iovcnt 以 及 iov 指 问 缓冲 区 之 间 关 系 的 示例 。 


«—— | —3*» 


Cre | 


-— len 1 —- 






iovcnt iou 


| (oU. base 
| iov. len = lenO 



































IE bufler2 
| iov len = len2 ul 
3— — len? 一 


5-3: iovec 数组 及 其 相关 缓冲 区 的 示例 





1 详 者 注 : 又 称 外 元 函数 。 
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分 散 输入 

readv() 系 统 调用 实现 了 分 散 输入 的 功能 ， 从 文件 描述 符 fd. 所 指 代 的 文件 中 读 取 一 片 连续 
的 字 节 ， 然 后 将 其 散 置 (“分 散 放置 ”) 于 iov 指定 的 缓冲 区 中 。 这 一 散 置 动作 从 iov[0] 开 始 ， 
依次 填 满 每 个 缓冲 区 。 

原子 性 是 readvO 的 重要 属性 。 换 言 之 ， 从 调用 进程 的 角度 来 看 ， 当 调用 readvO 时 ， 内 核 
在 fd 所 指 代 的 文件 与 用 户 内 存 之 间 一 次 性 地 完成 了 数据 转移 。 这 意味 着 ， 假 设 即 使 有 另 一 进 
E (或 线程 ) 与 其 共享 同一 文件 偏 移 量 ， 日 在 调用 readv0 的 同时 企图 修改 文件 偏 移 量 ，readv0 
所 读 取 的 数据 仍 将 是 连续 的 。 

调用 readv0 成 功 将 返回 读 取 的 字 节 数 ， 若 文件 结束 将 返回 0。 调 用 者 必须 对 返回 值 进行 
检查 ， 以 验证 读 取 的 字 节 数 是 否 满足 要 求 。 若 数据 不 足以 填充 所 有 缓冲 区 ， 则 只 会 占用 部 分 
缓冲 区 ， 其 中 最 后 一 个 缓冲 区 可 能 只 存 有 部 分 数据 。 

程序 清单 5-2 展示 了 readv() 的 用 法 。 
































在 本 书 中 ， 当 以 函数 名 称 冠 以 “t_” 来 命名 示例 程序 时 (例如 :; 程序 清单 5-2 中 的 程序 
t_readv.c)， 意 在 表明 该 程序 主要 用 于 展示 单个 系统 调用 或 库 函 数 的 用 法 。 











程序 清单 5-2: 使 用 readv() 执 行 分 散 输 入 


fileio/t readv.c 


#include «sys/stat.h» 
#include «sys/uio.h» 
#include «fcntl.h» 

#include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


int fd; 

struct iovec iov[3]; 

struct stat myStruct; /* First buffer */ 

int x; /* Second buffer */ 
#define STR SIZE 100 

char str[STR SIZE]; /* Third buffer */ 


ssize t numRead, totRequired; 


if (argc != 2 || stremp(argv[1], "--help") == 0) 
usageErr("Xs fileWn", argv[0]); 


fd = open(argv[1], O RDONLY); 
if (fd -- -1) 
errExit("open"); 


totRequired - 0; 


iov[O0].iov base = &myStruct; 
iov[0].iov len = sizeof(struct stat); 


1 HH: EOF. 
2 译 者 注 : 按 iov 数组 顺序 。 
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totRequired += iov[O].iov len; 


iov[1].iov base = &x; 
iov[1].iov len = sizeof(x); 
totRequired += iov[1].iov len; 


iov[2].iov base - str; 
iov[2].iov len = STR SIZE; 
totRequired += iov[2].iov len; 


numRead - readv(fd, iov, 3); 
if (numRead -- -1) 
errExit("readv"); 


if (numRead « totRequired) 
printf("Read fewer bytes than requested An"); 


printf("total bytes requested: Xld; bytes read: XldWn", 
(long) totRequired, (long) numRead); 
exit(EXIT SUCCESS); 


fileio/t readv.c 


集中 输出 


writev0 系 统 调 用 实现 了 集中 输出 : 将 iov 所 指定 的 所 有 缓冲 区 中 的 数据 拼接 “集中” 起 
来 ， 然 后 以 连续 的 字 节 序列 写 入 文件 描述 符 fd 指 代 的 文件 中 。 对 缓冲 区 中 数据 的 “集中 ” 始 于 
iov[0] 所 指定 的 缓冲 区 ， 并 按 数组 顺序 展开 。 

像 readv0 调 用 一 样 ，writev0 调 用 也 属于 原子 操作 ， 即 所 有 数据 将 一 次 性 地 从 用 户 内 存 传 
笨 到 fd 指 代 的 文件 中 。 因 此 ， 在 向 普通 文件 写 入 数据 时 ，writev0 调 用 会 把 所 有 的 请 求 数据 连 
续 写 入 文件 ， 而 不 会 在 其 他 进程 〈 或 线程 ) 写 操 作 的 影响 下 分 散 地 写 入 文件 。 

如 同 writeO 调 用 ，writevO 调 用 也 可 能 存在 部 分 写 的 问题 。 因 此 ， 必 须 检 查 writev0 调 用 的 
返回 值 ， 以 确定 写 入 的 字 节 数 是 否 与 要 求 相符 。 

readv0 调 用 和 writev0 调 用 的 主要 优势 在 于 便捷 。 如 下 两 种 方案 ， 任 选 其 一 都 可 替代 对 
writev() 的 调用 。 

。 编码 时 , 首先 分 配 一 个 大 绥 冲 区 , 随即 再 从 进程 地 址 空间 的 其 他 位 置 将 数据 复制 过 来 ， 

最 后 调用 writeO 输 出 其 中 的 所 有 数据 。 

。 发 起 一 系列 write0 调 用 ， 逐 一 输出 每 个 缓冲 区 中 的 数据 。 

尽管 方案 一 在 语义 上 等 同 于 writev0 调 用 ， 但 需要 在 用 户 空间 内 分 配 缓冲 区 ， 进 行 数据 复 
制 ， 很 不 方便 (效率 也 低 )。 

方案 二 在 语义 上 就 不 同 于 单 次 的 writev0 调 用 ， 因 为 发 起 多 次 write0 调 用 将 无 法 保证 原子 性 。 更 
何况 ， 执 行 一 次 writev0 调 用 比 执行 多 次 write0 调 用 开销 要 小 (参见 3.1 节 关 于 系统 调用 的 讨论 )。 


在 指定 的 文件 偏 移 量 处 执行 分 散 输 入 /集中 输出 


Linux 2.6.30 版 本 新 增 了 两 个 系统 调用 : preadvO、pwritevO0， 将 分 散 输 入 /集中 输出 和 于 指 
定 文 件 偏 移 量 处 的 VO 二 者 集 于 一 映 。 它 们 并 非 标准 的 系统 调用 , 但 获得 了 现代 BSD 的 支持 。 





















































1 译 者 注 : 即 不 受 其 他 进 ( 线 ) 程 改变 文件 偏 移 量 的 影响 。 
2 译 者 注 : 应 当 指 出 ，readv0 和 writevO 会 改变 打开 文件 句柄 的 当前 文件 偏 移 量 。 
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#define BSD SOURCE 
#include «sys/uio.h» 


ssize t preadv(int fd, const struct iovec *7ov, int 20vcnt, off t offset); 
Returns number of bytes read, 0 on EOF, or -1 on error 
ssize t pwritev(int fd, const struct iovec *tov, int 2ovcnt, off t offset); 


Returns number of bytes written, or -1 on error 








preadv0 和 pwritev() 系 统 调用 所 执行 的 任务 与 readv0 和 writevO0 相 同 ， 但 执行 VO 的 位 置 将 
由 offset 参数 指定 (类 似 于 pread0 和 pwrite0 系 统 调用 ) 。 

对 于 那些 既 想 从 分 散 -集中 IO 中 受益 ， 又 不 愿 受制 于 当前 文件 偏 移 量 的 应 用 程序 (比如 ， 
多 线程 的 应 用 程序 ) 而 言 ， 这 些 系统 调用 恰好 可 以 派 上 用 场 。 











5.8 和 规 断 文件 : truncate() 和 ftruncate() 系 统 调用 


truncate() 和 和 ftruncate() 系 统 调 用 将 文件 大 小 设置 为 length 参数 指定 的 值 。 





#include «unistd.h» 


int truncate(const char *pathname, off t length); 
int ftruncate(int fd, off t length); 


Both return 0 on success, or -1 on error 











右 文 件 当 前 长 度 大 于 参数 leng 中 ， 调 用 将 丢弃 超出 部 分 ， 奋 小 于 参数 length， 调 用 将 在 文 
件 尾部 添加 一 系列 空 字 节 或 是 一 个 文件 空洞 。 

两 个 系统 调用 之 间 的 差别 在 于 如 何 指定 操作 文件 。truncate0 以 路 径 名 字符 串 来 指定 文件 ， 
并 要 求 可 访问 该 文件 ， 且 对 文件 拥有 写 权 限 。 若 文件 名 为 符号 链接 ， 那 么 调用 将 对 其 进行 解 
引用 。 而 调用 ftruncate0 之 前 ， 需 以 可 与 方式 打开 操作 文件 ， 获 取 其 文件 摘 述 符 以 指 代 该 文件 ， 
该 系统 调用 不 会 修改 文件 偏 移 量 。 

$r ftruncate() 的 length 参数 值 超出 文件 的 当前 大 小 ，SUSv3 允许 两 种 行为 : 要 人 么 扩展 该 文 
件 ( 如 Linux)， 要 么 返回 错误 。 而 符合 XS 标准 的 系统 则 必须 采取 前 一 种 行为 。 相 同 的 情况 ， 
对 于 truncate() 系 统 调用 ，SUSv3 则 要 求 总 是 能 扩展 文件 。 























truncate JE ri 76 LA open) (或 是 一 坚 其 他 方法 ) 来 获取 文件 描述 符 , 却 可 修改 文件 内 容 ， 
在 系统 调用 中 可 谓 独 树 一 帜 。 


5.9 JERE I/O 


在 打开 文件 时 指定 O_NONBLOCK 标志 ， 目 的 有 二 。 
e i; open0O 调 用 未 能 立即 打开 文件 ， 则 返回 错误 ， 而 非 陷 入 阻塞 。 有 一 种 情况 属于 例外 ， 
调用 openO 操 作 FIFO 可 能 会 陷入 阻塞 (参见 44.7 T). 





1 ŽARE: 作者 于 此 处 暗示 ， 这 两 个 系统 调用 所 执行 的 VO 将 不 影响 文件 的 当前 仙 移 量 。 
2 EE: 即 对 组 成 路 径 名 的 各 目录 拥有 可 执行 (x) 权限。 
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。 调用 open0) 成 功 后 ， 后 续 的 VO 操作 也 是 非 阻塞 的 。 知 VO 系统 调用 未 能 立即 完成 ， 则 可 
能 会 只 传输 部 分 数据 ， 或 者 系统 调用 失败 ， 并 返回 EAGAIN 2X, EWOULDBLOCK 错 
误 。 具 体 返 回 何 种 错误 将 依赖 于 系统 调用 。Linux 系统 与 许多 UNIX 实现 一 样 ， 将 两 
个 错误 常量 视 为 同 义 。 
管道 、 FIFO、 套 接 字 、 设备 (比如 终端 、 伪 终端 ) 都 文 持 非 阻 塞 模式 。( 因 为 无 法 通过 open() 
来 获取 管道 和 套 接 字 的 文件 描述 符 ， 所 以 要 局 用 非 阻塞 标志 ， 就 必须 使 用 5.3 节 所 述 fendi] 
F SETFL 命令 。) 
正如 13.1 廊 所 述 ， 由 于 内 核 缕 冲 区 保证 了 普通 文件 IO 不 会 陷入 阻 宕 ， 故 而 打开 普通 文 
件 时 一 般 会 忽略 O_NONBLOCK 标志 。 然而 , 当 使 用 强制 文件 锁 时 (55.4 1325, O NONBLOCK 
标志 对 普通 文件 也 是 起 作用 的 。 
更 多 关于 非 阻 塞 UO 的 信息 请 参见 44.9 节 和 第 63 章 。 























”历史 上 ,派生 自 System V 的 系统 提供 有 O_NDELAY 标志 , 语义 上 类 似 于 O_NONBLOCK 
标志 。 二 者 主要 的 区 别 在 于 : 在 System V RAP, FIER write ti H R fE S 
操作 ， 或 者 非 阻塞 的 read() 调 用 无 输入 数据 可 读 时 ， 则 两 个 调用 将 返回 0。 这 对 于 read() 
调用 来 说 会 有 问题 ， 因 为 程序 将 无 法 区 分 返回 0 的 read0 到 底 是 没有 可 用 的 输入 数据 ， 
还 是 遇 到 了 文件 结尾 。 故 而 POSIX.1 标准 在 初版 中 引入 了 O NONBLOCLK 标志 。 有 些 
UNIX 实现 一 直 还 在 支持 旧 语 义 的 O NDELAY 标志 。Linux 系统 虽然 也 定义 了 O NDELAY 
mig. HH O NONBLOCK 标志 同 义 。 





5.10 大 文件 MO 


通常 将 存放 文件 偏 移 量 的 数据 类 型 off t 实现 为 一 个 有 符号 的 长 整 型 。( 之 所 以 采用 有 符 
号 数据 类 型 ， 是 要 以 -1 来 表示 错误 情况 。) 在 32 位 体系 架构 中 (比如 x86-32)， 这 将 文件 大 小 
置 于 2 一 1 个 字 节 ( 即 2GB) 的 限制 之 下 。 

然而 ， 人 厂 盘 张 动 需 的 容量 早已 超出 这 一 限制 , 因此 32 位 UNIX 实现 有 处 理 超 过 2GB 大 小 
文件 的 需求 ， 这 也 在 情理 之 中 。 由 于 问题 较为 普 届 ，UNIX 广 商 联盟 在 大 型 文件 峰会 CLarge File 
Summit 上 就 此 进行 了 协商 ， 并 针对 必需 的 大 文件 访问 功能 ， 形 成 了 对 SUSv2 规范 的 扩展 。 
本 市 将 概述 LFS 的 增强 特性 。( 完 整 的 LFS 规范 定稿 于 1996 年 ， 可 通过 http://opengroup. 
org/platfornylfs.html 访问 。) 

始 于 内 核 版 本 2.4，32 位 Linux 系统 开始 提供 对 LFS 的 支持 (glibc 版 本 必须 为 2.2 或 更 高 )。 
男 一 个 前 提 是 ， 相 应 的 文件 系统 也 必须 文 持 大 文件 操作 。 大 多 数 “原生 ”Linux 文件 系统 提供 
了 LFS 文 持 ， 但 一 些 “ 非 原生 ”文件 系统 则 未 提供 该 功能 (微软 的 VFAT 41 NFSv2 系统 是 其 
中 较为 知名 的 范例 ， 无 论 系 统 是 否 启 用 了 LFS 扩展 功能 ，2GB 的 文件 大 小 限制 都 是 硬 杠 杠 )。 


由 于 64 位 系统 架构 (例如 ，Alpha、IA-64) 的 长 整 型 类 型 长 度 为 64 位 ， 故 而 LES 增强 特 
性 所 要 突破 的 限制 对 其 而 言 并 不 是 问题 。 然 而 ， 即 便 在 64 位 系统 中 ， 一些“ 原生 ”Linux 文件 系 
统 的 实现 细节 还 是 将 文件 大 小 的 理论 值 默认 为 不 会 超过 29-1 个 字 节 。 在 大 多 数 情况 下 ， 此 限 
额 远 远 超出 了 目前 的 磁盘 容量 ， 故 而 这 一 对 文件 大 小 的 限制 并 无 实际 意义 。 


























1 译 者 注 ， 此 处 所 谓 非 阻塞 意 指 O_NDELAY。 另 外 ， 原 文 表述 似 有 错误 ， 酌 改 ， 请 参见 APUEv2 第 142 节 。 
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应 用 程序 可 使 用 如 下 两 种 方式 之 一 以 获得 LFS 功能 。 

o 使 用 文 持 大 文件 操作 的 备 选 API. ix API 由 LFS 设计 ， 意 在 作为 SUS 规范 的 “过 渡 
型 扩展 ”% 因此， 尽管 大 部 分 系统 都 支持 这 一 API， 但 这 对 于 符合 SUSv2 或 SUSv3 规范 
的 系统 其 实 并 非 必须 。 这 一 方法 现 已 过 时 。 

e 在 编译 应 用 程序 时 ， 将 宏 FILE OFFSET BITS 的 值 定义 为 64。 这 一 方法 更 为 可 取 ， 
为 符合 SUS 规范 的 应 用 程序 无 需 修 改 任何 源码 即 可 获得 LFS 功能 。 




















过 滤 型 LFS API 


要 使 用 过 滤 型 的 LEFS API， 必 须 在 编译 程序 时 定义 LARGEFILE64 SOURCE 功能 测试 宏 ， 
该 定义 可 以 通过 命令 行 指定 ， 也 可 以 定义 于 源 文件 中 包含 所 有 头 文件 之 前 的 位 置 。 该 API 所 
属 图 数 具 有 处 理 64 位 文件 大 小 和 文件 仿 移 量 的 能 力 。 这 些 函 数 与 其 32 位 版 本 命名 相同 ， 只 
是 尾部 级 以 64 以 示 区 别 。 其 中 包括 : fopen640. open64(). Iseek64(). truncate64(), stat64(). 
mmap640 和 setrlimit64()。( 针 对 这 些 函 数 的 32 位 版 本 ， 本 书 前 面 已 然 讨论 了 一 部 分 ， 还 有 一 
些 将 在 后 续 章节 中 描述 。) 

要 访问 大 文件 ， 可 以 使 用 这 些 函数 的 64 位 版 本 。 例 如 ， 打 开 大 文件 的 编码 示例 如 下 : 

fd = open64(name, O CREAT | O RDWR, mode); 

if (fd -- -1) 

errExit("open"); 
调用 open640, 相当 于 在 调用 open0 时 指定 O. LARGEFILE 标志 。 若 调用 openO 时 未 指 
定 此 标 关 ， 且 欲 打开 的 文件 大 小 大 于 2GB， 那 么 调用 将 返回 钳 误 。 


另外 ， 除 去 上 述 提 及 的 函数 之 外 ， 过 渡 型 LFS API 还 增加 了 一 些 新 的 数据 类 型 ， 如 下 所 示 。 

e structstató4: 类 似 于 stat 结构 (参见 15.1 节 )， 文 持 大 文件 尺寸 。 

e off64 t: 64 位 类 型 ， 用 于 表示 文件 偏 移 量 。 

如 程序 清单 5-3 所 示 ， 除 去 使 用 了 该 API 中 的 其 他 64 位 函数 之 外 ，lseek640 束 用 到 了 数据 类 
型 off64 t。 访 程序 接受 两 个 命令 行 参数 : 和 欲 打 开 的 文件 名 称 和 给 定 的 文件 偏 移 量 〈 整 型 ) 值 。 程 序 
首先 打开 指定 的 文件 ， 然 后 检索 至 给 定 的 文件 偏 移 量 处 ， 随 即 写 入 一 串 字 从 。 如 下 所 示 的 shell 
会 话 中 ， 程 序 检索 到 一 个 超大 的 文件 偏 移 量 处 (超过 10GB )， 再 写 入 一 些 字 节 : 


$ ./large file x 10111222333 
$ ls -1 x Check size of resulting file 
-IW------- 1 mtk users 10111222337 Mar 4 13:34 x 


程序 清单 5-3: 访问 大 文件 























fileio/large file.c 
#define  LARGEFILE64 SOURCE 
include «sys/stat.h» 
include «fcntl.h» 
#include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 
int fd; 
off64 t off; 
if (argc !- 3 || stremp(argv[1], "--help") == 
usageErr("Xs pathname offsetWn", argv[0]); 


0) 


fd = open64(argv[1], O RDWR | O CREAT, S IRUSR | S IWUSR); 
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if (fd == -1) 
errExit("open64"); 


off = atoll(argv[2]); 
if (lseek64(fd, off, SEEK SET) == -1) 
errExit("lseek64"); 


if (write(fd, "test", 4) -- -1) 
errExit("write"); 
exit(EXIT. SUCCESS); 


fileio/large file.c 


FILE OFFSET BITS X 


要 获取 LFS 功能 ,推荐 的 作法 是 : 在 编译 程序 时 ,将 宏 FILE OFFSET BITS 的 值 定义 为 
64。 做 法 之 一 是 利用 C 语言 编译 器 的 命令 行 选项 : 

$ cc -D FILE OFFSET BITS=64 prog.c 

另外 一 种 方法 ， 是 在 C 语言 的 源 文件 中 ， 在 包含 所 有 头 文件 之 前 添加 如 下 宏 定 义 : 

#define FILE OFFSET BITS 64 

所 有 相关 的 32 位 函数 和 数据 类 型 将 日 动 转换 为 64 位 版 本 。 因 而 ， 例 如 ， 实 际会 将 open0 转 
换 为 open64()， 数据 类 型 off t 的 长 度 也 将 转 而 定义 为 64 位 。 换 言 之, 无需 对 源 公 进行 任何 修 
改 ， 只 要 对 已 有 程序 进行 重新 编译 ， 就 能 够 实现 大 文件 操作 。 

显然 ,使 用 宏 FILE OFFSET BITS 要 比 采 用 过 渡 型 的 LFS API 更 为 简单 ,但 这 也 要 求 应 
用 程序 的 代码 编写 必须 规范 例如， 声明 用 于 放置 文件 偏 移 量 的 变量 ， 应 正确 地 使 用 off t, 
而 不 能 使 用 “原生 ”的 C 语言 整 型 )。 

LFS 规范 对 于 文 持 _FILE_OFFSET_BITS 宏 未 作 使 性 规定 ,仅仅 提 及 将 该 宏 作 为 指定 
数据 类 型 off t 大 小 的 可 选 方案 。 一 些 UNIX 实现 使 用 不 同 的 特性 测试 宏 来 获取 此 功能 。 


























。 著 试 图 使 用 32 位 函数 访问 大 文件 ( 即 在 编译 程序 时 ， 未 将 宏 FILE OFFSET BITS 的 
值 设置 为 64)， 调 用 可 能 会 返回 EOVERFLOW 错误 。 例 如 ， 为 获取 大 小 超过 2G 文件 的 信 
息 ， 若 使 用 stat 的 32 位 版 本 时 就 会 遇 到 这 一 错误 。 





[5] printf() 调 用 传 违 off_t 值 


LFS 扩展 功能 没有 解决 的 问题 之 一 是 ， 如 何 癌 printtO 调 用 传递 off t 值 。3.6.2 T ER 
出 ， 对 于 预定 义 的 系统 数据 类 型 (诸如 pid t, uid t)， 展 示 其 值 的 可 移植 方法 是 将 该 值 强制 转 
换 为 long 型 ， 并 在 printf0) 中 使 用 限定 符 %ld。 人 然而， 一 旦 使 用 了 LFS 扩展 功能 ，%ld 将 不 足 
以 处 理 off t 数据 类 型 ， 因 为 对 该 数据 类 型 的 定义 可 能 会 超出 long 类 型 的 范围 ， 一 般 为 long long 
关 型 。 据 此 , 重要 显示 off t 类 型 的 值 , 则 先 要 将 其 强制 转换 为 long long 类 型 , 然后 使 用 printf() 


也 数 的 %lld 限定 符 显 示 ， 如 下 所 示 : 
#define FILE OFFSET BITS 64 

















off t offset; /* Will be 64 bits, the size of 'long long' */ 
/* Other code assigning a value to 'offset' */ 


printf("offset-XlldWn", (long long) offset); 
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在 处 理 stat 结构 所 使 用 的 blkent t 数据 类 型 时 , 也 应 予以 类 似 头 注 〈 参 见 15.1 TWR). 





如 需 在 独立 的 编译 模块 之 间 传 递 off t 或 stat 类 型 的 参数 值 ， 则 需 确 保 在 所 有 模块 中 ， 这 些 
数据 类 型 的 大 小 相同 ( 即 编 详 这 些 模块 时 , 要 么 将 宏 _FILE_OFFSET_BITS 的 值 都 定义 为 64, 
要 么 都 不 做 定义 )。 


5.11 /dev/fd 目录 


对 于 每 个 进程 ， 内 核 部 提供 有 一 个 特殊 的 虚拟 目录 /dev/fd。 该 目录 中 包含 “/dev/fd/m” 形 
式 的 文件 名 ,其 中 是 与 进程 中 的 打开 文件 描述 符 相 对 应 的 编号 。 因 此 ， 例 如 ，/dev/fd/0 就 对 
应 于 进程 的 标准 输入 。(SUSv3 对 /dev/fd 特性 未 做 规定 ,但 有 些 其 他 的 UNIX 实现 也 提供 了 这 
一 特性 。) 

打开 /dev/fd 目录 中 的 一 个 文件 等 同 于 复制 相应 的 文件 擅 述 符 ， 所 以 下 列 两 行 代码 是 等 价 的 : 

fd = open("/dev/fd/1", O WRONLY); 

fd = dup(1); /* Duplicate standard output */ 

在 为 open0 调 用 设置 flag 参数 时 ， 需 要 注意 将 其 设置 为 与 原 描 述 符 相 同 的 访问 模式 。 这 一 场 
景 下 ， 在 flag bis] Er s BA, WI O_CREAT， 是 坚 无 意义 的 《系统 会 将 其 忽略 )。 






































/dev/fd 实际 上 是 一 个 符号 链接 ， 链 接 到 Linux 所 专 有 的 /proc/self/fd 目录 。 后 者 又 是 Linux 
特有 的 /proc/PID/fd 目录 族 的 特例 之 一 ， 此 目录 族 中 的 每 一 目录 都 包含 有 符号 链接 ， 与 一 进 
程 所 打开 的 所 有 文件 相对 应 。 


程序 中 很 少 会 使 用 /dev/fd 目录 中 的 文件 。 其 主要 用 途 在 shell 中 。 许多 用 户 级 shell 命令 将 
文件 名 作为 参数 ， 有 时 需要 将 命令 输出 全 管道 ， 并 将 菏 个 参数 蔡 换 为 标准 输入 或 标准 输出 。 
出 于 这 一 日 的 ， 有 些 命令 (例如 ，diff、ed、tar 和 comm) 提供 了 一 个 解决 方法 ， 使 用 “-” 符 
写作 为 命令 的 参数 之 一 ， 用 以 表示 标准 输入 或 输出 〈 视 情况 而 定 )。 所 以 ， 要 比较 ls 命令 输出 
的 文件 名 列表 与 之 前 生成 的 文件 名 列表 ， 命 令 束 可 以 写成 : 

$ ls | diff - oldfilelist 

这 种 方法 有 不 少 问题 。 首 先 ， 访 方法 要 求 每 个 程序 都 对 “-” 符 号 做 专门 处 理 ， 但 是 许多 
程序 并 未 实现 这 样 的 功能 ， 这 些 命 令 只 能 处 理 文 件 ， 不 文 持 将 标准 输入 或 输出 作为 参数 。 其 次 ， 
有 些 程序 还 将 单个 “-” 符 解释 为 表征 命令 行 选项 结束 的 分 隔 符 。 

使 用 /dev/fd 目录 ， 上 述 问 题 将 迎刃而解 ， 可 以 把 标准 输入 、 标 准 输出 和 标准 错误 作为 
文件 名 参数 传递 给 任何 需要 它们 的 程序 。 所 以 ， 可 以 将 前 一 个 shell 命令 改写 成 如 下 形式 : 

$ ls | diff /dev/fd/0 oldfilelist 

方便 起 见 ， 系 统 还 提供 了 3 个 符号 链接 : /dev/stdin、/dev/stdout 和 /devstderr， 分 别 链接 
到 /dewfd/0、/dewfd/1 和 /dewfd/2 。 























5.12 创建 临时 文件 


有 些 程序 需要 创建 一 些 临 时 文件 , 仅 供 其 在 运行 期 间 使 用 , 程序 终止 后 即行 删除 ,例如 ， 
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很 多 编译 器 程序 会 在 编译 过 程 中 创建 临时 文件 。GNU C 语言 函数 库 为 此 而 提供 了 一 系列 库 
阔 数 。( 之 所 以 有 “一 系列 ”的 库 冰 数 ， 部 分 原因 是 由 于 这 些 函 数 分 别 继 承 目 各 种 UNIX 实 
HL.) 本 而 将 介绍 其 中 的 两 个 函数 : mkstempOsI tmpfile()。 

基于 调用 者 提供 的 模板 ，mkstemp0 函 数 生成 一 个 唯一 文件 名 并 打开 该 文件 ， 返 回 一 个 可 
用 于 vo 调用 的 文件 摘 述 符 。 


#include <stdlib.h> 














int mkstemp(char *template); 


Returns file descriptor on success, or -1 on error 








模板 参数 采用 路 径 名 形式 ， 其 中 最 后 6 个 字符 必须 为 XXXXXX。 这 6 TY NETS IR, 
以 保证 文件 名 的 唯一 性 , 且 修改 后 的 字符 串 将 通过 template 参数 传 回 .因为 会 对 传 入 的 template 
参数 进行 修改 ， 所 以 必须 将 其 指定 为 子 符 数组 ， 而 非 子 人 符 串 剃 量 。 

文件 拥有 者 对 mkstemp0 〇 函数 建立 的 文件 拥有 读 写 权 限 (其 他 用 户 则 没有 任何 操作 权限 )， 
且 打 开 文 件 时 使 用 了 O_EXCL 标志， 以 保证 调用 者 以 独占 方式 访问 文件 。 

通常 ， 打 开 临 时 文件 不 入， 程序 就 会 使 用 unlink 系统 调用 (参见 18.3 节 ) 将 其 删除 。 故 而 ， 
mkstemp() PR Z I] zs AERA BUE P rz: 


int fd; 
char template[] = "/tmp/somestringXo00QX" ; 




















fd = mkstemp(template); 
if (fd -- -1) 
errExit("mkstemp"); 
printf("Generated filename was: %s\n", template); 
unlink(template); /* Name disappears immediately, but the file 
is removed only after close() */ 


/* Use file I/O system calls - read(), write(), and so on */ 


if (close(fd) == -1) 
errExit("close"); 





使 用 tmpnam(), tempnam()fll mktempO 函 数 也 能 生成 唯一 的 文件 名 。 然 而 ， 由 于 这 会 导致 
应 用 程序 出 现 安全 漏洞 ， 应 当 避 免 使 用 这 些 函 数 。 关 于 这 些 聊 数 的 进一步 细节 请 参考 手册 页 。 











tmpfileO 国 数 会 创建 一 个 名 称 唯 一 的 临时 文件 ， 并 以 该 号 方式 将 其 打开 。( 打 开 访 文件 时 
使 用 了 O EXCL 标 忘 ， 以 防 一 个 可 能 性 极 小 的 冲突 ， 即 为 一 个 进程 已 经 创建 了 一 个 同名 文件 。) 





#include «stdio.h» 


FILE *tmpfile(void); 


Returns file pointer on success, or NULL on error 








tmpfile() 函 数 执行 成 功 ， 将 返回 一 个 文件 流 供 stdio 库 函 数 使 用 。 文 件 流 关闭 后 将 目 动 删 
除 临时 文件 。 为 达到 这 一 日 的 ，tmpfile0 函 数 会 在 打开 文件 后 ， 从 内 部 立即 调用 unlinkO 来 删 
除 该 文件 名 。 











1 WWE: 进程 终 正 时 会 关闭 所 有 打开 的 文件 描述 符 ， 关 闭 文件 就 会 删除 这 些 临时 文件 〈 参 考 mkstmp fX 
人 码 示例 中 的 注释 )， 由 此 可 以 推导 出 ， 进 程 退 出 时 将 上 自动 删除 临时 文件 。 
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5.13 总结 


本 章 介绍 了 原子 操作 的 概念 ， 这 对 于 一 些 系 统 调用 的 正确 操作 至 关 重 要 。 特 别 是， 指定 
O EXCL 标志 调用 open0， 这 确保 了 调用 者 就 是 文件 的 创建 者 。 而 指定 O_APPEND 标志 来 调 
用 open0， 还 确保 了 多 个 进程 在 对 同一 文件 追加 数据 时 不 会 敢 盖 彼此 的 输出 。 

系统 调用 fcntI0 可 以 执行 许多 文件 控制 操作 ， 其 中 包括 : 修改 打开 文件 的 状态 标志 、 复 制 
OC ERAT E. EH] dup0 和 dup20 系 统 调用 也 能 实现 文件 描述 符 的 复制 功能 。 

本 章 接 着 研究 了 文件 描述 符 、 打 开 文 件 句柄 和 文件 i-node 之 间 的 关系 ， 并 特别 指出 这 3 
个 对 象 各 目 包 含 的 不 同 信息 。 文 件 描述 符 及 其 副本 指 癌 同一 个 打开 文件 句柄 ， 所 以 也 将 共享 
打开 文件 的 状态 标志 和 文件 偏 移 量 。 

之 后 插 述 的 诸多 系统 调用 ， 是 对 常规 read0 和 write0 系 统 调用 的 功能 扩展 。preadO0 和 
pwrite() 系 统 调用 可 在 文件 的 指定 位 置 处 执行 WO 功能 ， 且 不 会 修改 文件 偏 移 量 。readvO 和 
writev0 系 统 调用 实现 了 分 散 输入 和 集中 输出 的 功能 。preadv0 和 pwritev0 〇 系统 调用 则 集 上 述 两 
对 系统 调用 的 功能 于 一 身 。 

使 用 truncate) 和 ftruncate() 系 统 调用 ， 婚 可 以 丢弃 多 余 的 字 节 以 缩小 文件 大 小 ， 又 能 使 
用 填充 为 0 的 文件 空洞 来 增加 文件 大 小 。 

本 草 还 简单 介绍 了 非 阻 圭 IO 的 概念 ， 后 续 章 节 中 还 将 继续 讨论 。 

LFS 规范 定义 了 一 套 扩展 功能 ， 人 允许 在 32 位 系统 中 运行 的 进程 来 操作 无 法 以 32 位 表示 
的 大 文件 。 

运用 虚拟 目录 /dev/fd 中 的 编号 文件 ， 进 程 就 可 以 通过 文件 描述 符 编写 来 访问 上 日 己 打开 的 
文件 ， 这 在 shell 命令 中 尤其 有 用 。 

mkstemp() 和 tmpfileO 函 数 允 许 应 用 程序 去 创建 临时 文件 。 















































5.14 练习 


5-1. ”请 使 用 标准 文件 VO 系统 调用 (open0 和 IseekO) 和 off t 数据 闫 型 修改 程序 清单 5-3 
中 的 程序 。 将 宏 FILE OFFSET BITS 的 值 设置 为 64 进行 编译 , 并 测试 该 程序 是 否 
能 够 成 功 创建 一 个 大 文件 。 

5-2. ”编写 一 个 程序 ， 使 用 O_APPEND 标志 并 以 写 方式 打开 一 个 已 存在 的 文件 ， 且 将 
文件 俩 移 量 置 于 文件 起 始 处 ， 再 号 入 数据 。 数 据 会 显示 在 文件 中 的 哪个 位 置 ? 为 
EAR 

5-3. ”本 习题 的 设计 目的 在 于 展示 为 何以 O_APPEND 标志 打开 文件 来 保障 操作 的 原子 性 
是 必要 的 。 请 编写 一 程序 ， 可 接收 多 达 3 个 命令 行 参数 : 
$ atomic append filename num-bytes [x] 
该 程序 应 打开 所 指定 的 文件 (如 有 必要 ， 则 创建 之 )， 然 后 以 每 次 调用 write0 写 入 一 个 
字 节 的 方式 ， 回 文件 尾部 退 加 num-bytes 个 字 节 。 和 缺 省 情况 下 ， 程 序 使 用 O_APPEND 
标记 打开 文件 ， 但 大 存在 第 三 个 命令 行 参数 (x )， 那 么 打开 文件 时 将 不 再 使 用 
O APPEND 标志 ， 代 之 以 在 每 次 调用 writeO 前 调用 lseek(fd,0,SEEK END). 同时 运行 
该 程序 的 两 个 实例 ， 不 市 x 参数 ， 将 100 万 个 字 市 写 入 同一 文件 : 
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5-4. 


5-5. 


5-6. 


5-7. 


$ atomic append f1 1000000 & atomic append f1 1000000 

重复 上 述 操作 ， 将 数据 号 入 另 一 文件 ， 但 运行 时 加 入 x 参数 : 

$ atomic append f2 1000000 x & atomic append f2 1000000 x 

使 用 ls-1 MERE fl BI £2 的 大 小 ， 并 解释 两 文件 大 小 不 同 的 原因 。 

使 用 fcntt0 和 close() (车 有 必要 ) 来 实现 dup0 和 dup20。( 对 于 某 些 错误 ，dup20 
和 fcntl3R [n] I] errno 值 并 不 相同 ， 此 处 可 不 予 考 虑 。) 务必 牢记 dup20 需 要 处 理 的 
一 种 特殊 情况 ， 即 oldfd 与 newfd 相等 。 这 时 ， 应 检查 oldfd 是 否 有 效 ， 测 试 fcntl 
(oldfd, F GETFL)Zé $5 |j JL Be RAX — H BJ. a oldfd 无 效 ， 则 dup20 将 返回 -1， 
并 将 errno 置 为 EBADF。 

编写 一 程序 ， 验 证 文件 描述 符 及 其 副本 是 否 共 孚 了 文件 偶 移 量 和 打开 文件 的 状态 
标志 。 

说 明 下 列 代码 中 每 次 执行 write0 后 ， 输 出 文件 的 内 容 是 什么 ， 为 什么 。 


fdi = open(file, O RDWR | O CREAT | O TRUNC, S IRUSR | S IWUSR); 
fd2 = dup(fd1); 

fd3 = open(file, O RDWR); 

write(fd1, "Hello,", 6); 

write(fd2, "world", 6); 

lseek(fd2, 0, SEEK SET); 

write(fd1, "HELLO,", 6); 

write(fd3, "Gidday", 6); 


使 用 read(. write) XK malloc AE, CW, 7.1.2 73520. 中 的 必要 函数 以 实现 readv() 
和 writev0O 功 能 。 
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du 
Vt 


[3t 
Hi 














本 章 将 研究 进 程 结构 ， 并 将 重点 关注 进程 虚拟 内 存 的 布局 及 内 容 。 同 时 ， 还 会 对 进程 的 茶 些 属 
性 进行 考察 。 后 续 草 市 会 对 进程 属性 做 进一步 的 探究 (例如 第 9 半 的 进程 凭证 ， 第 35 章 的 进程 优 
先 权 及 进程 调度 )。 第 24 EER 27 革 将 讨论 如 何 创 建 、 终 止 进程 ， 以 及 进程 如 何 执 行 新 的 程序 。 


6.1 进程 和 程序 


进程 Cprocess) 是 一 个 可 执行 程序 (program) 的 实例 。 本 节 将 曾 述 进程 定义 ， 并 澄清 其 
与 程序 之 间 的 区 别 。 
程序 是 包含 了 一 系列 信息 的 文件 , 这 些 信 息 描 述 了 如 何在 运行 时 创建 一 个 进程 , 所 包括 的 内 容 
AF PTA 

。 二 进 制 格式 标识 : 每 个 程序 文件 都 包含 用 于 描述 可 执行 文件 格式 的 元 信息 
(metainformation)。 内 核 CkerneD 利用 此 信息 来 解释 文件 中 的 其 他 信息 。 历史 上 , UNIX 
可 执行 文件 曾 有 两 种 广泛 使 用 的 格式 ， 分别 为 最 初 的 a.out〔 汇 编程 序 输 出 ) 和 更 加 复 
IRH COFF (通用 对 象 文 件 格 式 )。 现 在 ， 大 多 数 UNIX 实现 (包括 Linux) 采用 可 执行 
连接 格式 (ELF)， 这 一 文件 格式 比 老 版 本 格式 具有 更 多 优点 。 

e 机 器 语言 指令 : 对 程序 算法 进行 编码 。 

e 程序 入 口 地 址 : 标识 程序 开始 执行 时 的 起 始 指令 位 置 。 

e 数据 : 程序 文件 包含 的 变量 初始 值 和 程序 使 用 的 字面 音量 〈literal constant) 值 ( 比 
如 字符 串 )。 

e 符号 表 及 重 定 位 表 : 描述 程序 中 冰 数 和 变量 的 位 置 及 名 称 。 这 些 表 格 有 多 各 用途， 其 
中 包括 调试 和 运行 时 的 从 号 解析 (动态 链接 )。 

e 共享 库 和 动态 链接 信息 : 程序 文件 所 包含 的 一 些 字 段 ， 列 出 了 程序 运行 时 需要 使 用 的 
共 孚 库 ， 以 及 加 载 共 孚 库 的 动态 链接 器 的 路 径 名 。 

e 其 他 信息 : 程序 文件 还 包含 许多 其 他 信息 ， 用 以 描述 如 何 创 建 进程 。 

可 以 用 一 个 程序 来 创建 许多 进程 ， 或 者 反 过 来 说 ， 许 多 进程 运行 的 可 以 是 同一 程序 。 

在 此 将 本 人 节 开 始 时 给 出 的 进程 定义 重新 改写 为 ， 进 程 是 由 内 核定 义 的 抽 有 象 的 实体 ， 并 为 
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该 实体 分 配 用 以 执行 程序 的 各 项 系统 资源 。 

从 内 核 角 度 看 ， 进 程 由 用 户 内 存 空间 Cuser-space memory) 和 一 系列 内 核 数据 结构 组 成 ， 其 
中 用 户 内 存 空间 包含 了 程序 代码 及 代码 所 使 用 的 变量 , 而 内 核 数 据 结构 则 用 于 维护 进程 状态 信息 。 
记录 在 内 核 数 据 结构 中 的 信息 包括 许多 与 进程 相关 的 标识 写 (IDs)、 虚 拟 内 存 表 、 打 开 文件 的 插 
述 符 表 、 信 和 号 传递 及 处 理 的 有 关 信 息 、 进 程 资源 使 用 及 限制 、 当 前 工作 目录 和 大 量 的 其 他 信息 。 
































6.2 ”进程 亏 和 父 进程 号 
每 个 进程 都 有 一 个 进程 号 (PID )， 进 程 号 是 一 个 正 数 ， 用 以 唯一 标识 系统 中 的 某 个 进程 。 对 
各 种 系统 调用 而 言 ， 进 程 号 有 时 可 以 作为 传 入 参数 ， 有 时 可 以 作为 返回 值 。 比 如 ， 系 统 调用 kill 
(20.5 455 允许 调用 者 向 拥有 特定 进程 号 的 进程 发 送 一 个 信号 。 当 需要 创建 一 个 对 某 进 程 而 言 唯一 
的 标识 符 时 ， 进 程 号 束 会 派 上 用 场 。 和 常见 的 例子 是 将 进程 号 作为 与 进程 相关 文件 名 的 一 部 分 。 
系统 调用 getpid0 返 回调 用 进程 的 进程 号 。 


#include «unistd.h» 























pid t getpid(void); 


Always successfully returns process ID of caller 








getpidO3R [HE MAJER N pid t, 该 类 型 是 由 SUSv3 所 规定 的 整数 类 型 , 专用 于 存储 进 
Fi. 

除了 少数 系统 进程 外 ， 比 如 init 进程 (进程 号 为 1)， 程 序 与 运行 该 程序 进程 的 进程 号 之 
间 没 有 固定 关系 。 

Linux 内 核 限制 进程 写 需 小 于 等 于 32767。 新 进程 创建 时 ， 内 核 会 按 顺 序 将 下 一 个 可 用 的 
进程 号 分 配给 其 使 用 。 每 当 进 程 号 达到 32767 的 限制 时 ， 内 核 将 重 置 进程 号 计数 器 ， 以 便 从 
小 整数 开始 分 配 。 














一 旦 进程 号 达到 32767， 会 将 进程 号 计数 器 重 置 为 300， 而 不 是 1。 之 所 以 如 此 ， 是 因 
为 低 数值 的 进程 号 为 系统 进程 和 守护 进程 所 长 期 占用 ， 在 此 范围 内 搜索 尚未 使 用 的 进程 号 
| 

在 Linux2.4 版 本 及 更 早 版 本 中 ， 进 程 号 的 上 限 32767， 由 内 核 常量 PID MAX 所 定义 。 
在 Linux 2.6 版 本 中 ,情况 有 所 改变 。 尽 管 进程 号 的 默认 上 限 仍 是 32767, 但 可 以 通过 Linux 
系统 特有 的 /proc/sys/kernel/pid max 文件 来 进行 调整 (其 值 = 最 大 进程 号 +1)。 在 32 位 平台 
H, pid max 文件 的 最 大 值 为 32768, 但 在 64 位 平台 中 , 该 文件 的 最 大 值 可 以 高 达到 2“( 约 
400 万 )， 系 统 可 能 容纳 的 进程 数量 会 非常 庞大 。 


每 个 进程 都 有 一 个 创建 目 己 的 父 进程 。 使 用 系统 调用 getppid0 可 以 检索 到 父 进 程 的 进程 写 。 


#include «unistd.h» 


























pid t getppid(void); 








Always successfully returns process ID of parent of caller 


实际 上 ， 每 个 进程 的 父 进程 号 属性 反映 了 系统 上 所 有 进程 间 的 树 状 关系 。 每 个 进程 的 父 
进程 义 有 目 己 的 父 进程 ， 以 此 关 推 ， 回 溯 到 1 号 进程 一 一 init 进程 ， 即 所 有 进程 的 始祖 。 使 用 





第 6 章 进程 93 


异步 社区 会 员 flyman150(2410757683@qq.com) EF 尊重 版 权 


pstree(1) 命 令 可 以 查看 到 这 一 “家 族 树 ”(family tree). 

如 有 果子 进程 的 父 进 程 终止 ， 则 子 进程 就 会 变 成 “孤儿 ”init 进程 随即 将 收养 该 进程 ， 子 
进程 后 续 对 getppid() 的 调用 将 返回 进程 号 1 (参照 26.2 市 )。 

通过 查看 由 Linux 系统 所 特有 的 /proc/PID/status 文件 所 提供 的 PPid 字段 ， 可 以 获知 每 个 
进程 的 父 进 程 。 


6.3 ”进程 内 存 布 局 


每 个 进程 所 分 配 的 内 存 由 很 多 部 分 组 成 ， 通 常 称 之 为 “ 段 (segment)”。 ll Pr. 

e 文本 段 包 含 了 进程 运行 的 程序 机 器 语言 指令 。 文 本 段 具 有 只 读 属 性 ， 以 防止 进程 通过 错 
误 指 针 意 外 修改 自身 指令 。 因 为 多 个 进程 可 同时 运行 同一 程序 ， 所 以 又 将 文本 段 设 为 可 
共享 ， 这 样 ， 一 份 程序 代码 的 拷贝 可 以 映射 到 所 有 这 些 进程 的 虚拟 地 址 空间 中 。 

e 初始 化 数据 段 包 含 显 式 初 始 化 的 全 局 变量 和 静态 变量 。 当 程序 加 载 到 内 存 时 ， 从 可 执 
行文 件 中 读 取 这 些 变 量 的 值 。 

e 未 初始 化 数据 段 包 含 了 未 进行 显 式 初 始 化 的 全 局 变量 和 静态 变量 。 程 序 启动 之 前 ， 系 统 
将 本 段 内 所 有 内 存 初 始 化 为 0。 出 于 历史 原因 ， 此 段 音 被 称 为 BSS 段 ， 这 源 于 老 版 本 的 
汇编 语言 助 记 符 “block started by symbol”。 将 经 过 初始 化 的 全 局 变量 和 静态 变量 与 未 经 
初始 化 的 全 局 变量 和 静态 变量 分 开 存 放 ， 其 主要 原因 在 于 程序 在 人 磁盘 上 存储 时 ， 没 有 必 
要 为 未 经 初始 化 的 变量 分 配 存储 空间 。 相 反 ， 可 执行 文件 只 需 记 录 未 初始 化 数据 段 的 位 
置 及 所 需 大 小 ， 直 到 运行 时 再 由 程序 加 载 需 来 分 配 这 一 空间 。 

e fk (stack) 是 一 个 动态 增长 和 收缩 的 段 ， 由 栈 帧 Cstack frames) 组 成 。 系 统 会 为 每 个 
当前 调用 的 函数 分 配 一 个 栈 帆 。 栈 帧 中 存储 了 函数 的 局 部 变量 《所谓 目 动 变量 )、 实 
参 和 人 返回 值 。6.5 TAIRA IEF 

e 推 Cheap ) 是 可 在 运行 时 (为 变量 ) 动 态 进 行内 存 分 配 的 一 块 区 域 。 堆 顶 痕 称 作 program break. 

对 于 初始 化 和 未 初始 化 的 数据 段 而 言 ， 不 太 和 营 用 、 但 表述 更 清晰 的 称谓 分 别 是 用 户 初始 化 

数据 段 Cuser-initialized data segment) 和 和 才 初 始 化 数据 段 Czero-initialized data segment). 
size(]) 命 令 可 显示 二 进 制 可 执行 文件 的 文本 段 、 初 始 化 数据 段 、 非 初始 化 数据 段 Coss) 的 
BK. 
















































































正文 中 使 用 的 术语 “ 段 (segment)” 不 应 与 一 些 人 硬件 体系 架构 ， 比 如 x86-32 中 使 用 的 
便 件 分 段 (segmentation〉 相 混淆。 相反 ， 本 文中 的 段 是 对 UNIX 系统 中 进程 虚拟 内 存 的 效 
辑 划 分 。 有 时， 会 使 用 术语 “区 (section)” 来 蔡 代 段 ， 因 为 在 当下 风行 的 可 执行 文件 格式 
(ELFO WY 人 "b" uus. 

本 书 会 在 多 处 涉及 这 种 情况 : 库 函 数 返 回 的 指针 指向 静态 分 配 的 内 存 。 这 和 意味 者 ， 该 
内 存 既 可 在 初始 化 数据 段 中 分 配 ， 也 可 在 非 初始 化 数据 段 中 分 配 。( 荣 些 情 况 下 ， 库 函数 转 
而 会 在 堆 上 对 内 存 做 一 次 性 动态 分 配 ， 然 而 ， 这 一 实现 细节 与 这 里 所 要 表达 的 意思 无 关 。) 
库 函 数 有 时 会 通过 静态 分 配 的 内 存 来 返回 信息 ， 了 人 解 这 一 情况 公关 重要 ， 因 为 这 厂 内 存 的 
存在 独立 于 函数 调用 ， 后 续 对 同一 函数 的 调用 可 能 会 将 其 窗 产 (有 了 时， 后 续 对 相关 疯 数 的 
调用 也 有 相同 的 效应 )。 使 用 静态 分 配 的 内 存 会 使 国 数 不 可 重 入 Cnonreentrant)。21.1.2 TU 
31.1 区 将 深入 讨论 重 入 〈reentrancy) 问题 。 
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程序 清单 6-1 展示 了 不 同类 型 的 C 语言 变量 ， 并 以 注释 说 明 每 种 变量 分 属于 哪个 段 。 这 
163 BTE RR ER EE JE ERE EFE T EDCAERU REESE, ELYENZHUERFE o CABD 中 ， 是 通 
过 栈 来 传递 所 有 参数 的 。 实 际 上 ， 优 化 编译 器 会 将 频繁 使 用 的 变量 分 配 于 寄存 器 中 ， 或 者 索 
性 将 变量 彻底 剔除 。 此 外 ， 一 些 ABI 需要 通过 寄存 器 ， 而 不 是 栈 ， 来 传递 函数 实 参 和 结 
尽管 如 此 ， 本 例 只 是 意 在 展示 C 语言 变量 和 进程 各 段 间 的 映射 关系 。 


程序 清单 6-1: 程序 变量 在 进程 内 存 各 段 中 的 位 置 











proc/mem segments.c 


#include «stdio.h» 
dinclude <stdlib.h> 


char globBuf[65536]; /* Uninitialized data segment */ 
int primes[]  ( 2, 3, 5, 7 }; /* Initialized data segment */ 


static int 
square(int x) 


~ 


* Allocated in frame for square() */ 


~ 


int result; * Allocated in frame for square() */ 


result = x * x; 
return result; /* Return value passed via register */ 


j 


static void 
doCalc(int val) /* Allocated in frame for doCalc() */ 


printf("The square of Xd is %d\n", val, square(val)); 


if (val < 1000) { 
int t; /* Allocated in frame for doCalc() */ 


t = val * val * val; 
printf("The cube of %d is %d\n", val, t); 


} 

l 

int 

main(int argc, char *argv[]) /* Allocated in frame for main() */ 
static int key = 9973; /* Initialized data segment */ 
static char mbuf[10240000]; /* Uninitialized data segment */ 
char *p; /* Allocated in frame for main() */ 
p = malloc(1024); /* Points to memory in heap segment */ 
doCalc(key); 
exit(EXIT SUCCESS); 

J 


proc/mem segments.c 


应 用 程序 二 进 制 接 口 (ABI) 是 一 套 规则 ,规定 了 三 进 制 可 执行 文件 在 运行 时 应 如 何 与 
东 些 服务 “诸如 内 核 或 函数 库 所 提供 的 服务 ) 交换 信息 。ABI 特别 规定 了 使 用 哪些 寄存 咒 








1 HE: 例如 ， 以 寄存 器 取代 变量 。 
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和 栈 地 址 来 交换 信息 以 及 所 交换 值 的 含义 ,一旦 针对 某 个 特定 ABI 进行 了 编译 ， 其 二 进 制 
可 执行 文件 应 能 在 ABI 相同 的 任何 系统 上 运行 。 与 之 相反 ， 标 准 化 的 API (如 SUSv3) 1X 
能 通过 编译 源 代码 来 保证 应 用 程序 的 可 移植 性 。 








虽然 SUSv3 REGE, 但 在 大 多 数 UNIX 实现 (包括 Linux) 中 C 语言 编程 环境 提供 了 3 
个 全 局 符号 《Symbol): etext, edata 和 end， 可 在 程序 内 使 用 这 些 符号 以 获取 相应 程序 文本 段 、 
初始 化 数据 段 和 非 初始 化 数据 段 结尾 处 下 一 字 节 的 地 址 。 使 用 这 些 符号 ， 必 须 显 式 声 明 如 下 : 
extern char etext, edata, end; 


/* For example, &etext gives the address of the end 
of the program text / start of initialized data */ 


图 6-1 展示 了 各 种 内 存 段 在 x86-32 体系 结构 中 的 布局 ， 该 图 的 顶部 标记 为 argv, environ 
的 空间 用 来 存储 程序 命令 行 实 参 (通过 C 语言 中 main0 函 数 的 argv 参数 获得 ) 和 进程 环境 列 
表 《 稍 后 讨论 )， 图 中 十 六 进 制 的 地 址 会 因 内 核 配 置 和 程序 链接 选项 差异 而 有 上 所 不 同 。 图 中 标 
灰 的 区 域 表 示 这 些 范围 在 进程 虚拟 地 址 空间 中 不 可 用 ， 也 惑 是 说 ， 没 有 为 这 些 区 域 创建 页 表 
(page table)〈 参 考 以 下 关于 虚拟 内 存 管理 的 讨论 )。 






































虚拟 内 存 地址 
CEE j /proc/kallsyms 
Kernel 在 该 区 域 提 拱 了 内 
映射 到 进程 虚拟 -—- 核 符号 的 地 址 (在 
内 存 ， 但 程序 内 核 2.4 及 其 之 前 版 
无 法 访问 本 的 /proc/ksyms 中 ) 
OxCO000000 ; 
i "EU, Eenucrom 
Hi 
( 回 下 增长 ) 
栈 顶 一 > | 
(未 分 配 的 内 存 ) 
序 中 断 一 -> 上 洁 富 富生 和 | ------ 
HE 
(向 上 增长 ) 
— end 


未 初始 化 的 数据 (bss) 


-二 一 一 CO 


-二 te 


虚拟 地 址 递增 方向 


0x08048000 








0x00000000 
6-1: ft Linux/x86-32 中 典型 的 进程 内 存 结构 





48.5 贡 将 更 为 详细 地 重新 讨论 进程 内 存 布 局 的 课题 ， 还 将 论 及 共享 内 存 和 共享 库 在 进程 
虚拟 内 存 中 的 放置 位 置 。 





96 Linux/UNIX 系统 编程 手册 ( 上 册 ) 
异步 社区 会 员 flyman150(2410757683 (9 qq.com) EF 尊重 版 权 


6.4 ”虚拟 内 存 管理 


上 述 关 于 进程 内 存 布局 的 讨论 忽略 了 一 个 事实 : 这 一 布局 存在 于 虚拟 内 存 中 。 因 为 对 虚 
拟 内 存 的 理解 将 有 助 于 后 续 对 诸如 fork0O 系 统 调用 、 共 享 内 存 和 映射 文件 之 类 主题 的 畏 述 ， 所 
以 这 里 将 探讨 一 些 有 关 虚 拟 内 存 的 详细 内 容 。 
Linux， 像 多 数 现 代 内 核 一 样 ， 采 用 了 虚拟 内 存 管理 技术 。 该 技术 利用 了 大 多 数 程序 的 一 
个 典型 特征 ， 即 访问 局 部 性 (locality of reference)， 以 求 高 效 使 用 CPU 和 RAM (物理 内 存 ) 
资源 。 大 多 数 程序 都 展现 了 两 种 类 型 的 局 部 性 。 
e ZBE (Spatial locality): 是 指 程序 倾 问 于 访问 在 最 近 访 问 过 的 内 存 地 址 附近 的 
内 存 (由 于 指令 是 顺序 执行 的 ， 且 有 时 会 按 顺 序 人 处 理 数 据 结 构 )。 
e 时 间 局 部 性 《Temporal locality): 是 指 程序 倾 癌 于 在 不 久 的 将 来 再 次 访问 最 近 刚 访问 
过 的 内 存 地 址 〈 由 于 循环 )。 
正 是 由 于 访问 局 部 性 特征 ,使 得 程序 即便 仪 有 部 分 地 址 空间 存在 于 RAM 中 ,依然 可 能 得 
以 执行 。 
虚拟 内 存 的 规划 之 一 是 将 每 个 程序 使 用 的 内 存 切 割 成 小 型 的 、 固 定 大 小 的 “页 ”(page) 
单元 。 相 应 地 ， 将 RAM 划分 成 一 系列 与 虚 存 页 尺寸 相同 的 页 巾 。 任 一 时 刻 ， 每 个 程序 仪 有 部 
分 页 需要 驻 留 在 物理 内 存 页 帧 中 。 这 些 页 构成 了 所 谓 驻 留 集 (resident set)。 程 序 未 使 用 的 页 
找 贝 保存 在 交换 区 (swap area). 内 一 一 这 是 磁盘 空间 中 的 保留 区 域 ， 作 为 计算 机 了 AM 的 补充 
仅 在 需要 时 才 会 载 入 物理 内 存 。 寿 进程 欲 访问 的 页 面目 前 并 未 驻 留 在 物理 内 存 中 ， 将 会 肥 生 
页 面 错误 (page fault)， 内 核 即 刻 挂 起 进程 的 执行 ， 同 时 从 磁盘 中 将 该 页 面 载 入 内 存 。 



















































































在 X86-32 中 ， 页 面 大 小 为 4096 个 字 市 。 其 他 一 些 Linux 实现 使 用 的 页 面 比 4096 NF 
节 更 大 。 例 如 ，Alpha 使 用 的 页 面 大 小 为 8192 个 字 节 ，IA-64 使 用 的 页 面 大 小 是 可 变 的 ， 
默认 为 16384 个 字 节 。 程 序 可 调用 sysconf( SC PAGESIZE) 来 获取 系统 虚拟 内 存 的 页 面 大 
小 ， 有 共 体 参见 11.2 TRR. 


Archi Mn BU; METRE SUERAELP page table) OLR 6-2)。 访 页 
表 描 述 了 每 页 在 进程 虚拟 地 址 空间 Cvirtual address space). 中 的 位 置 〈 可 为 进程 所 用 的 所 有 虚 
拟 内 存 页 面 的 集合 )。 页 表 中 的 每 个 条 目 要 么 指出 一 个 虚拟 页 面 在 RAM 中 的 所 在 位 置 ， 要 人 么 
表明 其 当前 驻 留 在 磁盘 上 。 

在 进程 虚拟 地 址 空间 中 ， 并 非 所 有 的 地 址 范围 都 需要 页 表 条 目 。 通 常情 况 下 ， 由 于 可 能 
存在 大 段 的 虚拟 地 址 空间 并 未 投入 使 用 ， 故 而 也 无 必要 为 其 维护 相应 的 页 表 条 目 。 奉 进程 试 
图 访问 的 地 址 并 无 页 表 条 目 与 之 对 应 ， 那 么 进程 将 收 a 到 一 个 SIGSEGV fi 5. 

由 于 内 核能 够 为 进程 分 配 和 释放 页 〈《 和 页 表 条 目 )， 上 所 以 进程 的 有 效 虚 拟 地 址 范围 在 其 生 
命 周 期 中 可 以 发 生变 化 。 这 可 能 会 发 生 于 如 下 场景 。 

e 由 于 栈 回 下 增长 超出 之 前 兽 达 到 的 位 置 。 

e 当 在 堆 中 分 配 或 释放 内 存 时 ， 通 过 调用 brkO0、sbrk0 或 malloc 函数 族 〈 第 7 章 ) 来 提 

升 program break 的 位 置 。 
e 当 调 用 shmatO 连 接 System V 共享 内 存 区 时 ,或 者 当 调 用 shmdt(O) 脱 离 共 享 内 存 区 时 (第 
48 章 )。 
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物理 内 存 
(RAM) 
(页 帧 ) 
进程 虚拟 
地 址 空间 


虚拟 地 址 递增 方向 





6-2: EMAG 





e 当 调 用 mmapO 创 建 内 存 映射 时 ， 或 者 当 调 用 munmapOf Es PERRA] INE CS 49 38). 





虚拟 内 存 的 实现 需要 使 件 中 分 页 内 存 管 理 单元 CPMMU)D 的 支持 。PMMU 把 要 访问 的 
每 个 虚拟 内 存 地 址 转换 成 相应 的 物理 内 存 地 址 ， 当 特定 虚拟 内 存 地 址 所 对 应 的 页 没有 驻 留 
T RAM 中 时 ， 将 以 页 面 错误 通知 内 核 。 











虚拟 内 存 管 理 使 进程 的 虚拟 地 址 空间 与 RAM 物理 地 址 空间 隔离 开 来 ， 这 带 来 许多 优点 。 
。 进程 与 进程 、 进 程 与 内 核 相 互 隔离 ， 所 以 一 个 进程 不 能 读 取 或 修改 为 一 进程 或 内 核 的 内 
存 。 这 是 因为 每 个 进程 的 页 表 条 目 指 向 RAM (或 交换 区 ) 中 截然 不 同 的 物理 页 面 集合 。 
e 适当 情况 下 ， 两 个 或 者 更 多 进程 能 够 共 圣 内 和 存 。 这 是 由 于 内 核 可 以 使 不 同 进程 的 幢 表 
条 目 指 问 相 同 的 RAM 页 。 内 存 共 胖 币 发 生 于 如 下 两 种 场景 。 
- 执行 同一 程序 的 多 个 进程 ， 可 共 至 一 份 〈 只 读 的 ) 程序 代码 副本 。 当 多 个 程序 执 
行 相 同 的 程序 文件 (或 加 载 相 同 的 共 圣 库 ) 时， 会 隐 式 地 实现 这 一 类 型 的 共 诗 。 
- 进程 可 以 使 用 shmgetO0 和 mmapO 系 统 调用 显 式 地 请 求 与 其 他 进程 共享 内 存 区 。 
这 么 做 是 出 于 进程 间 通 信 的 目的 。 
。 便于 实现 内 存 保护 机 制 ， 也 束 是 说 ， 可 以 对 页 表 条 目 进 行 标记 ， 以 表示 相关 页 面 内 容 
是 可 读 、 可 号 、 可 执行 办 或 是 这 些 你 护 指 施 的 组 合 。 多 个 进程 共 诗 RAM RT, È 
许 每 个 进程 对 内 存 采取 不 同 的 保护 措施 。 例 如 , 一 个 进程 可 能 以 只 该 方式 访 问 茶 页 面 ， 
而 妨 一 进程 则 以 读 瑟 方式 访问 同一 负面。 
。 程序 员 和 编 详 融 、 链 接 融 之 类 的 工具 无 需 关 注 程 友 在 RAM 中 的 物理 布局 。 
。 因为 需要 驻 留 在 内 存 中 的 仅 是 程序 的 一 部 分 ， 所 以 程序 的 加 载 和 运行 都 很 快 。 而 且 ， 
一 个 进程 所 占用 的 内 存 〈“ 即 虚拟 内 存 大 小 ) 能 够 超出 RAM 容量 。 
虚拟 内 存 管 理 的 最 后 一 个 优点 是 : 由 于 每 个 进程 使 用 的 RAM JP I, RAM 中 同时 可 以 
容纳 的 进程 数量 瓯 增 多 了 。 这 增 大 了 如 下 事件 的 概率 : 在任 一 时 刻 ，CPU 都 可 执行 全 少 一 个 
进程 ， 因 而 往往 也 会 提高 CPU 的 利用 率 。 
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6.5 mTX3HTXD 


函数 的 调用 和 返回 使 栈 的 增长 和 收缩 呈 线 性 。X86-32 体系 架构 之 上 的 Linux (和 多 数 其 
他 Linux 和 UNIX 实现 )， 栈 驻 留 在 内 存 的 高 端 并 向 下 增长 〈 朝 堆 的 方向 )。 专 用 寄存 器 
栈 指针 (stack pointer)， 用 于 跟踪 当前 栈 项 。 每 次 调用 函数 时 ， 会 在 栈 上 新 分 配 一 帧 ， 每 当 函 
数 返 回 时 ， 再 从 栈 上 将 此 帧 移 去 。 








虽然 栈 癌 下 增长 ， 但 仍 将 栈 的 增长 端 称 为 栈 项 ， 因 为 抽象 地 说 来 ， 情 况 本 就 如 此 。 栈 的 
实际 增长 方 同 是 个 (属于 便 件 范畴 的 实现 细 市 。 在 HP PA-RISC 的 Linux 实现 中 ， 栈 的 增 
长 方 回 残 是 问 上 的 。 

束 虚 拟 内 存 而 言 ， 分 配 栈 巾 后 ， 栈 段 的 大 小 将 会 增长 ， 但 在 大 多 数 (Linx) 实现 中 ， 
释放 这 些 栈 帧 后 ， 栈 的 大 小 并 未 减少 在 分 配 新 的 栈 帧 时 ， 会 对 这 些 内 存 重新 加 以 利用 )。 妆 
谈论 栈 段 的 增长 和 收 贿 时 ， 只 征 从 滥 辑 视角 来 看 竺 栈 帆 在 栈 中 的 增 减 情况 。 




















EI. HH (user stack) 来 表示 此 处 所 讨论 的 栈 ， 以 便 与 内 核 栈 区 分 开 来 。 内 核 栈 
是 每 个 进程 保留 在 内 核 内 存 中 的 内 存 区 域 ， 在 执行 系统 调用 的 过 程 中 供 〔 内 核 ) 内 部 函数 调用 
使 用 。( 由 于 用 户 栈 驻 留 在 不 受 保护 的 用 户 内 存 中 ， 所 以 内 核 无 法 利用 用 户 栈 来 达成 这 一 目的 。) 

每 个 〈 用 户 ) 栈 帧 包括 如 下 信息 。 

。 函数 实 参 和 局 部 变量 ; 由 于 这 些 变 量 都 是 在 调用 函数 时 自动 创建 的 ， 因 此 在 C 语言 

称 其 为 自动 变量 。 函 数 返 回 时 将 自动 销毁 这 些 变量 〈 因 为 栈 帧 会 被 释放 )， 这 也 是 自 
动 变量 与 静态 〈 以 及 全 局 ) 变量 主要 的 语义 区 
I: 后 者 与 函数 执行 无 关 ， 且 长 期 存在 。 | 

。 RID 调用 的 链接 信息 ;每 个 函数 都 会 用 到 | 

一 些 CPU 寄存 器 ， 比 如 程序 计数 器 ， 其 指向 下 LO REUS 
一 条 将 要 执行 的 机 器 语言 指令 ,每 当 一 函数 调用 doCalc() tiii 
另 一 函数 时 ， 会 在 被 调用 函数 的 栈 帧 中 保存 这 —" 
些 寄存 器 的 副本 ， 以 便 函 数 返回 时 能 为 函数 调 n — 

用 者 将 寄存 器 恢复 原状 。 

因为 函数 能 够 嵌 套 调用 ， 所 以 栈 中 可 能 有 多 个 栈 栈 增 长 的 方向 
怖 。( 若 一 函数 递归 调用 自身 ， 则 该 函数 在 栈 中 将 有 多 RS 
SRM 参考 程序 清单 6-1, 在 square0 函 数 执行 期 间 ， SSS MEE 
栈 中 包含 的 帧 如 图 6-3 所 示 。 


























maini) fti 




















6.6 MFT (argc, argv) 


每 个 C 语言 程序 都 必须 有 一 个 称 为 main0 的 函数 ， 作 为 程序 启动 的 起 点 。 当 执行 程序 时 ， 
命令 行 参数 (command-line argument) C FH shell 逐一 解析 ) 通过 两 个 入 参 提 供给 main) KA. 
第 一 个 参数 int argc， 表 示 命 令 行 参数 的 个 数 。 第 二 个 参数 char *argv[]， 是 一 个 指 问 命 令 行 参 
数 的 指针 数组 ， 每 一 参数 又 都 是 以 空 字符 null》' 结 尾 的 字符 串 。 第 一 个 字符 串 ， 亦 即 argv[0] 











1 译 者 注 : \0。 
第 6 章 ”进程 99 


异步 社区 会 员 flyman150(2410757683@qq.com) EF 尊重 版 权 


指 问 的 , CATO 是 该 程序 的 名 称 。argv 中 的 指针 列表 以 NULL 指针 结尾 〈 即 argv[argc] X% NULL). 

argv[0] 包 含 了 调用 程序 的 名 称 ， 可 以 利用 这 一 特性 玩 个 实用 的 小 技巧 。 首 先 为 同一 程序 创建 
多 个 链接 〈 即 名 称 不 同 )， 然 后 让 该 程序 但 看 argv[0]， 并 根据 调用 程序 的 名 称 来 执行 不 同 任务 。 
gzip(1)、gunzip(1) 和 和 zcat(1) 命 令 是 该 技术 应 用 的 一 个 例子 ， 这 些 命令 链接 的 部 是 同一 可 执行 文件 。 
(使 用 该 技术 ， 必 须 小 心 处 理 如 下 情况 ， 用 户 通过 链接 调用 程序 ， 但 链接 名 又 在 该 程序 的 意料 之 外 。) 

图 6-4 展示 了 执行 程序 清单 6-2 中 程序 所 传 入 参 argc 和 argv 的 数据 结构 。 该 图 使 用 C 语 
言 符号 “\0” 来 表示 每 个 学 符 串 末尾 的 终止 空 字 下 。 

程序 清单 6-2 中 的 程序 回 显 了 其 命令 行 参数 ， 逐 一 按 行 输出 ， 前 面 还 冠 以 要 显示 的 argv 
成 员 名 称 。 
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3 NULL 


图 6-4: 命令 “necho hello world” 的 argc 和 argv 值 


IR 


程序 清单 6-2: 回 显 命令 行 参 数 


proc/necho.c 
#include "tlpi hdr.h" 
int 
main(int argc, char *argv[]) 
int j; 
for (j = 0; j < argc; j++) 
printf("argv[%d] = %s\n", j, argv[jl); 
exit(EXIT_SUCCESS); 
j 
proc/necho.c 








因为 argv 列表 以 NULL 值 终止 ， 所 以 可 以 将 程序 清单 6-2 中 的 程序 主体 改写 如 下 ， 且 每 
行 只 输出 一 个 命令 行 实 参 ; 

char **p; 

for (p = argv; *p !- NULL; p++) 

puts(*p); 

argc/argv 参数 机 制 的 局 限 之 一 在 于 这 些 变 量 仪 对 main0 函 数 可 用 。 在 保证 可 移植 性 的 同 
时 ， 为 使 这 些 命令 行 参数 能 为 其 他 函数 所 用 ， 必 须 把 argv 以 参数 形式 传递 给 这 些 函 数 ， 或 是 设置 
一 个 指 问 argv 的 全 局 变量 。 

要 想 从 程序 内 任 一 位 置 访问 这 些 信息 的 部 分 或 者 全 部 内 容 ， 还 有 两 个 方法 ， 但 是 会 破坏 
程序 的 可 移植 性 。 

。 通过 linux 系统 专 有 的 /proc/PID/cmdline 文件 可 以 读 取 任 一 进程 的 命令 行 参数 ， 每 个 参数 
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都 以 空 Cnull) 字 节 终止 。( 程 序 可 以 通过 Aproc/selfcmdline 文件 访问 自己 的 命令 行 参数 。) 
。 GNUC 语言 库 提 供 有 两 个 全 局 变量 , 可 在 程序 内 任 一 位 置 使 用 以 获取 调用 该 程序 时 的 
程序 名 称 〈 即 命令 行 的 第 一 个 参数 )。 第 一 个 全 局 变量 program invocation name, fë 
供 了 用 于 调用 该 程序 的 完整 路 径 名 。 第 二 个 全 局 变量 program invocation short name, 
提供 了 不 含 目 录 的 程序 名 称 , 即 路 径 名 的 基本 名 称 (basename ) 部 分 ,定义 GNU SOURCE 
宏 后 即 可 从 <errno.h> 中 获得 对 这 两 个 全 局 变量 的 声明 。 
正如 图 6-1 所 示 ，argv 和 environ 数组 ， 以 及 这 些 参数 最 初 指 癌 的 字符 串 ， 都 驻 留 在 进程 栈 
之 上 的 一 个 单一 、 连 续 的 内 存 区域 。( 下 一 节 将 描述 environ 参数 ， 该 参数 用 于 存储 程序 的 环 
卉 列表 。) 此 区 域 可 存储 的 字 节 数 有 上 限 要 求 ，SUSv3 规定 使 用 ARG MAX 常量 (定义 于 
-]imits.h» ) 或 者 调用 sysconf(_SC_ARG_MAX) 函 数 以 确定 该 上 限 值 ( 将 在 11.2 节 描 述 sysconf() 
函数 )， 并 且 SUSv3 还 要 求 ARG MAX 常量 的 下 限 为 POSIX ARG MAX (4096) 个 字 节 ， 而 
大 多 数 UNIX 实现 的 限制 都 远 高 于 此 。 但 SUSv3 并 未 规定 对 ARG MAX 限制 的 实现 中 是 否 要 将 
些 开 销 字 市 计算 在 内 《比如 终止 容 刍 人 符 、 字 市 对 齐 、argv 和 environ 指针 数组 )。 















































Linux 中 的 ARG MAX 参数 值 曾 一 度 固 定 为 32 个 页 面 ( 在 Linux/x86-32 FRI X 131072 
个 字 节 )， 且 包含 了 开销 字 节 。 目 内 核 2.6.23 版 本 开始 ， 可 以 通过 资源 限制 RLIMIT_STACK 
来 控制 argv 和 environ 参数 所 使 用 的 空间 总 量 上 限 ， 在 这 种 情况 下 ， 人 允许 argv 和 environ 参 
数 使 用 的 空间 上 限 要 比 以 前 大 出 许多 ， 其 体 限 额 为 资源 软 限 制 RLIMIT_ | STACK 的 四 分 之 一 ， 
RLIMIT STACK 在 调用 execve0 时 已 经 生 效 。 更 多 许 细 信息 请 参照 execve(2) 手 册页 。 











许多 程序 〈 包 括 本 书 中 的 儿 个 例子 ) 使 用 getoptO 库 函数 解析 命令 行 选项 〈 即 以 “-” 符 号 
开头 的 参数 )。 附 录 (Appendix) B 将 描述 getoptO PR Zi. 


6.7 “环境 列表 


每 一 个 进程 都 有 与 其 相关 的 称 之 为 环境 列表 (environment list) 的 字符 串 数 组 ， 或 简称 为 环 
Ki (environment)。 其 中 每 个 字符 串 都 以 名 称 = 值 (name=value) 形式 定义 。 因 此 ， 环 境 是 “名 称 
- 值 ”的 成 对 集合 ， 可 存储 任何 信息 。 和 将 列表 中 的 名 称 称 为 环境 变量 (environment variables). 

新 进程 在 创建 之 时 ， 会 继承 其 父 进程 的 环境 副本 。 这 是 一 种 原始 的 进程 间 通 信 方 式 ， 却 
WAH. Ma environment) 提供 了 将 信息 从 父 进程 传递 给 子 进程 的 方法 。 由 于 子 进程 只 
有 在 创建 时 才能 获得 其 父 进程 的 环境 副本 ， 所 以 这 一 信息 传递 是 单 向 的 、 一 次 性 的 。 子 进程 
创建 后 ， 父 、 子 进程 均 可 更 改 各 目的 环境 变量 ， 且 这 些 变 更 对 对 方 而 言 不 再 可 见 。 

环境 变量 的 常见 用 途 之 一 是 在 shell 中 。 通 过 在 自身 环境 中 放置 变量 值 ，shell 就 可 确保 把 
这 些 值 传递 给 其 所 创建 的 进程 , 并 以 此 来 执行 用 户 命令 ,例如 ,环境 变量 SHELL 被 设置 为 shell 
程序 本 身 的 路 径 名 ， 如 果 程 序 需要 执行 shell 时 ， 大 多 会 将 此 变量 视 为 需要 执行 的 shell 名 称 。 

可 以 通过 设置 环境 变量 来 改变 一 些 库 函 数 的 行为 。 正 因 如 此 ， 用 户 无 需 修改 程序 代码 或 
者 重新 链接 相关 库 ， 就 能 控制 调用 该 函数 的 应 用 程序 行为 。getoptO 函 数 就 是 其 中 一 例 〈 附 录 B), 
可 通过 设置 POSIXLY CORRECT 环境 变量 来 改变 此 函数 的 行为 。 

大 多 数 shell 使 用 export 命令 问 环 境 中 添加 变量 值 。 


$ SHELL-/bin/bash Create a shell variable 
$ export SHELL Put variable into shell process's environment 
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在 bash shell 和 Korn shell 中 ， 可 以 简写 为 : 

$ export SHELL-/bin/bash 

fr C shell 中 ， 使 用 的 则 是 setenv MS: 

% setenv SHELL /bin/bash 

上 上 述 命令 把 一 个 值 永 久 地 添加 到 shell 环境 中 ， 此 后 这 个 shell 创建 的 所 有 子 进程 都 将 继承 此 
环境 。 在 任 一 时 刻 ， 可 以 使 用 unset 命 令 撤 销 一 个 环境 变量 (在 C shell 中 则 使 用 unsetenv 命令 )。 

在 Bourne shell 和 其 衍生 shell (诸如 bash shell 和 Korn shel) 中 ， 可 使 用 下 列 语法 向 执行 
某 应 用 程序 的 环境 中 添加 一 个 变量 值 ， 而 不 影响 其 父 shell (和 后 续 命令 ): 

$ NAME-value program 

此 命令 仅 回 执行 特定 程序 的 子 进程 环境 添加 了 一 个 〈 环 境 变 量 ) 定义 。 如 果 希 望 〈 多 个 
变量 对 该 程序 有 效 )， 可 以 在 program 前 放置 多 对 赋值 (以 空格 分 陋 )。 











env 命令 在 运行 程序 时 使 用 了 一 份 经 过 修改 的 shell 环境 列表 副本 。 可 同时 为 shell 环 
境 列 表 副 本 增加 和 移 除 环境 变量 定义 ， 以 修改 此 环境 列表 。 评 细 内 容 请 参阅 env(1) 手 册 。 








printenv 命令 显示 当前 的 环境 列表 ， 此 处 是 其 输出 的 一 例 : 
$ printenv 

LOGNAME2mtk 

SHELL-/bin/bash 

HOME-/home/mtk 

PATH-/usr/local/bin:/usr/bin:/bin:. 

TERM-xterm 


后 续 革 市 中 将 适时 摘 述 大 多 数 上 述 环 境 变 量 的 用 途 〈 也 可 参阅 environ(7) FJ. 

由 以 上 输出 可 知 ， 环 境 列 表 的 排列 是 无 序 的 ， 列 表 中 的 字符 串 顺 序 不 过 是 最 易于 实现 的 
排列 形式 。 一 般 而 言 ， 无 序 的 环境 列表 不 是 问题 ， 因 为 通常 都 是 访问 单个 的 环境 变量 ， 而 非 
环境 列表 中 按 序 排列 的 一 串 。 

通过 Linux 专 有 的 /proc/PID/environ 文件 检查 任 一 进程 的 环境 列表 ,每 一 个 NAME=value” 
对 都 以 空 学 节 终 止 。 















































从 程序 中 访问 环境 


在 C 语言 程序 中 ， 可 以 使 用 全 局 变量 char **environ 访问 环境 列表 。(C 运行 时 启动 代码 
定义 了 该 变量 并 以 环境 列表 位 置 为 其 赋值 〉 environ 与 argy 参数 类 似 ， 指 向 一 个 以 NULL 结尾 
的 指针 列表 ， 每 个 指针 又 指 加 一 个 以 空 字 节 终止 的 字符 串 。 图 6-5 所 示 为 与 上 述 printenv 命令 
输出 环境 相对 应 的 环境 列表 数据 结构 。 


environ 


Iz. 














| LOGNAME-mtkVO 
| SHELL-/bin/bashVo 
| HOME=/home /mtk\0 


| PATH=/usr/local/bin:/usr/bin:/bin:.\0 





| TERM=xterm\o 





图 6-5: 进程 环境 列表 数据 结构 的 示例 
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程序 清单 6-3 中 的 程序 通过 访问 Environ 区 量 来 展示 该 进程 环境 所 的 所 有 值 晶 该 程序 的 
输出 结果 与 printenv 命令 的 输出 结果 相同 。 程 序 中 的 循环 利用 指针 来 过 有 历 environ 变量 。 虽 然 
可 以 把 environ 当成 数组 来 使 用 (正如 程序 清单 6-2 中 argy 的 用 法 )， 但 这 多 少 有 些 生硬 ， 
为 环境 列表 中 各 项 的 排列 不 分 先后 ， 而 且 也 没有 变量 (相当 于 arge) 用 来 指定 环境 列表 的 长 
度 。( 出 于 同样 原因 ， 也 没有 对 图 6-5 中 的 environ 数组 诸 元 素 进 行 编写 。) 


程序 清单 6-3: 显示 进程 环境 























proc/display env.c 
include "tlpi hdr.h" 


extern char **environ; 


int 
main(int argc, char *argv[]) 


char **ep; 


for (ep = environ; *ep !- NULL; ep++) 
puts(*ep); 


exit(EXIT SUCCESS); 
} 


proc/display env.c 





5, xXeupUUGm 58) mainQrR ZU P WE — OK VI WEE 

int main(int argc, char *argv[], char *envp[]) 

该 参数 随即 可 被 视 为 environ 变量 来 使 用 , 所 不 同 的 是 , 该 参数 的 作用 域 在 main PR 23 AJ 
虽然 UNIX 系统 普 所 实现 了 这 一 特性 ， 但 还 是 要 避免 使 用 ， 因 为 除了 局 限于 作用 域 限 制 外 ， 
该 特性 也 不 在 SUSv3 的 规范 之 列 。 

getenv() 函 数 能 够 从 进程 环境 中 检索 单个 值 。 














#include <stdlib.h> 


char *getenv(const char *name); 


Returns pointer to (value) string, or NULL if no such variable 




















问 getenv PR ZI oe DOE AP ERAS ARAOR RATHER Er. AE, SHCRU Hr DIE ZI ES 
环境 (列表 ) 示例 来 看 ， 如 果 指 定 SHELL 为 参数 name， 那 么 将 返回 /bin/bash。 如 果 不 存 在 指 
定名 称 的 环境 变量 ， 那 么 getenv0 函 数 将 返回 NULL. 
以 下 是 使 用 getenvyO 函 数 时 可 移植 性 方面 的 注意 事项 。 
e SUSv3 规定 应 用 程序 不 应 修改 getenvO ES ZIGR HITR, 这 是 由 于 (在 大 多 数 UNIX 
实现 中 ) 该 字符 串 实 际 上 属于 环境 的 一 部 分 〈 即 name=value 学 符 串 的 value 部 分 )。 
右 需 要 改变 一 个 环 媒 变量 的 值 ， 可 以 使 用 setenv RE putenvo Zt CI. P 56). 

e SUSv3 人 允许 getenvOPSZI IP] Sc ELSE H3 Sees 2) NOI P POR RATES IR, Je] getenv()、 
setenv0、putenv0 或 者 unsetenv() I] HP ESZE. EA glibc 库 的 getenv() 
为 数 实现 并 未 这 样 使 用 静态 绥 冲 区 ， 但 共 备 可 移植 性 的 程序 如 需 保留 getenvO 调 用 返回 的 
学 人 符 串 ， 怠 应 先 将 返回 罕 符 串 复 制 到 其 他 位 置 ， 之 后 方 可 对 上 述 函 数 发 起 调用 。 
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修改 环境 
有 时 ,对 进程 来 说 , 修改 其 环境 很 有 用 处 。 原因 之 一 是 这 一 修改 对 该 进程 后 续 创 建 的 所 有 子 进 
程 均 可 见 。 另 一 个 可 能 的 原因 在 于 设 定 茶 一 变量 ， 以 求 对 于 将 要 载 入 进程 内 存 的 新 程序 (“execed”) 
可 见 。 从 这 个 意义 上 讲 ， 环 境 不 仅 是 一 种 进程 间 通 信 的 形式 ， 还 是 程序 间 通 信 的 方法 。( 第 27 和 章 将 
深入 描述 这 一 点 ， 还 将 解释 在 同一 进程 中 exec0 函 数 如 何 使 当前 程序 被 一 新 程序 所 罕 代 。) 
putenv0 〇 函数 回调 用 进程 的 环 卉 中 洪 加 一 个 新 变量 ， 或 者 修改 一 个 已 经 存在 的 变量 值 。 


#include <stdlib.h> 












































int putenv(char *string); 


Returns 0 on success, or nonzero on error 











参数 string 是 一 指针 ， 指 问 name-value 形 陈 的 学 符 串 。 调 用 putenvOES iUm ». VAI SE FP 
成 为 环境 的 一 部 分 ， 换 言 之 ，putenv 函数 将 设 定 environ 变量 中 某 一 元 素 的 指 癌 与 string 参 
数 的 指 问 位 置 相同 ， 而 非 string 参数 所 指 问 字 和 人 符 串 的 复制 副本 。 因 此 ， 如 果 随 后 修改 string 参 
数 所 指 的 内 容 ， 这 将 影响 该 进程 的 环境 。 出 于 这 一 原因 ，string 参数 不 应 为 自动 变量 〈 即 在 栈 
中 分 配 的 字符 数组 )， 因 为 定义 此 变量 的 函数 一 旦 返回 ， 就 有 可 能 会 重 写 这 块 内 存 区 域 。 

注意 ，putenv0O 函 数 调用 失败 将 返回 非 0 值 ， 而 非 -1。 

putenv() PAZ If] glibc 库 实 现 还 提供 了 一 个 非 标准 扩展 。 如 果 string 参数 内 容 不 包含 一 个 等 
号 〈=)， 那 么 将 从 环境 列表 中 移 除 以 string 参数 命名 的 环境 变量 。 

setenv() FK Zi n] LR putenv0 〇 函数 ， 癌 环境 中 添加 一 个 变量 。 












































#include <stdlib.h> 


int setenv(const char *name, const char *value, int overwrite); 


Returns 0 on success, or -1 on error 








setenv() FK 2 7 JE Il name-value 的 字符 串 分 配 一 块 内 存 绥 冲 区 ， 并 将 name 和 value 所 指 
器 的 学 符 串 复制 到 此 缓冲 区 ， 以 此 来 创建 一 个 新 的 环境 变量 。 注 意 ， 不 需要 (实际 上 ， 是 绝 
对 不 要 ) 在 name 的 结尾 处 或 者 value 的 开始 处 提供 一 个 等 号 字符 ， 因 为 setenv() 函 数 会 在 问 环 
境 添加 新 变量 时 添加 等 写字 符 。 

41 UA name 标识 的 变量 在 环境 中 已 经 存在 ， 且 参数 overwrite 的 值 为 0， 则 setenv0 〇 函数 将 
不 改变 环境 ， 如 果 参 数 overwrite 的 值 为 非 0， 则 setenv0 函 数 总 是 改变 环境 。 

这 一 事实 一 一 setenv0 〇 函数 复制 其 参数 (到 环境 中 ) 一 一 意味 看 与 putenv0 〇 函数 不 同 ， 之 后 
对 name 和 value 所 指 字 符 串 内 容 的 修改 将 不 会 影响 环境 。 此 外 ， 使 用 目 动 变量 作为 setenv() 
函数 的 参数 也 不 会 有 任何 问题 。 

unsetenv0 〇 疯 数 从 环境 中 移 际 由 name 参数 标识 的 和 变量 。 


#include <stdlib.h> 


















































int unsetenv(const char *name); 


Returns 0 on success, or -1 on error 








1 译 者 注 : 请 读者 仔细 思考 C 语言 中 数组 与 指针 的 对 等 关系。 
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同 setenv() 函 数 一 样 ， 参 数 name 不 应 包含 等 号 学 符 。 
setenv) K ŽI unsetenv0 函 数 均 来 自 BSD， 不 如 putenv0 函 数 使 用 普遍 。 尺 管 起 初 的 
POSIX.1 标准 和 SUSv2 并 未 定义 这 两 个 函数 ， 但 SUSv3 已 将 其 纳入 规范 。 











在 glibc 2.2.2 之 前 版 本 中 ，unsetenv0O 函 数 原 型 的 返回 值 为 void 类 型 ， 这 与 最 初 的 BSD 
实现 中 unsetenv 的 函数 原型 相同 ， 一 些 UNIX 实现 目前 仍然 沿用 BSD 原型 。 








有 时, 需要 清除 整个 环境 , 然后 以 所 选 值 进行 重建 。 例 如 , 为 了 以 安全 方式 执行 set-user-ID 
程序 (38.8 节 )， 束 需要 这 样 做 。 可 以 通过 将 environ 变量 赋值 为 NULL 来 清除 环境 。 
environ = NULL; 


这 也 正 是 clearenv() 库 函数 的 工作 内 容 。 








#define BSD SOURCE /* Or: #define SVID SOURCE */ 
#include <stdlib.h> 


int clearenv(void) 


Returns 0 on Success, Or a nonzcro on error 











在 某 些 情况 下 ， 使 用 setenv0 函 数 和 clearenv0 函 数 可 能 会 导致 程序 内 存 泄露 。 前 面 已 然 提 
Hs setenv0 函 数 所 分 配 的 一 块 内 存 缓冲 区 ， 随 之 会 成 为 进程 环境 的 一 部 分 。 而 调用 clearenv0 
时 则 没有 释放 该 缓冲 区 (elearenvO 调 用 并 不 知晓 该 缓冲 区 的 存在 ， 故 而 也 无 法 将 其 释放 )。 反 
复 调 用 这 两 个 函数 的 程序 ， 会 不 断 产生 内 存 泄露 。 实 际 上 ， 这 不 大 可 能 成 为 一 个 问题 ， 因 为 
程序 通常 仅 在 启动 时 调用 clearenv0 函 数 一 次 ， 用 于 移 除 继承 自 其 父 进程 《 即 调用 exec0 函 数 
来 启动 当前 程序 的 程序 ) 环境 中 的 所 有 条 目 。 























许多 UNIX 实现 都 支持 clearenv0O 函 数 ， 但 是 SUSv3 没有 对 此 函数 进行 规范 。SUSv3 规 
定 如 果 应 用 程序 直接 修改 environ 变量 ， 正 如 clearenvO 函 数 所 做 的 那样 ， 则 不 对 setenvO)、 
unsetenv() 和 getenv0 的 行为 进行 定义 ,( 这 一 作法 的 根本 原因 在 于 禁止 符合 SUSv3 标准 的 应 
用 程序 直接 修改 环境 ， 意 在 使 UNIX 实现 能 完全 控制 其 实现 环境 变量 时 所 采用 的 数据 结构 。) 
SUSv3 人 允许 应 用 程序 清空 自身 环境 的 唯一 方法 是 首先 获取 所 有 环境 变量 的 列表 〈 通 过 
environ 变量 获得 所 有 环境 变量 的 名 称 )， 然 后 逐一 调用 unsetenv(O 移 除 每 个 环境 变量 。 
























































程序 示例 


程序 清单 6-4 展示 了 本 市 讨论 的 所 有 函数 的 用 法 。 该 应 用 程序 首先 清空 环境 , 然后 辣 环 境 
中 逐一 添加 命令 行 参 数 所 提供 的 环境 变量 定义 ， 之 后 ， 如 果 环 境 中 尚 无 名 为 GREET 的 变量 ， 
就 向 环境 中 添加 该 变量 ， 接着， 从 环境 中 移 除名 为 BYE 的 变量 ; 最 后 打印 当前 环境 列表 。 此 
处 为 该 程序 运行 时 输出 结果 的 一 例 : 

$ ./modify env "GREET-Guten Tag" SHELL-/bin/bash BYE=Ciao 

GREET-Guten Tag 

SHELL-/bin/bash 

$ ./modify env SHELL-/bin/sh BYE-byebye 


SHELL-/bin/sh 
GREET-Hello world 


如 果 将 environ 参数 赋值 为 NULL (下 如 程序 清单 6-4 中 clearenvO R ŽO FH TI Pr TE Pr 2 2, 
那么 可 以 预见 如 下 形式 的 循环 (如 程序 清单 6-4 中 使 用 的 循环 ) 将 失败 , 因为 *environ 是 无 效 的 。 
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for (ep = environ; *ep !- NULL; ep++) 
puts(*ep) ; 


然而 ， 如 果 setenv() RŽ putenv() ŘJ environ 参数 为 NULL， 则 会 创建 一 个 新 的 环 
HJK, JAE environ 参数 指 癌 此 列表 ， 结 果 上 面 的 循环 操作 又 将 正确 运行 。 


程序 清单 6-4: 修改 进程 环境 








proc/modify env.c 


define GNU SOURCE /* To get various declarations from «stdlib.h» */ 
&include <stdlib.h> 
include "tlpi hdr.h" 


extern char **environ; 

int 

main(int argc, char *argv[]) 
int j; 
char **ep; 


clearenv(); /* Erase entire environment */ 


for (j = 1; j < argc; j++) 
if (putenv(argv[j]) != 0) 
errExit("putenv: %s", argv[j]); 


if (setenv("GREET", "Hello world", 0) == -1) 
errExit("setenv"); 


unsetenv("BYE"); 


for (ep = environ; *ep !- NULL; ep++) 
puts(*ep); 


exit(EXIT SUCCESS); 


proc/modify env.c 


6.8 执行 非 局 部 跳 转 : setimp() 和 longimp) 


使 用 库 函 数 stimp0 和 longjmp0 可 执行 非 局 部 跳 转 (nonlocal goto)。 术 语 “ 非 局 部 (nonlocal)” 
是 指 跳 转 的 目标 为 当前 执行 函数 之 外 的 茶 个 位 置 。 

C 语言 ， 像 许多 其 他 编程 语言 一 样 ， 包 含 goto 语句 。 这 就 好 比 打 开 了 潘多拉 的 魔 盒 。 若 
无 止境 的 洲 用 ， 将 使 程序 难以 阅读 和 维护 。 不 过 侦 尔 也 能 一 显 喘 手 ， 令 程序 更 简单、 更 快速 ， 
或 是 兼 而 有 之 。 

C 语言 的 goto 语句 存在 一 个 限制 ， 即 不 能 从 当前 函数 跳 转 到 另 一 函数 。 然 而 ， 偶 尔 还 是 
需要 这 一 功能 的 。 考 虑 错误 处 理 中 经 和 芝 出 现 的 如 下 场景 : ( 奉 一 个 深度 组 套 的 函数 调用 中 发 生 
呆 错 误 ， 需 要 放弃 当前 任务 ， 从 多 层 函 数 调 用 中 返回 ， 并 在 较 高 层级 的 函数 中 继续 执行 (也 
许 甚至 是 在 main0 中 )。 要 做 到 这 一 点 ， 可 以 让 每 个 水 数 都 返回 一 个 状态 值 ， 由 函数 的 调用 者 
检查 并 做 相应 处 理 。 这 一 方法 完全 有 效 ， 而 且 ， 在 许多 情况 下 ， 是 处 理 这 类 场景 的 理想 方法 。 
然而 ， 有 时 候 如 末 能 从 髓 人 套 冰 数 调用 中 跳出 ， 返 回 该 函数 的 调用 者 之 一 (当前 调用 者 或 者 调 
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用 者 的 调用 者 ， 等 等 )， 编 码 会 更 为 简单 。setjmp0O 和 longjmp0 束 提供 了 这 一 功能 。 


由 于 在 C 语 言 中 ， 所 有 函数 作用 域 的 层级 相同 ( 即 标准 C 语言 不 文 持 左 侠 函 数 申 明 ， 
尽管 gcc 将 此 功能 作为 其 扩展 功能 )， 所 以 goto 语句 不 能 应 用 于 函数 间 跳 转 。 给 定 两 个 函数 
X 和 YY， 编译 占 无 从 知晓 当 调 用 YY 时 ，X 函数 的 栈 帧 是 否 在 栈 上 ， 所 以 也 无 法 判断 从 YY K 
AOPE (goto) FIX KERÍT. SERERA HR S, EU Pascal 语言 ， 人 允许 goto 
MA —^ CE ER BUDE SECUS HIA, tE as fa AAR dS K IRER EH ERAMA E ER AEH 
域 的 某 些 信息 。 因 此 , 编译 器 若 在 词法 解析 时 获悉 函数 Y 嵌 套 于 函数 X 之 内 ， 也 必然 能 够 
推断 当 调 用 Y 时 ，X 函数 的 栈 帧 一 定 已 然 在 栈 中 存在 〈 即 动态 作用 域 ;， 并 能 为 沙 数 YY 7 
Æ goto (RI, M Y PFET X 函数 的 茶 处 。 
































#include <setjmp.h> 


int setjmp(jmp buf env); 
Returns 0 on initial call, nonzero on return via longjmp() 


void longjmp(jmp buf emv, int val); 














setjmp() J Hl 2yJei & d longjmp0O 调 用 执行 的 跳 转 确立 了 跳 转 目标 。 该 目标 正 是 程序 发 起 
setimpO 调 用 的 位 置 。 从 纲 程 角度 看 来 ， 调 用 longjmp0 函 数 后 ， 看 起 来 束 和 从 第 二 次 调用 setimpO 
返回 时 完全 一 样 。 通过 查看 setimpO 返 回 的 整数 值 ， 可 以 区 分 setjmp 调用 是 初始 返回 还 是 第 二 
次 “返回 ” 初始 调用 返回 值 为 0， 后 续 “ 伪 ”返回 的 返回 值 为 1ongjmpO 调 用 中 val 参数 所 指 
定 的 任意 值 。 通 过 对 val 参数 使 用 不 同 值 ， 能 够 区 分 出 程序 中 跳 转 至 同一 目标 的 不 同 起 跳 位 置 。 
如 果 指 定 longjmp0 函 数 的 val 参数 值 为 0， 而 longjmp 函数 对 此 又 不 做 检查 ， 就 会 导致 模 
W seimpO 时 返回 值 为 0， 如 同 初次 调用 setjmp0 函 数 返 回 时 一 样 。 出 于 这 一 原因 ， 如 来 指定 
val 参数 值 为 0， 则 longjmpO 调 用 实际 会 将 其 符 换 为 1。 
这 两 个 函数 的 入 参 env. 为 成 功 实 现 跳 转 提供 了 妖 合 剂 。setjmp0 函 数 把 当前 进程 环境 的 各 种 
言 恩 保存 到 env 参数 中 。 调 用 longjmpO 时 必须 指定 相同 的 env 变量 ， 以 此 来 执行 “ 伪 ” 返 回 。 
由 于 对 setimpO 函 数 和 longjmpO 函 数 的 调用 分 别 位 于 不 同 函数 《和 否则， 使 用 简单 的 goto 即 可 )， 
所 以 应 该 将 env 参数 定义 为 全 局 变量 ， 或 者 将 env 作为 函数 入 参 来 传递 ， 后 一 种 做 法 较为 少见 。 
调用 setjmpO 时 ，env 除了 存储 当前 进程 的 其 他 信息 外 ， 还 保存 了 程序 计数 寄存 器 〈( 指 问 
当前 正在 执行 的 机 占 语 言 指 令 ) 和 栈 指 针 寄 存 器 (标记 栈 顶 ) 的 副本 。 这 些 信息 能 够 使 后 续 
的 longjmpO 调 用 完成 两 个 关键 步骤 的 操作 。 
e 将 发 起 longjmp0 调 用 的 函数 与 之 前 调用 sejimpO 的 函数 之 间 的 函数 栈 帧 从 栈 上 剥离 。 
有 时 又 将 此 过 程 称 为 “ 解 开 栈 (unwinding the stack)”， 这 是 通过 将 栈 指针 寄存 器 重 置 
为 env 参数 内 的 保存 值 来 实现 的 。 

e 重 置 程序 计数 寄存 占 ， 使 程序 得 以 从 初始 的 setmpO 调 用 位 置 继续 执行 。 同 样 ， 此 功 
能 是 通过 env 参数 中 的 保存 值 〈 程 序 计数 寄存 器 ) 来 实现 的 。 









































程序 示例 
程序 清单 6-5 展示 了 setjmpO 和 longjmpO 函 数 的 用 法 。 该 程序 通过 setmpO 的 初始 调用 建立 
1 译 者 注 : 即 上 文 所 谓 静 态 作 用 域 。 
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了 一 个 跳 转 目标 ， 接 下 来 的 switch (针对 setmpO 调 用 的 返回 值 ) 用 于 检测 是 初次 从 setjmpO T 
用 返回 还 是 在 调用 longjmpO 有 后 返回 。 当 setmpO 调 用 返回 值 为 0 时 ， 从 即 对 setmpO 的 初始 调用 
完成 后 ， 将 调用 入 0 函数 ， 亿 0 函数 根据 arge 参数 值 〈 即 命令 行 参数 个 数 ) 来 决定 是 立刻 调用 
longjmp() 冰 数 还 是 继续 去 调用 £207 200. RAE WH £200 Zr, Wu] ROR- E 8] H] longjmp0 
函数 。 两 处 对 longjmp0 的 调用 都 会 使 进程 恢复 到 调用 setjmp0 的 位 置 。 程 序 在 两 处 调用 中 为 val 
参数 设 定 了 不 同 值 ， 以 供 main0 函 数 的 switch 语句 区 分 发 生 跳 转 的 函数 ， 并 打印 相应 信息 。 

在 不 带 任 何 命令 行 参数 的 情况 下 运行 程序 清单 6-5 中 的 程序 ， 结 果 如 下 所 示 : 

$ ./longjmp 


Calling f1() after initial setjmp() 
We jumped back from f1() 


指定 命令 行 参数 ， 会 使 程序 跳 转 发 生 在 函数 £201 : 
$ ./longjmp x 


Calling f1() after initial setjmp() 
We jumped back from f2() 


程序 清单 6-5， 展示 函数 setimp( 和 Iongjmp() 的 用 法 









































proc/longjmp.c 


include «setjmp.h» 
#include "tlpi hdr.h" 


static jmp buf env; 


static void 
f2(void) 


longjmp(env, 2); 


static void 
fi(int argc) 


if (argc == 1) 
longjmp(env, 1); 
f2(); 


int 
main(int argc, char *argv[]) 


switch (setjmp(env)) { 


case 0: /* This is the return after the initial setjmp() */ 
printf("Calling f1() after initial setjmp()\n"); 
fi(argc); /* Never returns... */ 
break; /* ... but this is good form */ 
case 1: 
printf("We jumped back from f1()\n"); 
break; 
case 2: 
printf("We jumped back from f2()Àn"); 
break; 
} 


108 Linux/UNIX 系统 编程 手册 ( 上 册 ) 
异步 社区 会 员 flyman150(2410757683@qq.com) EF 尊重 版 权 


exit(EXIT SUCCESS); 
} 
proc/longjmp.c 


xj setimp() 函 数 的 使 用 限制 


SUSv3 和 C99 规定 ， 对 setmpO 的 调用 只 能 在 如 下 语 境 中 使 用 。 
e 构成 选择 或 迭代 语句 中 (if、switch、while 等 ) 的 整个 控制 表达 式 。 
o 作为 一 元 操作 符 ! (not) 的 操作 对 象 ， 其 最 终 表 达 式 构成 了 选择 或 迭代 语句 的 整个 探 
制 表达 式 。 
。 作为 比较 操作 Co. T9. «590 的 一 部 分 ， 另 一 操作 对 象 必须 是 一 个 整数 常量 表达 式 ， 
日 其 最 终 表达 式 构 成 选择 或 迭代 语句 的 整个 控制 表达 式 。 
。 作为 独立 的 函数 调用 ， 且 没有 瞬 入 到 更 大 的 表达 式 之 中 。 
注意 : C 语言 赋值 语句 不 在 上 述 列 表 之 列 。 以 下 形式 的 语句 是 不 符合 标准 的 : 
s = setjmp(env); /* WRONG! */ 
之 所 以 规定 这 些 限制 , 是 因为 作为 常规 函数 的 setjmp0 实 现 无 法 保证 拥有 足够 信息 来 保存 所 
有 寄存 器 值 和 封闭 表达 式 中 用 到 的 临时 栈 位 置 ， 以 便于 在 longjmp0 〇 调用 后 此 类 信息 能 得 以 正确 恢 
复 。 因 此 ， 仅 允许 在 足够 简单 且 无 需 临 时 存储 的 表达 式 中 调用 setjmp0。 












































滥用 longjmp() 

如 果 将 env 绥 冲 区 定义 为 全 局 变量 ， 对 所 有 函数 可 见 〈 这 也 是 通常 用 法 )， 那 么 就 可 以 执 
行 如 下 操作 序列 。 
1. WHA xO, EH setmpO 调 用 在 全 局 变量 env 中 建立 一 个 跳 转 目标 。 
2. MARZ x0 中 返回 。 
3. 调用 函数 y0， 使 用 env 变量 调用 longjmpO rS Zi. 

这 是 一 个 严重 铬 误 ， 因 为 longjmp() 调 用 不 能 跳 转 到 一 个 已 经 返回 的 函数 中 。 思 考 一 下 ， 
在 这 种 情况 下 ，longjmp0 〇 函数 会 对 栈 打 什么 主意 壬 试 将 栈 解 开 ， 恢 复 到 一 个 不 存在 的 栈 
帧 位 置 ， 这 无 疑 将 引起 混乱 。 如 果 笠 运 的 话 ， 程 序 会 一 死 (crash) 了 了 之。 然而， 取决 于 栈 的 
状态 ， 也 可 能 会 引起 调用 与 返回 间 的 死 循 环 ， 而 程序 好 像 真 地 从 一 个 当前 并 未 执行 的 函数 中 
返回 了 。( 在 多 线程 程序 中 有 与 之 相 类 似 的 小 用， 在 线程 某 甲 中 调用 setjmp0 函 数 ， 却 在 线程 
某 乙 中 调用 lengimpO.) 









































优化 编译 器 的 问题 

优化 编译 器 会 重组 程序 的 指令 执行 顺序 ， 并 在 CPU 寄存 器 中 ， 而 非 RAM 中 存储 某 些 变 
量 。 这 种 优化 一 般 依 赖 于 反映 了 程序 词法 结构 的 运行 时 (run-time) 控制 流程 。 由 于 setjmpO 
和 longjmpO 的 跳 转 操作 需 在 运行 时 才能 得 以 确立 和 执行 ， 并 未 在 程序 的 词法 结构 中 有 所 反映 ， 
故而 编译 占 在 进行 优化 时 也 无 法 将 其 考虑 在 内 。 此 外 ， 某 些 应 用 程序 二 进 制 接 口 (ABI) 实现 
的 语义 要 求 longjmp0 〇 函数 恢复 先前 setjmp0 〇 调用 所 保存 的 CPU 寄存 融 副 本 。 这 意味 看 longjmp() 
操作 会 致使 经 过 优化 的 变量 被 赋 以 错误 值 。 程 序 清单 6-6 中 的 程序 行为 束 是 其 中 一 例 。 
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程序 清单 6-6， 编译 器 的 优化 和 longjmp0 函 数 相 互 作用 的 示例 


proc/setjmp vars.c 


#include «stdio.h» 
dinclude <stdlib.h> 
&include «setjmp.h» 


static jmp buf env; 


static void 
doJump(int nvar, int rvar, int vvar) 


printf("Inside doJump(): nvar=%d rvar=%d vvar=%d\n", nvar, rvar, vvar); 


longjmp(env, 1); 


int 
main(int argc, char *argv[]) 


int nvar; 
register int rvar; /* Allocated in register if possible */ 
volatile int vvar; /* See text */ 


nvar - 111; 
rvar - 222; 
vvar = 333; 


if (setjmp(env) == 0) { /* Code executed after setjmp() */ 


nvar - 771; 
rvar - 888; 
vvar = 999; 


doJump(nvar, rvar, vvar); 
) else { /* Code executed after longjmp() */ 


printf("After longjmp(): nvar-Xd rvar=%d vvar-XdNn", nvar, rvar, vvar); 


j 


exit(EXIT SUCCESS); 


proc/setjmp vars.c 








以 常规 方式 编译 程序 清单 6-6 中 的 程序 ， 输 出 结 采 符合 预期 。 


$ cc -0 setjmp vars setjmp vars.c 

$ ./setjmp vars 

Inside doJump(): nvar-777 rvar-888 vvar-999 
After longjmp(): nvar-777 rvar-888 vvar-999 


然而 ， 知 以 优化 方式 编译 该 程序 ， 结 采 就 有 些 出 乎 预料 了 。 
$ cc -0 -o setjmp vars setjmp vars.c 
$ ./setjmp vars 


Inside doJump(): nvar-777 rvar-888 vvar-999 
After longjmp(): nvar-111 rvar-222 vvar-999 


此 处 ,在 longjmpO 调 用 后 ，nvar 和 rvar 参数 被 重 置 为 setjmp0) 初 次 调用 时 的 值 。 起 因 是 
优化 喜 对 代码 的 重组 受到 longjmpO 调 用 的 干扰。 作为 候选 优化 对 象 的 任 一 局 部 变量 可 能 都 
难免 会 遇 到 这 类 问题 ， 一 般 包含 指针 变量 和 char, int, float, long 等 任何 简单 类 型 的 变量 。 
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将 变量 声明 为 volatile, Z& t: VRULMG ss A ROS EGET UMS, MAE p ARRA. TE Erf 
的 程序 输出 中 ， 无 论 编译 优化 与 否 ， 声 明 为 volatile 的 变量 vvar 都 得 到 了 正确 处 理 。 

因为 不 同 的 优化 莫 有 大 不 同 的 优化 方法 ， 具备 民 好 移植 性 的 程序 应 在 调用 setimpOR eS Z 
中 ， 将 上 述 类 型 的 所 有 局 部 变量 都 声明 为 volatile. 

HE GNU C 语言 编译 器 中 加 入 -Wextra (产生 额外 的 警告 信息 ) 选项 ，setjmp_vars.c 程序 
的 编译 结果 将 显示 有 帮助 的 警告 信息 如 下 : 

$ cc -Wall -Wextra -0 -o setjmp vars setjmp vars.c 

setjmp vars.c: In function "main': 

setjmp vars.c:17: warning: variable nvar' might be clobbered by ^longjmp' or 

"vfork' 


setjmp vars.c:18: warning: variable ‘rvar' might be clobbered by ^longjmp' or 
"vfork' 


无 论 优化 与 否 ， 碍 看 编译 setjmp vars.c FETA "ETE S8TS zr Ha f aU. cc -S 
命令 产生 一 个 以 .s 为 扩展 名 的 文件 ， 内 容 为 程序 的 汇编 代码 。 


























尽 可 能 避免 使 用 setjmp() 函 数 和 longjmp() 函 数 

如 果 说 goto 语句 会 使 程序 难以 阅读 ， 那 么 非 局 部 跳 转 会 让 事情 的 糟 娄 程 度 增加 一 个 数 
量 级 , 因为 它 能 在 程序 中 任意 两 个 函数 间 传 递 控 制 ,因此 , 应 当 慎 用 setjmpO0 函 数 和 longjmp0 
函数 。 在 设计 和 编码 时 花 点 心思 来 避免 使 用 这 两 个 函数 ， 这 通常 是 值得 的 。 程 序 更 具 可 该 
性 ， 可 能 会 更 具 可 移植 性 。 话 虽 如 此 ， 但 在 编写 信号 处 理 堪 时 ， 这 些 函 数 倡 尔 还 会 派 上 用 
场 一 一 讨论 信号 时 将 重新 论 及 这 些 函 数 的 变 体 (参见 21.2.1 Tr RIT] sigsetimpO RŽ siglongjmp(Q) 
FR. 
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每 个 进程 都 有 一 个 唯一 进程 标识 号 Cprocess ID )， 并 保存 有 对 其 父 进 程 号 的 记录 。 

进程 的 虚拟 内 存 锡 辑 上 被 划分 成 许多 段 : 文本 段 、〈 初 始 化 和 非 初始 化 的 ) XE. TE 
AUfE , 

ASRAH, BEPAAUS HUS. BS AC [elf dis fT CE ER E A RA GRE 3. 
函数 实 参 以 及 单个 函数 调用 的 调用 链接 信息 。 

程序 调用 时 ， 命 令 行 参数 通过 argc 和 argv 参数 提供 给 maino KZ. 38$, argv[0] eA is] 
用 程序 的 名 称 。 

每 个 进程 都 会 获得 其 父 进程 环境 列表 的 一 个 副本 ， 即 一 组 “名 称 - 值 ” 键 值 对 。 全 局 变量 
environ 和 各 种 库 国 数 允 许 进程 访问 和 修改 其 环境 列表 中 的 变量 。 

setjmpO RŽI longjmp0O 函 数 提 供 了 从 函数 茶 甲 执行 非 局 部 跳板 到 本 数 条 乙 〈 栈 解 开 ) 的 方 
法 。 在 调用 这 些 函 数 时 ， 为 避免 编 详 需 优化 所 引发 的 问题 ， 应 使 用 volatile 修饰 符 声 明 变 量 。 
非 局 部 跳 转 会 使 程序 难于 阅读 和 维护 ， 应 尽量 避免 使 用 。 


[Tanenbaum, 2007] 和 [Vahalia, 1996] 详 细 描 述 了 虚拟 内 存 管理 。[Gorman, 2004] 则 详细 摘 
述 了 Linux 内 核 内 存 管理 算法 和 代码 。 
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6.9 练习 


6-1. 编译 程序 清单 6-1 中 的 程序 (mem segments.c)， 使 用 Is -1 命令 显示 可 执行 文件 的 
大 小 。 虽 然 该 程序 包含 一 个 大 约 10MB 的 数组 ， 但 可 执行 文件 大 小 要 远 小 于 此 ， 




















为 什么 ? 
6-2. 编写 一 个 程序 ， 观 察 当 使 用 longjmpO 函 数 跳 转 到 一 个 已 经 返回 的 函数 时 会 发 生 
人 





6-3. ”使 用 getenvO 函 数 、putenv0) 函 数 ， 必 要 时 可 了 直接 修改 environ， 来 实现 setenvOrR 24 
和 unsetenv()ER Zt, EAT unsetenvO 函 数 应 检 徊 是 否 对 环境 变量 进行 了 多 次 定义 ， 
如 果 是 多 次 定义 则 将 移 除 对 该 变量 的 所 有 定义 (glibe 版 本 的 unsetenv0O 函 数 实 现 了 这 
—JUIB&). 
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ME 
EH 


A F R i 





FE RREY m EA SET CAU, ERMA DRIA ERG 
构 的 大 小 由 运行 时 所 获取 的 信息 决定 。 本 章 将 介绍 用 于 在 堆 或 扒 栈 上 分 配 内 存 的 函数 。 


7.4 在 堆 上 分 配 内 存 


进程 可 以 通过 增加 堆 的 大 小 来 分 配 内 存 ， 所 谓 堆 是 一 段 长 度 可 变 的 连续 虚拟 内 存 ， 始 于 
进程 的 未 初始 化 数据 段 末 尾 ， 随 看 内 存 的 分 配 和 释放 而 增 减 〈 见 图 6-1)。 通 党 将 堆 的 当前 内 
存 边界 称 为 “program break”. 

稍 后 将 介绍 C 语言 程序 分 配 内 存 所 惯用 的 malloc 函数 族 , 但 首先 还 要 从 malloc 函数 族 所 
基于 的 brkO0 和 sbrkO 开 始 谈 起 。 


7.1.1 调整 program break: brk() 和 sbrk() 
改变 堆 的 大 小 ( 即 分 配 或 释放 内 存 )， 其 实 束 像 命令 内 核 改 变 进 程 的 program break 位 置 一 样 
人 简单。 最 初 ，program break 正好 位 于 末 初 始 化 数据 段 末 尾 之 后 (如 图 6-1 所 示 ， 与 &end 位 置 相同 )。 
在 program break 的 位 置 抬升 后 ， 程 序 可 以 访问 新 分 配 区 域内 的 任何 内 存 地 址 ， 而 此 时 物理 
内 存 页 尚未 分 配 。 内 核 会 在 进程 首次 试图 访问 这 些 虚拟 内 存 地址 时 目 动 分 配 新 的 物理 内 存 页 。 
传统 的 UNIX 系统 提供 了 两 个 操纵 program break 的 系统 调用 : prk0 和 sbrk()， 在 Linux 中 依 
然 可 用 。 虽 然 代 人 码 中 很 少 百 接 使 用 这 些 系统 调用 ， 但 了 解 它 们 有 助 于 弄 清 内 存 分 配 的 工作 过 程 。 
































#include «unistd.h» 


int brk(void *end data segment); 


Returns 0 on success, or -1 on error 
void *sbrk(intptr t increment); 


Returns previous program break on success, or (void *) -1 on error 











系统 调用 brkO 会 将 program break 设置 为 参数 end data segment 所 指定 的 位 置 。 由 于 虚拟 
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内 存 以 页 为 单位 进行 分 配 ，end_data_segment 实际 会 四 舍 五 入 到 下 一 个 内 存 页 的 边界 处 。 

当 试 图 将 program break 设置 为 一 个 低 于 其 初始 值 ( 即 低 于 &end) 的 位 置 时 ， 有 可 能 会 导 
致 无 法 预知 的 行为 ， 例 如 ， 当 程序 试图 访问 的 数据 位 于 初始 化 或 未 初始 化 数据 段 中 当前 尚 不 
存在 的 部 分 时 ， 就 会 引发 分 段 内 存 访问 错误 (segmentation faul) (SIGSEGV 信号 ， 在 20.2 节 
描述 )。program break 可 以 设 定 的 精确 上 限 取决 于 一 系列 因素 ， 这 包括 进程 中 对 数据 段 大 小 的 
资源 限制 (36.3 节 中 描述 的 RLIMIT _ DATA )， 以 及 内 存 映 射 、 共 享 内 存 段 、 共 享 库 的 位 置 。 

调用 sbrkO 将 program break 在 原 有 地 址 上 增加 从 参数 increment 传 入 的 大 小 。( 在 Linux 中 ， 
sbrkO 是 在 brk0 基 础 上 实现 的 一 个 库 函 数 。 ) 用 于 声明 increment 的 intptr t 类 型 属于 整数 数据 
类 型 。 辱 调用 成 功 ，sbrk0 返 回 前 一 个 program break 的 地 址 。 换 言 之 ， 如 果 program break 增加 ， 
那么 返回 值 是 指 问 这 块 狐 分 配 内 存 起 始 位 置 的 指针 。 

调用 sbrk(0) 将 返回 program break 的 当前 位 置 ， 对 其 不 做 改变 。 在 意图 跟踪 堆 的 大 小 ,或 是 
监视 内 存 分 配 函 数 包 的 行为 时 ， 可 能 会 用 到 这 一 用 法 。 




















SUSv2 定义 了 brkO 和 sbrk()， 标 记 为 Legacy (R). 1E SUSv3 删除 了 这 些 定 义 。 


7.1.2. 在 堆 上 分 配 内 和 存 : malloc() 和 free() 


一 般 情况 下 ，C 程序 使 用 malloc 函数 族 在 堆 上 分 配 和 释放 内 存 。 较 之 prkO0 和 sbrkO, 3X 
LE ACHSE IP. HW PHI. 

。 属于 C 语 言 标准 的 一 部 分 。 

e 更 易于 在 多 线程 程序 中 使 用 。 

。 接口 简单 ， 允 许 分 配 小 块 内 存 。 

。 人 允许 随意 释放 内 存 块 ,它们 被 维护 于 一 张 空 采 内 存 列表 中 ， 在 后 续 内 存 分 配 调用 时 御 

环 使 用 。 

malloc( ) 函 数 在 堆 上 分 配 参数 size ^£ B AU NIE, 并 返回 指 癌 痢 分 配 和 内存 起 始 位 置 处 的 

指针 ， 其 所 分 配 的 内 存 未 经 初始 化 。 


dinclude <stdlib.h> 











void *malloc(size t s?ze); 


Returns pointer to allocated memory on success, or NULL on error 








由 于 mallocO 的 返回 类 型 为 void* ， 因 而 可 以 将 其 赋 给 任意 类 型 的 C 指针 。malloc0 返 回 
内 存 块 所 采用 的 字 节 对 齐 方式 ， 总 是 适宜 于 高 效 访问 任何 类 型 的 C 语言 数据 结构 。 在 大 多 
数 硬件 架构 上 ， 这 实际 意味 着 malloc 是 基于 8 字 节 或 16 字 节 边界 来 分 配 内 存 的。 








SUSv3 规定 : 调用 malloc(0) 要 么 返回 NULL， 要 么 是 一 小 块 可 以 (并 且 应 该 ) 用 free) 
释放 的 内 存 。Linux 的 malloc(0) 行 为 避 循 后 者 。 


若 无 法 分 配 内 存 〈 或 许 是 因为 已 经 抵达 program break 所 能 达到 的 地 址 上 限 )， 则 malloc() 
返回 NULL, 并 设置 errno 以 返回 错误 信息 。 虽 然 分 配 内 存 失败 的 可 能 性 很 小 , 但 所 有 对 malloc() 
以 及 后 续 提 及 的 相关 函数 的 调用 都 应 对 返回 值 进行 鲁 误 检 和 个 。 

















1 译 者 注 : 遵 作 者 邮件 嘱 改 动 原文 ， 据 称 此 为 编译 器 提高 内 存 访问 效率 的 举措 之 一 。 
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free() 函 数 释 放 ptr Z UJ HR ISI LEER, BEANE malloc), Set Asse ekt 
述 的 其 他 堆 内 存 分 配 函 数 之 一 所 返回 的 地 址 。 


#include <stdlib.h> 





void free(void *ptr); 








一 般 情况 下 ，free() 并 不 降低 program break 的 位 置 ， 而 是 将 这 块 内 存 填 加 到 空闲 内 存 列 表 
中 ， 供 后 续 的 mallocO 函 数 循环 使 用 。 这 人 么 做 是 出 于 以 下 几 个 原因 。 
。 被 释放 的 内 存 块 通常 会 位 于 堆 的 中 间 , 而 非 堆 的 顶部 , 因而 降低 porgram break 是 不 可 
能 的 。 
e 它 最 大 限度 地 减少 了 程序 必须 执行 的 sbrk0 调 用 次 数 。( 正 如 3.1 节 指 出 的 ， 系 统 调用 
的 开销 虽 小 ， 却 也 颇 为 可 观 。) 
e 在 大 多 数 情况 下 ， 降 低 program break 的 位 置 不 会 对 那些 分 配 大 量 内 存 的 程序 有 多 少 
帮助 ， 因 为 它们 通常 倾 各 于 持 有 已 分 配 内 存 或 是 反复 释放 和 重新 分 配 内 存 ， 而 非 释 放 
所 有 内 存 后 再 持续 运行 一 段 时 间 。 
如 果 传 给 freeO0 的 是 一 个 空 指针 ， 那 么 函数 将 什么 都 不 做 。( 换 句 话 说， 给 free0 传 入 一 个 
宝 指 针 并 不 是 错误 代码 。) 
在 调用 freeO 后 对 参数 ptr 的 任何 使 用 ， 例 如 将 其 再 次 传递 给 ffee0， 将 产生 错误 ， 并 可 能 
导致 不 可 预知 的 结果 。 





























程序 示例 


程序 清单 7-1 中 的 程序 说 明了 free() 函 数 对 program break 的 影响 。 该 程序 在 分 配 了 多 块 内 
存 后 ， 根 据 《〈 可 选 ) 命令 行 参数 来 释放 其 中 的 部 分 或 全 部 。 

前 两 个 命令 行 参数 指定 了 分 配 内 存 块 的 数量 和 大 小 。 第 三 个 命令 行 参数 指定 了 释放 内 存 
块 的 循环 步 长 。 如 果 是 1 (这 也 是 省 略 此 参数 时 的 默认 值 )， 那 么 程序 将 释放 每 块 已 分 配 的 内 
存 ， 如 果 为 2， 那 么 每 隔 一 块 释放 一 块 已 分 配 内 存 ， 以 此 类 推 。 第 四 个 和 第 五 个 命令 行 参数 指 
定 需要 释放 的 内 存 块 范 围 。 如 果 省 略 这 两 个 参数 ， 那 么 将 《以 第 三 个 命令 行 参数 所 指定 的 步 
K) 释放 全 部 范围 内 的 已 分 配 内 存 。 


程序 清单 7-1: 示范 释放 内 存 时 program break 的 行为 











memalloc/free and sbrk.c 
include "tlpi hdr.h" 


#define MAX ALLOCS 1000000 


int 
main(int argc, char *argv[]) 


char *ptr[MAX ALLOCS ] ; 
int freeStep, freeMin, freeMax, blockSize, numAllocs, j; 


printf("Nn"); 


if (argc < 3 || stremp(argv[1], "--help") == 0) 
usageErr("Xs num-allocs block-size [step [min [max]]]Wn", argv[0]); 


numAllocs = getInt(argv[1], GN GT 0, "num-allocs"); 
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if (numAllocs » MAX ALLOCS) 
cmdLineErr("num-allocs > %d\n", MAX ALLOCS); 


blockSize = getInt(argv[2], GN GT 0 | GN ANY BASE, "block-size"); 


freeStep = (argc > 3) ? getInt(argv[3], GN GT 0, "step") : 1; 
freeMin = (argc > 4) ? getInt(argv[4], GN GT 0, "min") : 1; 
freeMax = (argc > 5) ? getInt(argv[5], GN GT 0, "max") : numAllocs; 


if (freeMax » numAllocs) 
cmdLineErr("free-max > num-allocs Wn"); 


printf("Initial program break: 410pWn", sbrk(0)); 


printf("Allocating %d*%d bytesWn", numAllocs, blockSize); 
for (j = 0; j < numAllocs; j++) { 
ptr[j] = malloc(blockSize); 
if (ptr[j] == NULL) 
errExit("malloc"); 


| 


printf("Program break is now: %10p\n", sbrk(0)); 


printf("Freeing blocks from %d to ^d in steps of %d\n", 
freeMin, freeMax, freeStep); 
for (j = freeMin - 1; j « freeMax; j += freeStep) 
free(ptr[3]); 


printf("After free(), program break is: %10p\n", sbrk(0)); 


exit(EXIT SUCCESS); 


memalloc/free and sbrk.c 
用 下 面 的 命令 行 运行 程序 清单 7-1 的 程序 ， 将 会 分 配 1000 个 内 存 块 ， 且 每 隔 一 个 内 存 块 
释放 一 个 内 存 块 。 
$ ./free and sbrk 1000 10240 2 
输出 结 琳 显示， 释放 所 有 内 存 块 后 ，program break 的 位 置 仍 然 与 分 配 所 有 内 存 块 后 的 水 
平 相当 。 














Initial program break: Ox804a6bc 
Allocating 1000*10240 bytes 
Program break is now: 0x8a13000 


Freeing blocks from 1 to 1000 in steps of 2 
After free(), program break is: 0x8a13000 


下 面 的 命令 行 要 求 除了 最 后 一 块 内 存 块 ， 释 放 所 有 已 分 配 的 内 存 块 。 再 一 次 ，program break 
你 持 在 了 “局 水 位 线 ”。 


$ ./free and sbrk 1000 10240 1 1 999 





Initial program break: 0x804a6bc 
Allocating 1000*10240 bytes 
Program break is now: 0x8213000 


Freeing blocks from 1 to 999 in steps of 1 
After free(), program break is:  0x8a13000 


但 是 ， 如 果 在 推 项 部 释放 完整 的 一 组 连续 内 存 块 ， 会 观察 到 program break 从 峰值 上 降下 来 ， 
这 表明 free0 使 用 了 sbrk0 来 降低 program break。 在 这 里 ， 命 令 行 释放 了 已 分 配 内 存 的 最 后 500 个 
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内 存 块 。 


$ ./free and sbrk 1000 10240 1 500 1000 


Initial program break: 0x804a6bc 
Allocating 1000*10240 bytes 
Program break is now: 0x8213000 


Freeing blocks from 500 to 1000 in steps of 1 
After free(), program break is:  0x852b000 


在 这 种 情况 下 , free() 函 数 的 glibe 实现 会 在 释放 内 存 时 将 相 邻 的 空 亲 内存 块 合并 为 一 整 块 
更 大 的 内 存 ( 这 样 做 是 为 了 避免 在 空 用 内 存 列表 中 包含 大 量 的 小 块 内 存 伴 片 ， 这 些 伴 厂 会 因 空 
间 太 小 而 难以 满足 后 续 的 mallocO 语 求 )， 因 而 也 有 能 力 识别 出 扒 顶 部 的 整个 空 末 区域 。 























仅 当 推 顶 空 町内 存 “ 足 够 ”大 的 时 候 ，free0 函 数 的 glibc 实现 会 调用 sbrk0) 来 降低 program 
break 的 地 址 ， 至 于 “足够 ”与 否则 取决 于 malloc 函数 包 行 为 的 控制 参数 (128 KB 为 典型 
值 )。 这 减少 了 必须 对 sbrk0O 发 起 的 调用 次 数 〈 尔 即 对 brkO 系 统 调用 的 调用 次 数 )。 


调用 free() 还 是 不 调用 free() 


当 进 程 终止 时 ， 其 占用 的 所 有 内 存 都 会 返还 给 操作 系统 ， 这 包括 在 堆 内 存 中 由 malloc 函数 包 
内 一 系列 函数 所 分 配 的 内 存 。 基 于 内 存 的 这 一 自动 释放 机 制 , 对 于 那些 分 配 了 内 存 并 在 进程 终止 前 
持续 使 用 的 程序 而 言 ， 通 常会 省 略 对 free0 的 调用 。 这 在 程序 中 分 配 了 多 块 内 存 的 情况 下 可 能 会 特 
别 有 用 ， 因 为 加 入 多 次 对 free0 的 调用 不 但 会 消耗 大 量 的 CPU 时 间 ， 而 且 可 能 会 使 代码 趋 于 复杂 。 

虽然 依靠 终止 进程 来 自动 释放 内 存 对 大 多 数 程序 来 说 是 可 以 接受 的 , 但 基于 以 下 几 个 原因 ， 
最 好 能 够 在 程序 中 显 式 释放 所 有 的 已 分 配 内 存 。 

。 显 式 调用 free0) 能 使 程序 在 未 来 修改 时 更 具 可 读 性 和 可 维护 性 。 

。 如 果 使 用 malloc 调试 库 (如 下 所 述 ) 来 查找 程序 的 内 存 泄漏 问题 ， 那 么 会 将 任何 未 经 

显 式 释放 处 理 的 内 存 报告 为 内 存 泄漏 。 这 会 使 发 现 真正 内 存 泄漏 的 工作 复杂 化 。 


7.1.3 malloc() 和 free() 的 实现 


尽管 malloc0 和 freeO 所 提供 的 内 存 分 配 接 口 比 之 brkOAI sbrkO 要 容易 许多 ， 但 在 使 用 时 
仍然 容易 犯 下 各 种 编程 错误 。 理 解 malloc0 和 free0 的 实现 ， 将 使 我 们 洞悉 产生 这 些 错误 的 原 
以 及 如 何 才能 避免 此 类 错误 。 

mallocO 的 实现 很 简单 。 它 首先 会 扫描 之 前 由 freeO0 所 释放 的 空 亲 内 存 块 列 表 ， 以 求 找到 尺 
寸 大 于 或 等 于 要 求 的 一 块 空闲 内 存 。( 取 决 于 具体 实现 ， 采 用 的 扫描 策略 会 有 所 不 同 。 例 如 ， 
first-fit 或 best-fito。) 如 果 这 一 内 存 块 的 尺寸 正好 与 要 求 相 当 ， 就 把 它 和 直接 返回 给 调用 者 。 如 
果 是 一 块 较 大 的 内 存 ， 那 么 将 对 其 进行 分 割 ， 在 将 一 块 大 小 相当 的 内 存 返 回 给 调用 者 的 同时 ， 
把 较 小 的 那 块 至 闲 内 存 块 保留 在 空闲 列表 中 。 

如 果 在 空闲 内 存 列 表 中 根本 找 不 到 足够 大 的 空 亲 内 存 块 ， 那 么 malloc() 会 调用 sbrk0O 以 分 配 更 
多 的 内 存 。 为 减少 对 sbrk0 的 调用 次 数 ，mallocO 并 未 只 是 严格 按 所 需 字 节 数 来 分 配 内 存 ， 而 是 以 
更 大 幅度 《以 虚拟 内 存 页 大 小 的 数 倍 ) 来 增加 program break， 并 将 超出 部 分 置 于 空 用 内存 列表 。 

全 于 free() 函 数 的 实现 则 更 为 有 趣 。 当 free() 将 内 存 块 置 于 空闲 列表 之 上 时 ， 是 如 何 知晓 
内 存 块 大 小 的 ?这 是 通过 一 个 小 技巧 来 实现 的 。 当 malloc0O 分 配 内 存 块 时 ， 会 额外 分 配 几 个 字 
节 来 存放 记录 这 块 内 存 大 小 的 整数 值 。 该 整数 位 于 内 存 块 的 起 始 处 ， 而 实际 返回 给 调用 者 的 
内 存 地 址 恰好 位 于 这 一 长 度 记 录 字 节 之 后 ， 如 图 7-1 所 示 。 





























































































































第 7 章 内存 分 配 117 


异步 社区 会 员 flyman150(2410757683@qq.com) EF 尊重 版 权 


供 调用 者 使 用 的 内 存 








malloc() 的 返回 地 址 
7-1: malloc) ROAF 














当 将 内 存 块 置 于 空闲 内 存 列表 〈 双 加 链表 ) 时 ，freeO 会 使 用 内 存 块 本 映 的 空间 来 存放 链 
表 指 针 ， 将 目 身 诬 加 到 列表 中 ， 如 图 7-2 所 示 。 





"TM 指向 前 一 空 闪 央 hp ; — aH t 
内 存 块 指向 前 一 空 亲 内 | 指向 后 一 空闲 内 存 块 中 剩 下 的 空闲 内 存 


长 度 (L) 存 块 的 指针 (P) | 内 存 块 的 指针 (N) 





7-2: 空闲 列表 中 的 内 存 块 





随 看 对 内 存 不 断 地 释放 和 重新 分 配 ， 衬 朵 列表 中 的 空 亲 内 存 会 和 已 分 配 的 在 用 内 存 混 杂 
在 一 起 ， 如 图 7-3 所 示 。 


空闲 列表 中 的 块 : LiPIN| | 
PISA 已 分 配 且 在 使 用 的 块 : |[L| | 


“-” = 标识 列表 尾部 的 指针 值 
7-3: 包含 有 已 分 配 内 存 和 空 闪 内 存 列 表 的 堆 





应 该 认识 到 ，C 语言 允许 程序 创建 指向 堆 中 任意 位 置 的 指针 ， 并 修改 其 指向 的 数据 ， 包 
括 由 free()ftl malloc0 函 数 维护 的 内 存 块 长 度 、 指 向 前 一 空闲 块 和 后 一 空 闻 块 的 指针 。 辅 之 以 
之 前 的 描述 ， 一 旦 推 究 起 隐 昨 难 解 的 编程 缺陷 来 ， 这 无 疑 形 同 掉 进 了 火药 桶 。 例 如 ， 假 设 经 
由 一 个 错误 指针 , 程序 无 意 间 增 加 了 冠 于 一 块 已 分 配 内 存 的 长 度 值 , 并 随即 释放 这 块 内 存 , free0) 
因 之 会 在 空闲 列表 中 记录 下 这 块 长 度 失真 的 内 存 。 随 后 ，malloc0 也 许 会 重新 分 配 这 块 内 存 ， 
从 而 导致 如 下 场景 :程序 的 两 个 指针 分 别 指向 两 块 它 认为 互 不 相干 的 已 分 配 内 存 ， 但 实际 上 
这 两 块 内 存 却 相互 重 骆 。 至 于 其 他 的 出 错 情况 则 数不胜数 。 

要 避免 这 类 错误 ， 应 该 遵守 以 下 规则 。 

。 分 配 一 块 内 存 后 ， 应 当 小 心 谨慎 ， 不 要 改变 这 块 内 存 范围 外 的 任何 内 容 。 错 误 的 指针 
运算 ,或 者 循环 更 新 内 存 块 内 容 时 出 现 的 “off-by-one”( 一 字 之 偏 ) 错误 ， 都 有 可 能 
导致 这 一 情况 。 

。 释放 同一 块 已 分 配 内 存 超过 一 次 是 错误 的 。Linux 上 的 glibe 库 经 常 报 出 分 段 错误 
(SIGSEGV 信号 )。 这 是 好 事 ， 因 为 它 提醒 我 们 犯 下 了 一 个 编程 错误 。 然 而 ， 当 两 次 


















































1 译 者 注 : 详 见 http://en.wikipedia.org/wiki/Off-by-one_error。 
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释放 同一 块 内 存 时 ， 更 常见 的 后 果 是 导致 不 可 预知 的 行为 。 

e FIE malloc 函数 包 中 国 数 押 返回 的 指针 ， 绝 不 能 在 调用 freeO 函 数 时 使 用 。 

e 在 编写 需要 长 时 间 运 行 的 程序 (例如 ，shell 或 网 络 守 护 进程 ) 时 ， 出 于 各 种 目的 ， 如 
条 需要 反复 分 配 内 存 ， 那 么 应 当 确 保释 放 所 有 已 使 用 完毕 的 内 存 。 如 奋 不 然 ， 堆 将 稳 
步 增 长 ， 直 至 抵达 可 用 虚拟 内 存 的 上 限 ， 在 此 之 后 分 配 内 存 的 任何 尝试 都 将 以 失败 告 
终 。 这 种 情况 被 称 乙 为 “内 存 泄 漏 ” 











malloc 调试 的 工具 和 库 


如 果 不 遵 循 上 述 准 则 ， 可 能 会 在 代码 中 引入 既 难 以 理解 又 难以 重 现 的 缺陷 。 而 使 用 glibc 
提供 的 malloc 调试 工具 或 者 任何 一 球 malloc 调试 库 ， 都 会 显著 降低 发 现 这 些 缺 陷 的 难度 ， 这 
也 是 设计 它们 的 目的 所 在 。 
以 下 是 glibc 提供 的 malloc 调试 工具 的 部 分 功能 。 
e mtrace() 和 muntrace() 函 数 分 别 在 程序 中 打开 和 关闭 对 内 存 分 配 调用 进行 跟踪 的 功 
能 。 这 些 函 数 要 与 环境 变量 MALLOC TRACE 搭配 使 用 , 该 变量 定义 了 写 入 跟踪 信 
县 的 文件 名 。 在 被 调用 时 ，mtrace(O 会 检查 是 否定 义 了 该 文件 ， 又 是 否 可 以 打开 文件 
并 写 入 。 如 果 一 切 正常 ， 那 么 会 在 文件 里 跟踪 和 记录 所 有 对 malloc 函数 包 中 函数 的 
调用 。 由 于 生成 文件 不 易于 理解 ， 还 提供 有 一 个 脚本 (mtrace〉 用 于 分 析 文 件 ， 并 
生成 易于 理解 的 汇总 报告 。 出 于 安全 原因 ， 设 置 用 户 ID 和 设置 组 ID 的 程序 会 忽略 
对 mtrace() 的 调用 。 

e mcheck() 和 mprobeO 函 数 允 许 程 序 对 已 分 配 内 存 块 进行 一 致 性 检查 。 例 如 ， 当 程序 试 
图 在 已 分 配 内 存 之 外 进行 写 操 作 时 ， 它 们 将 捕获 这 个 错误 。 这 些 函 数 提供 的 功能 和 下 
述 malloc 调试 库 有 重 登 之 处 。 使 用 这 些 函 数 的 程序 ， 必 须 使 用 cc-lmcheck 选项 与 
mcheck 库 链 接 。 

e MALLOC CHECK 环 壕 变量 《注意 结尾 处 的 下 划 线 ) 提供 了 类 似 于 mcheckO 和 

mprobe() 疯 数 的 功能 。( 两 者 之 间 的 一 个 显著 区 别 在 于 使 用 : MALLOC CHECK 无 需 
对 程序 进行 修改 和 重新 编译 。) 通过 为 此 变量 设置 不 同 的 整数 值 ， 可 以 控制 程序 对 内 
存 分 配 蚀 误 的 啊 应 方式 。 可 能 的 设置 有 : 0， 意 即 忽略 错 误 ; 1， 意 即 在 标准 错误 输出 
(stderr) 中 打印 诊断 错误 ，2， 意 即 调用 abortO) 来 终止 程序 。 并 非 所 有 的 内 存 分 配 和 释 
放 错 误 都 是 由 MALLOC CHECK 检测 出 的 ， 它 所 发 现 的 只 是 第 见 错误 。 但是， 这 种 
ARRE gH, RLF malloc 调试 库 上 其 有 较 低 的 运行 时 开销 。 出 于 安全 原因 ， 设 置 
HP ID 和 设置 组 ID 的 程序 将 忽略 MALLOC CHECK 设置 。 

关于 以 上 所 有 功能 更 为 详细 的 信息 可 以 参考 glibc 手册 。 

mat malloc 调试 库 而 言 ， 其 提供 了 和 标准 malloc 函数 包 相 同 的 API， 但 附加 了 捕获 内 存 
分 配 铬 误 的 功能 。 要 使 用 调试 库 ， 需 要 在 编 详 时 链接 调试 库 ， 而 非 标准 C 函数 库 的 malloc 函数 
包 。 由 于 调试 库 通 第 会 降低 运行 速度 ， 增 加 内 存 消 耗 ， 或 是 两 者 兼 而 有 之 ， 应 当 仅 在 调试 时 
使 用 , 而 在 正式 发 布 产品 时 链接 标准 库 的 malloc 包 。 这 些 库 分 别 是 : Electric Fence (http://www. 
perens.com/FreeSoftware/)、 dmalloc Chttp://dmalloc.com/)., Valgrind (http://valgrind. org/)~ Insure++ 
Chttp://www.parasoft.com/). 


Valgrind 和 Insure++ 能 够 发 现 许 多 推 内 存 分 配 乙 外 的 其 他 闫 型 错误 。 可 以 访问 其 各 目 网 
站 ， 以 获取 详细 信息 。 
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控制 和 监测 malloc AAE 


glibc 手册 介绍 了 一 系列 非 标准 函数 ， 可 用 于 监测 和 控制 malloc 包 中 国 数 的 内 存 分 配 ， 其 
中 包括 如 下 几 个 函数 。 
。 K malloptO 能 修改 各 项 参数 ， 以 控制 malloc0 所 采用 的 算法 。 例 如 ， 此 类 参数 之 一 
束 指 定 了 在 调用 sbrk0 函 数 进行 扒 收 缩 之 前 ， 在 空闲 列表 尾部 必须 休 有 的 可 释放 内 存 
空间 的 最 小 值 。 为 一 参数 则 规定 了 从 堆 中 分 配 的 内 存 块 大 小 的 上 限 ， 超 出 上 限 的 内 存 
块 则 使 用 mmapO 系 统 调用 《参见 49.7 T) 来 分 配 。 
e mallin ORZU H-N, APEE H mallocO 分 配 内 存 的 各 种 统计 数据 。 
众多 UNIX 实现 提供 各 种 版 本 的 malloptO4I mallinfo0。 人 然而， 这 些 函 数 所 提供 的 接口 却 
随 实 现 而 不 同 ， 因 而 也 无 法 移植 。 


7.1.4 在 堆 上 分 配 内 存 的 其 他 方法 


除了 malloc0，C 函数 库 还 提供 了 一 系列 在 堆 上 分 配 内 存 的 其 他 函数 ， 在 这 里 将 逐一 介绍 。 























用 calloc() 和 realloc() 分 配 内 存 
函数 callocO0) 用 于 给 一 组 相同 对 象 分 配 内 存 。 


#include <stdlib.h> 








void *calloc(size t numitems, size t size); 








Returns pointer to allocated memory on success, or NULL on error 


参数 mumitems 指定 分 配对 象 的 数量 ，size 指定 每 个 对 象 的 大 小 。 在 分 配 了 适当 大 小 的 内 
存 块 后 ,calloc0 返 回 指 癌 这 块 内 存 起 始 处 的 指针 (如 果 无 法 分 配 内 存 , 则 返回 NULL)。 与 malloc() 
不 同 ，callocO 会 将 已 分 配 的 内 存 初始 化 为 0。 

下 和 面 是 callocO 的 一 个 使 用 范例 : 

struct ( /* Some field definitions */ } myStruct; 

struct myStruct *p; 


p = calloc(1000, sizeof(struct myStruct)); 
if (p -- NULL) 
errExit("calloc"); 


realloc() FR Zi HRJ OE de RAFIK, f EGER AENEA Bi h malloc 包 中 
函数 所 分 配 的 。 


#include <stdlib.h> 











void *realloc(void *ptr, size t size); 


Returns pointer to allocated memory on success, or NULL on error 


参数 ptr 是 指 癌 需要 调整 大 小 的 内 存 块 的 指针 。 人 参数 size 指定 所 需 调整 大 小 的 期 望 值 。 

如 条 成 功 ，realloc0 返 回 指 癌 大 小 调整 后 内 存 块 的 指针 。 与 调用 前 的 指针 相 比 ， 二 者 指 辐 
的 位 置 可 能 不 同 。 如 果 发 生 错 误 ，realloc0 返 回 NULL， 对 ptr 指针 指向 的 内 存 块 则 原封 不 动 
(SUSv3 要 求 满足 这 一 约定 )。 

$r reallocO 增 加 了 已 分 配 内 存 块 的 大 小 ， 则 不 会 对 额外 分 配 的 字 节 进行 初始 化 。 
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使 用 calloc()2& realloc0O 分 配 的 内 存 应 使 用 free0 来 释放 。 
调用 realloc(ptr,0) 等 效 于 在 free(ptr) 之 后 调用 malloc(0). zi ptr 为 NULL， 则 realloc(NULL, 
size) 相 当 于 调用 malloc(size)。 

通常 情况 下 ， 当 增 大 已 分 配 内 存 时 ，realloc0 会 试图 去 合并 在 空闲 列表 中 紧 随 其 后 且 
大 小 满足 要 求 的 内 存 块 。 略 原 内 存 块 位 于 堆 的 项 部， 那么 realloc0O 将 对 堆 空 间 进行 扩展 。 
如 东 这 块 内 存 位 于 堆 的 中 部 ， 且 紧邻 其 后 的 空 亲 内 存 空 间 大 小 不 足 ，realloc0 会 分 配 一 块 
新 内 存 ， 并 将 原 有 数据 复制 到 新 内 存 块 中 。 最 后 这 种 情况 最 为 常见 ， 还 会 占用 大 量 CPU 
资源 。 一 般 情 况 下 ， 应 尽量 避免 调用 realloc(). 

既然 realloc0 可 能 会 移动 内 存 ， 对 这 块 内 存 的 后 续 引 用 就 必须 使 用 reallocO 的 返回 指针 。 
可 以 用 realloc0 来 重新 定位 由 变量 ptr 指 回 的 内 存 块 ， 代 码 如 下 : 

nptr = realloc(ptr, newsize); 

if (nptr == NULL) 1 

/* Handle error */ 


} else { /* realloc() succeeded */ 
ptr = nptr; 


























本 例 并 没有 把 realloc0 的 返回 值 直 接 赋 给 ptrt， 因 为 一 旦 调用 reallocO 失 败 ， 那 么 ptr 会 被 
置 为 NULL， 从 而 无 法 访问 现 有 内 存 块 。 

由 于 realloc0 可 能 会 移动 内 存 块 ， 任 何 指 问 该 内 存 块 内 部 的 指针 在 调用 reallocO0 之 后 都 可 
能 不 再 可 用 。 仪 有 一 种 内 存 块 内 的 位 置 引用 方法 依然 有 效 ， 即 以 指 问 此 块 内 存 起 始 处 的 指针 
再 加 上 一 个 偏 移 量 来 进行 定位 ， 这 将 在 48.6 节 中 详细 讨论 。 

















分 配对 齐 的 内 存 : memalign() 和 posix_memalign() 


设计 函数 memalign0 和 posix_memalignO 的 目的 在 于 分 配 内 存 时 ， 起 始 地 址 要 与 2 的 整数 
次 办 边 界 对 齐 ， 访 特征 对 于 某 些 应 用 非 第 有 用 例如 程序 清单 13-1). 


#include «malloc.h» 














void *memalign(size t boundary, size t size); 








Returns pointer to allocated memory on success, or NULL on error 


PR Zi memalign0 〇 分 配 size PFE VJ f , 起 始 地 址 是 参数 boundary 的 整数 倍 , 而 boundary 
必须 是 2 的 整数 次 时 。 函 数 返 回 已 分 配 内 存 的 地 址 。 

PR žr memalign0O 并 非 在 所 有 UNIX 实现 上 都 存在 。 大 多 数 提 供 memalign0 的 其 他 UNIX 实 
现 都 要 求 引 用 <stdlib.h> 而 非 <malloc.h> 以 获得 函数 声明 。 

SUSv3 并 未 纳入 memalign0， 而 是 规范 了 一 个 类 似 困 数 ， 名 为 posix memalignO0。 该 函数 
由 标准 委员 会 于 近期 创制 ， 只 是 出 现在 了 少数 UNIX 实现 上 。 


#include <stdlib.h> 











int posix_memalign(void **memptr, size_t alignment, size_t size); 


Returns 0 on success, or a positive error number on error 











1 WERE: 参见 图 7-3 堆 中 空闲 内 存 块 与 已 分 配 内 存 块 的 “杂居 ”状态 ， 此 处 应 指 与 ptr 指向 的 已 分 
配 内 存 块 的 地 址 相 邻 的 空 用 内 存 块 。 
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PK% posix memalign() 5 memalign0O 存 在 以 下 两 方面 的 不 同 。 

e 已 分 配 的 内 存 地 址 通过 参数 memptr 返回 。 

e 内 存 与 alignment 参数 的 整数 倍 对 章 ， alignment 必须 是 sizeof (void*) 〈 在 大 多 数 便 

件 架 构 上 是 4 或 8 个 字 节 ) 与 2 的 整数 次 震 两 者 间 的 乘积 。 

还 要 注意 该 函数 与 众 不 同 的 返回 值 ， 出 错时 不 是 返回 -1， 而 是 直接 返回 一 个 错误 写 〈 即 通 
常 在 errno 中 返回 的 正 整 数 )。 

WR SizeOf(void *) 为 4, 1n LEH posix memalign()2) Ri 65536 FERAT, J- 4096 
FERIA ARIU F: 

int s; 

void *memptr; 




















S = posix memalign(8memptr, 1024 * sizeof(void *), 65536); 
if (s != 0) 
/* Handle error */ 


由 memalign() 或 posix memalign0O 分 配 的 内 存 块 应 该 调用 free0) 来 释放 。 





在 一 些 UNIX 实现 中 ， 无 法 通过 调用 freeO 来 释放 由 memalign() 分 配 的 内 存 ， 因 为 此 类 
memalign() 在 实现 时 使 用 malloc0 来 分 配 内 存 块 ， 然 后 返回 一 个 指针 ， 指 问 该 块 内 已 对 齐 有 的 
适当 地 址 。glibc 的 memalignO 则 不 受 此 限制 。 


7.2 ”在 堆栈 上 分 配 内 存 : alloca() 

和 malloc 函数 包 中 的 函数 功能 一 样 ，alloca0 也 可 以 动态 分 配 内 存 ， 不 过 不 是 从 堆 上 分 配 
内 存 ， 而 是 通过 增加 栈 帧 的 大 小 从 堆栈 上 分 配 。 根 据 定义 ， 当 前 调用 函数 的 栈 帧 位 于 堆栈 的 
顶部 ， 故 而 这 种 方法 是 可 行 的 。 因 此 ， 帧 的 上 方 存在 扩展 空间 ， 只 需 修 改 堆栈 指针 值 即 可 。 

















#include «alloca.h» 


void *alloca(size t size); 





Returns pointer to allocated block of memory 





参数 size 指定 在 堆栈 上 分 配 的 字 节 数 。 函 数 alloca0 将 指 问 已 分 配 内 存 块 的 指针 作为 其 返回 值 。 

不 需要 (实际 上 也 绝 不 能 ) 调用 free0 来 释放 由 alloca0 分 配 的 内 存 。 同 样 ， 也 不 可 能 调用 
realloc() 来 调整 由 alloca0 分 配 的 内 存 大 小 。 

虽然 alloca) AE SUSv3 的 一 部 分 , 但 大 多 数 UNIX 实现 都 提供 了 此 函数 ， 因 而 也 上 其 备 可 
移植 性 。 


旧版 本 的 glibc 和 其 他 一 些 UNIX 实现 (主要 是 BSD 的 衍生 版 本 )， 要 获取 alloca) 8j] 
需 引 入 <stdlib.h> 而 非 <alloca.h>。 

















知 调 用 alloca0 造 成 堆栈 洪 出 ， 则 程序 的 行为 无 法 了 预知， 特别 是 在 没有 收 到 一 个 NULL 返回 值 通 
知 错误 的 情况 下 。( 事 实 上 ， 在 此 情况 下 ， 可 能 会 收 到 一 个 SIGSEGV 信号 。 详 情 参 见 21.3 We) 
请 注意 ， 不 能 在 一 个 函数 的 参数 列表 中 调用 alloca), A FAT: 

















1 译 者 注 : 简 而 言 之 ， 该 内 存 块 的 起 始 地 址 是 alignment 参数 的 整数 倍 。 
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func(x, alloca(size), z); /* WRONG! */ 
这 会 使 alloca0 分 配 的 堆栈 空间 出 现在 当前 函数 参数 的 空间 内 《函数 参数 都 位 于 栈 帧 内 
的 固定 位 置 )。 相 反 ， 必 须 采 用 这 样 的 代码 : 


void *y; 





y = alloca(size); 
func(x, y, z); 


使 用 alloca0 来 分 配 内 存 相 对 于 malloc0 有 一 定 优势 。 其 中 之 一 是 ，alloca0) 分 配 内 存 的 速 
度 要 快 于 malloc), HAm k alloca0 作 为 内 联 代 码 处 理 ， 并 通过 下 接 调 整 堆栈 指针 来 实 
现 。 此 外 ，alloca0 也 不 需要 维护 空闲 内 存 块 列表 。 

为 一 个 优点 在 于 ， 由 alloca0 分 配 的 内 存 随 栈 帧 的 移 除 而 目 动 释放 ， 外 即 当 调 用 alloca 的 
国 数 返回 之 时 。 之 所 以 如 此 ， 是 因为 函数 返回 时 所 执行 的 代码 会 重 置 栈 指针 寄存 问 ， 使 其 指 
问 前 一 帆 的 末尾 〈《 即 ， 假 设 扒 栈 同 下 增长 ， 则 指 同 恰好 位 于 当前 栈 帧 起 始 处 之 上 的 地 址 )。 由 
于 在 函数 的 所 有 返回 路 径 中 都 无 需 确 保 去 释放 所 有 的 已 分 配 内 存 ， 一 些 函 数 的 编码 也 变 得 简 
单 得 多 。 

在 信号 处 理 程序 中 调用 longjimp() (6.8 13) 或 siglongjimp() (21.2.1 节 ) 以 执行 非 局 部 跳 
转 时 ，alloca() 的 作用 尤其 突出 。 此 时 ， 在“ 起跳 ” 子 数 和 “ 洲 地 ” 孔 数 之 间 的 函数 中 ， 如 末 
使 用 了 malloc0 来 分 配 内 存 ， 要 想 避 免 内 存 泄漏 束 极 其 困难 ， 甚 至 是 不 可 能 的 。 与 之 相反 ， 
alloca) 3E 4: n] AE RR, 因为 堆栈 是 由 这 些 调用 展开 的 , 所 以 已 分 配 的 内 存 会 被 目 动 
释放 。 























1.3 iz 


利用 malloc 函数 族 ， 进 程 可 以 动态 分 配 和 释放 堆 内 存 。 在 讨论 这 些 函 数 的 实现 时 ， 接 述 了 
程序 对 已 分 配 内 存 处 理 失 当 的 种 种 情况 ， 还 点 出 了 一 些 有 助 于 定位 此 类 错误 根源 的 调试 工具 。 
KZŽ alloca0 能 够 在 堆栈 上 分 配 内 存 。 该 类 内 存 会 在 调用 alloca0 的 函数 返回 时 目 动 释放 。 








7.4 练习 


7-1. ”修改 程序 清单 7-1 中 的 程序 (free and sbrk.c)， 在 每 次 执行 mallocO 后 打印 出 program 
break 的 当前 值 。 指 定 一 个 较 小 的 内 存 分 配 尺 寸 来 运行 该 程序 。 这 将 证 明 mallocO 不 会 
在 每 次 被 调用 时 都 调用 sbrk0 来 调整 program break 的 位 置 , 而 是 周期 性 地 分 配 大 块 
内 存 ， 并 从 中 将 小 内 存 返 回 给 调用 者 。 

7-2. CAW) 实现 mallocO0 和 free). 








| 译 者 注 ， 通 过 调整 栈 指针 自然 释放 了 栈 中 所 分 配 的 内 存 。 
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ME 
EH 


用 户 和 组 








每 个 用 户 都 拥有 一 个 唯一 的 用 户 名 和 一 个 与 之 相关 的 数值 型 用 户 标 识 符 〈UID )。 用 户 可 





以 隶属 于 一 个 或 多 个 组 。 而 每 个 组 也 者 拥有 唯一 的 一 个 名 称 和 一 个 组 标识 符 〈GID )。 








用 户 和 组 ID 的 主要 用 途 有 二 : 其 一 ， 确定 各 种 系统 资源 的 所 有 权 ; 其 二 ， 对 赋予 进程 访 








问 上 述 资 源 的 权限 加 以 控制 。 比 方 说 ， 每 个 文件 者 属于 条 个 特定 的 用 户 和 组 ， 而 每 个 进程 也 
拥有 相应 的 用 尸 ID 和 组 ID 属性 ， 这 束 决 定 了 进程 的 所 有 者 ， 以 及 进程 访问 文件 时 所 拥有 的 
权限 (具体 信息 请 参见 第 9 间 )。 





本 章 首 先 会 关注 用 于 定义 用 户 和 组 的 系统 文件 ， 随 后 将 描述 用 来 从 这 些 系统 文件 中 获取 





言 息 的 库 函数 。 最 后 ， 将 讨论 用 来 加 密 和 认证 登录 密码 的 crypt0 函 数 。 


8.1 


密码 文件 : /etc/passwd 





针对 系统 的 每 个 用 户 账 写 ， 系统 密 公 文件 /etc/passwd 会 专列 一 行进 行 插 述 。 每 行 部 包 仿 7 


个 字段 ， 之 间 用 冒号 分 隔 ， 如 下 所 未 : 
mtk:x:1000:100:Michael Kerrisk:/home/mtk:/bin/bash 
接 下 来 ， 将 按 顺 序 介 绍 这 7 个 字段 。 
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登录 名 : 登录 系统 时 ， 用 户 所 必须 输入 的 唯一 名 称 。 通 常 ， 也 将 其 称 为 用 户 名 。 此 外 ， 
也 可 将 登录 名 视 为 人 类 可 读 的 《符号 ) 标识 符 ， 与 数字 用 户 标识 符 〈 稍 后 介绍 ) 相对 
应 。 当 使 用 诸如 1s(1) 这 样 的 程序 去 显示 文件 的 所 有 权时 〔 比 如， 执行 1s INO, zm 
示 出 登录 名 ， 而 非 与 文件 关联 的 数值 型 用 户 ID. 

经 过 加 密 的 密码 : 该 字段 包含 的 是 经 过 加 密 处 理 的 密码 ， 长 度 为 13 个 字符 ，8.5 节 会 
对 此 做 深入 讨论 。 如 果 密 码 字 段 中 包含 了 任何 其 他 字符 串 ， 特 别 是 ， 当 字符 串 长 上 度 超 
过 13 个 字符 时 ， 将 禁止 此 账户 登录 ， 原 因 是 此 类 字符 串 不 能 代表 一 个 经 过 加 密 的 有 
效 密码 。 不 过 ， 请 注意 ， 要 是 启用 了 shadow 密码 (这 是 常规 做 法 )， 系 统 将 会 不 解析 
该 字段 。 这 时 ，/etc/passwd 中 的 密码 字段 通常 会 包含 字母 “x”( 当 然 ， 也 可 以 是 任何 
非 空 字 串 )， 而 经 过 加 密 处 理 的 密码 实际 上 却 存储 到 shadow 密码 文件 中 (参见 8.2 节 )。 
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diletc/passwd FH AERA Era, MZK EEG Zing CHDfUHH] f shadow 244, 
也 是 如 此 )。 


本 章 假 定 对 密码 的 加 密 算法 为 DES (数据 加 密 标 准 )， 这 也 是 一 下 为 UNIX 所 广泛 使 用 
的 密码 加 密 算法 。 还 可 用 其 他 加 密 算法 (比如 ，MD5) 来 替代 DES， 针 对 输入 生成 128 位 的 
消息 摘要 (hash 的 一 种 )。 在 密码 (或 shadow 密码 ) 文件 中 ， 该 消息 摘要 会 以 长 度 为 34 字 
符 的 子 符 串 形 式 存储 。 


e H ID (UID): 用 户 的 数值 型 ID。 如 果 该 字段 的 值 为 0， 那 么 相应 账户 即 具有 特权 
级 权限 。 这 种 账号 一 般 只 有 一 个 ， 其 登录 名 为 root. TE Linux 2.2 或 更 早 的 版 本 中 ， 用 
户 了 DD 为 16 位 值 ， 其 范围 为 0~65535。 m Linux 2.4 及 其 以 后 的 版 本 则 以 32 位 值 来 存 
储 用 户 DD， 因 此 能 够 支持 更 多 的 用 户 数 。 





























在 密码 文件 中 ， 人 允许 (但 不 常见 ) 同一 用 户 D 拥有 多 条 记录 ， 从 而 使 得 同一 用 户 ID 
拥有 多 个 登录 名 。 如 此 一 来 ， 多 个 用 户 便 能 以 不 同 密码 《登录 ) 去 访问 相同 资源 (比如 ， 
文件 等 )。 此 外 ， 不 同 的 登录 名 还 可 以 关联 一 系列 不 同 的 组 ID. 


e 组 ID (GID): 用 户 属 组 中 首选 属 组 的 数值 型 DD。 关于 用 户 与 属 组 之 间 从 属 关系 的 进 
一 步 信 息 ， 会 在 系统 组 文件 中 加 以 定义 。 

e 注释 : 该 字段 存放 关于 用 户 的 描述 性 文字 。 诸 如 finger(1) 之 类 的 各 种 程序 会 显示 此 
Eds 

e 主 目录 : 用 户 登 录 后 所 处 的 初始 路 径 。 会 以 该 字段 内 容 来 设置 HOME 环境 变量 。 

e 登录 shel: 一 旦 用 户 登 录 ， 便 交 由 该 程序 控制 。 通 常 ， 访 程序 为 shell 的 一 种 《比如 ， 
bash)， 但 也 可 以 是 其 他 任何 程序 。 如 果 该 字段 为 衬 ， 那 么 登录 shell 默认 为 /bin/sh 
(Bourne shell)。 会 以 该 字段 值 来 设置 SHELL 环境 变量 。 

在 单机 系统 中 ， 所 有 密码 信息 都 存储 在 /etc/passwd 文件 中 。 然 而 ， 如 果 使 用 了 NIS (网 

络 信息 系统 ) 或 LDAP (轻型 目录 访问 协议 ) 在 网 络 环境 中 分 发 密码 ， 那 么 部 分 密码 信息 可 能 
会 由 远 端 系统 保存 。 只 要 访问 密码 信息 的 程序 采用 的 是 本 章 稍 后 描述 的 函数 (getpwnam()、 
getpwuid() 等 )， 那 么 无 论 是 使 用 NIS 还 是 LDAP， 对 应 用 程序 来 说 都 是 透明 的 。 类 似 论断 同样 
适用 于 本 章 随 后 儿 和 所 讨论 的 shadow 密码 文件 和 组 文件 。 





















































8.2 shadow 密码 文件 : /etc/shadow 


很 久 以 来 ，UNIX 一 和 直 在 /etc/passwd 中 维护 所 有 的 用 户 信 息 ， 这 其 中 包括 经 过 加 密 处 理 的 
密码 。 但 这 一 准 措 也 各 来 了 安全 问题 。 由 于 许多 非特 权 级 别 系统 工具 需要 斌 取 密 人 码 文 件 中 的 
其 他 信息 ， 密 码 文件 因而 不 得 不 对 所 有 用 户 开 放 可 读 权 限 。 这 束 为 密 公 人 破解 工具 提供 了 可 乘 
之 机 ， 它 们 会 尝试 对 可 能 成 为 密码 的 大 量词 汇 〈 比 如 ， 字 典 中 的 标准 单词 或 人 名 ) 进行 加 密 ， 
然后 再 将 结果 与 经 过 加 密 处 理 的 用 户 密 码 进 行 比 对 。 作 为 防范 此 类 攻击 的 手段 之 一 ，shadow 
密码 文件 /etc/shadow 应 运 而 生 。 其 理念 是 用 户 的 所 有 非 敏感 信息 存放 于 “人 人 可 谈 ” 的 密码 
文件 中 ， 而 经 过 加 密 处 理 的 密码 则 由 shadow 密码 文件 单独 维护 ， 仅 供 具 有 特权 的 程序 谈 取 。 

shadow 密码 文件 包含 有 登录 名 《用 来 丐 配 密 公文 件 中 的 相应 记录 )、 经 过 加 密 的 密码 ， 以 


















































1 VEXHE: 此 处 有 误 ， 示 考虑 局 用 shadow 密码 的 情况 。 
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AL CRUET  EARVERSWIA ER. shadow) FI VOS oC P BUE T EAR. REKA 
注 经 过 加 密 的 密码 字段 ， 将 在 8.5 ENA cryptO 库 函数 时 做 深入 讨论 。 

SUSv3 并 未 对 shadow 密码 作出 规范 ， 也 并 非 所 有 的 UNIX 实现 都 提供 这 一 特性 ， 即 使 是 
都 支持 这 一 特性 的 各 种 实现 ， 在 关于 API 和 文件 位 置 上 的 细节 也 不 尽 相 同 。 











8.3 组 文件 : /etc/group 


出 于 各 种 管理 方面 的 考虑 ， 尤 其 是 要 控制 对 文件 和 其 他 系统 资源 的 访问 ， 对 用 户 进 行 编 
组 极其 实用 价值 。 

对 用 户 所 属 各 组 信息 的 定义 由 两 部 分 组 成 : 一 ,密码 文 件 中 相应 用 户 记录 的 组 ID ^£ Et; 
二 ， 组 文件 列 出 的 用 户 所 属 各 组 。 这 种 将 信息 分 置 于 两 个 文件 中 的 奇怪 现状 ,日 有 其 历史 洲 
源 。 在 早期 UNIX 实现 中 ,一 个 用 户 同 时 只 能 从 属于 一 个 组 。 登 录 时 ， 用 户 最 初 的 属 组 关系 
由 密码 文件 的 组 ID 字段 决定 ， 在 此 之 后 ， 可 使 用 newgrp(1) 命 令 去 改变 用 户 属 组 , [Ho EHI 
尸 提供 组 密码 ( 寿 该 组 处 于 密码 的 保护 之 下 )。4.2BSD 引入 了 并 发 多 属 组 (multiple 
simultaneous group memberships) 的 概念 ，POSIX.1-1990 随后 对 其 进行 了 标准 化 。 采 用 这 种 
方案 ， 组 文件 会 列 出 每 个 用 户 所 属 的 其 他 属 组 。(groups(1) 命 令 会 显示 当前 shell 进程 所 属 各 
组 的 信息 ， 如 果 将 一 个 或 多 个 用 户 名 作为 其 命令 行 参 数 ， 那么 该 命令 将 显示 相应 用 户 所 属 各 
组 的 信息 。) 

系统 中 的 每 个 组 在 组 文件 /etc/group 中 都 对 应 着 一 条 记录 。 每 条 记录 包含 4 个 字段 ， 之 间 
ERE. Ul PHI: 


users:x:100: 
jambit:x:106:claus,felli,frank,harti,markus,martin,mtk,paul 


本 节 将 依次 介绍 这 4 个 字段 。 

e 组 名 : 组 的 名 称 。 与 密码 文件 中 的 登录 名 相似 ， 可 以 将 其 视 为 与 数值 型 组 标识 符 相 对 
应 的 人 类 可 读 〈 符 号 ) 标识 符 。 

e 经 过 加 密 处 理 的 密码 : 组 密码 属于 非 强制 特性 ， 对 应 于 该 字段 。 随 看 多 属 组 的 出 现 ， 
当今 的 UNIX 系统 已 经 很 少 使 用 组 密码 。 不 过 ， 依 然 可 以 为 组 设置 密码 (特权 用 户 可 
使 用 gpasswd 命令 来 设置 组 密码 )。 如 果 用 户 并 非 菜 组 的 成 员 ， 那 么 在 使 用 newgrp(1) 
启动 新 shell 之 前 (新 shell 的 属 组 包括 该 组 )， 就 需要 用 户 提 供 此 密码 。 如 果 启 用 了 
shadow 密码 ， 那 么 系统 将 不 解析 该 字段 (这 时 ， 该 字段 通常 只 包含 字母 x， 但 也 允许 
其 内 容 为 包括 空 字 符 串 在 内 的 任何 字符 串 )， 而 经 过 加 密 的 密码 实际 上 则 存放 于 
shadow 组 文件 /etc/gshadow 中 ， 仅 供 具 有 特权 的 用 户 和 程序 访问 。 组 密码 的 加 密 方 式 
类 似 于 用 户 密码 (8.5 节 )。 

e 组 ID (GID): 该 组 的 数值 型 ID。 正常 情况 下 ,对 应 于 组 ID 号 0, 只 定义 一 个 名 为 root 
的 组 (与 /etc/passwd 中 用 户 ID 为 0 的 记录 相近 )。 在 Linux 2.2 或 更 早 的 版 本 中 ， 组 
ID 为 16 位 值 ， 其 范围 为 0~65535; 而 自 Linux 2.4 以 后 的 版 本 则 以 32 位 值 来 存储 组 TD. 

e 用 户 列 表 : 属于 该 组 的 用 户 名 列表 ， 之 间 以 逗号 分 隔 。( 这 份 列表 包含 的 是 用 户 名 ， 
而 非 用 户 ID， 原 因 在 于 如 前 所 述 ， 在 密码 文件 的 各 条 记录 中 ， 用 户 ID 并 不 一 定 唯 一 。) 

为 了 证 明 用 户 avr 是 users、staff 以 及 teach 各 组 的 成 员 ， 应 能 从 密码 文件 中 查看 到 如 下 记录 : 


aVr:x:1001:100:Anthony Robins:/home/avr:/bin/bash 
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且 在 组 文件 中 应 有 如 下 记录 : 
users:x:100: 
staff:x:101:mtk,avr,martinl 
teach:x:104:avr,rlb,alc 


在 密码 文件 记录 的 第 4 个 字段 中 , 组 ID A 100, 这 说 明 avr 是 users 组 的 成 员 之 一 。 其 他 
属 组 关系 ， 则 见 诸 于 组 文件 内 包含 avr 的 各 条 相关 记录 。 


8.4 获取 用 户 和 组 的 信息 


本 市 所 要 介绍 的 库 函 数 ， 其 功能 包括 从 密码 文件 、shadow 密码 文件 和 组 文件 中 获取 单条 
记录 ， 以 及 扫描 上 述 各 个 文件 的 所 有 记录 。 


从 密码 文件 获取 记录 
函数 getpwnamO 和 getpwuid0 的 作用 是 从 密码 文件 中 获取 记录 。 














#include <pwd.h> 


struct passwd *getpwnam(const char *name); 
struct passwd *getpwuid(uid t uid); 


Doth return a pointer on success, or NULL on error; 
see main text for description of the "not found" case 








为 name ERNEK, getpwnamO KAN a BRAE TRIS AU PRE, 36 
中 包含 了 与 密码 记录 相对 应 的 信息 : 


struct passwd { 








char *pw name; /* Login name (username) */ 

char *pw passwd; /* Encrypted password */ 

uid t pw uid; /* User ID */ 

gid t pw gid; /* Group ID */ 

char *pw gecos; /* Comment (user information) */ 

char *pw dir; /* Initial working (home) directory */ 


char *pw shell; /* Login shell */ 
passwd 结构 的 pw. gecos 和 pw. passwd FRERE SUSv3 中 定义 ， 但 获得 了 所 有 UNIX 
实现 的 文 持 。 仅 当 未 局 用 shadow 25 83/1526 FP, pw. passwd 字段 才 会 包含 有 效 信息 。 要 确定 
是 否 启用 了 shadow 密码 ， 最 简单 的 编程 方法 是 在 成 功 调用 getpwnam(0 之 后 ， 紧 接着 调用 
getspnam()《〈 稍 后 介绍 )， 并 观 内 后 者 是 否 能 为 同一 用 户 名 返回 一 条 shadow 密 但 记录 。 霖 些 其 
他 实现 还 会 在 该 结构 中 定义 额外 的 非 标 准 字段 。 


























pw. gecos 字段 ， 其 命名 源 于 早期 的 UNIX 实现 ， 该 字段 所 含 信息 原 用 于 与 运行 GECOS 
(通用 电器 综合 操作 系统 ) 的 计算 机 进行 通信 。 虽 然 这 一 用 途 早 已 过 时 , 但 其 名 称 却 得 以 沿 
用 至 今 ， 只 是 将 字段 用 途 转 而 用 于 记录 用 户 的 相关 信息 。 


FE ZI. getpwuidO 的 返回 结果 与 getpwnamO 完 全 一 致 ， 但 会 使 用 提供 给 uid 参数 的 数值 型 用 
户 ID 作为 查询 条 件 。 
getpwnam() 和 getpwuid() 均 会 返回 一 个 指针 ， 指 问 一 个 静态 分 配 的 结构 。 对 此 二 者 (或 是 
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下 文 描述 的 getpwent0 函 数 ) 的 任何 一 次 调用 都 会 改写 该 数据 结构 。 


由 于 getpwnam() 和 getpwuid0O) 返 回 的 指针 指 问 由 静态 分 配 而 成 的 内 存 , 故而 二 者 都 是 不 
可 重 入 的 not reentrant)。 实 际 上 ， 人 情况 甚 全 要 更 加 复杂 ， 因 为 返回 的 passwd 结构 还 包含 
了 指 问 其 他 信息 (比如 ,pw_name) 的 指针 ， 而 这 些 信 息 同 样 也 是 由 静态 分 配 而 成 的 。21.1.2 
节 会 解释 可 重 入 (reentrancy) 概念 。 类 似 的 论断 同样 适用 于 getgrnam0 和 getgrgidOrG Zi: Cfr 
后 介绍 )。 

SUSv3 为 该 组 函数 定义 了 与 之 等 价 的 一 组 可 重 入 函数 : getpwnam_rO、getpwuid_rO、 
geternam r()EA& getgrgid TO0。 其 参数 包括 passwd (或 group). 结构 ， 以 及 一 个 绥 冲 区 。 这 
一 缓冲 区 专门 用 来 保存 passwd(group) 结 构 中 各 字段 所 指 回 的 其 他 结构 。 可 使 用 系统 函数 
sysconf(_SC_GETPW_R_SIZE_MAX)( 奉 为 与 组 相关 的 函数 ， 则 使 用 sysconf(_SC_GETGR_ 
R_SIZE_MAX))， 来 获得 此 缓冲 区 所 需 的 字 布 数 。 以 上 函数 的 详细 信息 请 奏 阅 手册 页 。 























SUSv3 规定 ， 如 果 在 passwd 文件 中 未 发 现 史 配 记 录 ， 那 么 getpwnam() 和 getpwuidO 将 返 
加 NULL， 且 不 会 改变 errno。 这 意味 者， 可 以 使 用 如 下 代码 ， 对 出 钳 和 “未 发 现 匹 配 记 录 ” 
这 两 种 情况 加 以 区 分 : 


struct passwd *pwd; 





errno - 0; 
pwd = getpwnam(name); 
if (pwd == NULL) { 
if (errno -- 0) 
/* Not found */; 
else 
/* Error */; 
j 


然而 , 不 少 UNIX 实现 在 这 一 点 上 并 未 遵守 SUSv3 规范 。 如 果 未 能 在 passwd 文件 中 发 现 
一 条 匹配 记录 ， 那 么 两 个 函数 均 会 返回 NULL， 并 将 errno 议 置 为 非 去 值 ， 比 如 ，ENOENT 或 
ESRCH。 针对 这 种 情况 , 2.7 版 本 之 前 的 glibc 会 产生 ENOENT 错误 , 而 从 2.7 版 本 开始 , glibc 
开始 遵守 SUSv3 规范 。 实 现 之 间 之 所 以 存在 上 述 差 异 ， 部 分 原因 是 由 于 POSIX.1-1990 不 但 不 
要 求 两 个 函数 在 出 错时 设置 ermo， 而 且 还 允许 它们 针对 “未 发 现 匹 配 记录 ”的 情况 去 设置 
errno。 总 而 言 之 ， 在 使 用 这 两 个 函数 时 ， 告 要 区 分 上 述 这 两 种 情况 (出 错 和 “未 发 现 匹 配 记 
录 ”)， 实 际 上 将 无 法 保证 代码 的 可 移植 性 。 


从 组 文件 获取 记录 
函数 getgrnam() 和 getgrgid0 的 作用 是 从 组 文件 中 获取 记录 ， 


























#include «grp.h» 


struct group *getgrnam(const char *name); 
struct group *getgrgid(gid t gid); 


Both return a pointer on success, or NULL on error; 
see main text for description of the "not found" case 











一 一 





函数 getgrmam() 和 getgrgid0 分 别 通 过 组 名 和 组 ID 来 租 找 属 组 信息 。 两 个 函数 都 会 返回 一 
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个 指针 ， 指 向 如 下 类 型 结构 : 
struct group { 


char *gr name; /* Group name */ 

char *gr passwd;  /* Encrypted password (if not password shadowing) */ 
gid t gr gid; /* Group ID */ 

char **gr mem; /* NULL-terminated array of pointers to names 


of members listed in /etc/group */ 
J 
SUSv3 并 未 就 group 结构 中 的 gr. passwd 字段 做 明确 定义 , 但 大 多 数 UNIX 实现 都 支持 
该 字段 。 
与 前 述 密码 相关 函数 一 样 ， 对 这 两 个 函数 的 任何 一 次 调用 都 会 改写 该 结构 的 内 容 。 
如 果 未 能 在 group 文件 中 发 现 匹配 记录 ， 那 么 这 两 个 函数 的 行为 变化 与 前 述 getpwnamO 
和 getpwuidO 函 数 相同 。 


程序 示例 


对 本 市 所 述 的 函数 来 说 ,最 党 见 的 用 法 之 一 是 在 符号 型 用 户 名 和 组 名 与 数值 型 ID 之 间 进 
行 相互 转换 。 程 序 清单 8-1 以 userNameFromId()、userIdFromName()、groupNameFrom1Id() LA 
及 groupIdFromName0O 这 4 个 函数 的 形式 ， 演 示 了 上 述 转换 。 为 方便 调用 ，userldFromName() 
和 groupIdFromName0 还 允许 name 参数 接受 〈 纯 ) 数值 的 字符 串 形式 。 对 于 这 种 情况 ， 会 直 
接 将 字符 串 转 换 为 数学 返回 给 调用 者 。 在 本 书后 面 的 一 些 程序 实例 中 ， 还 会 用 到 这 几 个 函数 。 


程序 清单 8-1: 在 用 户 名 /组 名 和 用 户 ID/28 ID 之 间 互 相 转 换 的 函数 


users groups/ugid functions.c 




















include «pwd.h» 
include «grp.h» 
include «ctype.h» 


&include "ugid functions.h" /* Declares functions defined here */ 

char * /* Return name corresponding to 'uid', or NULL on error */ 
userNameFromId(uid t uid) 

| 


struct passwd *pwd; 


pwd = getpwuid(uid); 
return (pwd -- NULL) ? NULL : pwd-»pw name; 


} 

uid t /* Return UID corresponding to 'name', or -1 on error */ 
userIdFromName(const char *name) 

{ 


struct passwd *pwd; 

uid t u; 

char *endptr; 

if (name == NULL || *name == '\o') /* On NULL or empty string */ 
return -1; /* return an error */ 


1 译 者 注 : 该 结构 也 是 由 静态 分 配 而 成 。 
2 译 者 注 : 换言之 ， 区 分 出 错 和 “未 发 现 匹 配 记录 ”情况 的 编程 手法 也 与 之 类 似 。 
3 WEE: Wü *123". 
第 8 章 用户 和 组 129 
异步 社区 会 员 flyman150(2410757683@qq.com) EF 尊重 版 权 


u = strtol(name, &endptr, 10); /* As a convenience to caller */ 
if (*endptr == 'N0') /* allow a numeric string */ 
return u; 


pwd = getpwnam(name); 
if (pwd == NULL) 
return -1; 


return pwd-»pw uid; 


j 


char * /* Return name corresponding to 'gid', or NULL on error */ 
groupNameFromId(gid t gid) 


struct group *grp; 


grp - getgrgid(gid); 
return (grp -- NULL) ? NULL : grp-»gr name; 
j 


gid t /* Return GID corresponding to 'name', or -1 on error */ 
groupIdFromName(const char *name) 


{ 
struct group *grp; 
gid t g; 
char *endptr; 


if (name == NULL || *name == '\o') /* On NULL or empty string */ 
return -1; /* return an error */ 


g = strtol(name, &endptr, 10); /* As a convenience to caller */ 
if (*endptr == 'N0') /* allow a numeric string */ 
return g; 
grp - getgrnam(name); 
if (grp == NULL) 
return -1; 


return grp-»gr gid; 


users groups/ugid functions.c 


扫 拍 密 码 文件 和 组 文件 中 的 所 有 记录 


函数 setpwent(. getpwentO/ I endpwentO 的 作用 是 按 顺 序 扫描 密码 文件 中 的 记录 。 








#include «pwd.h» 


struct passwd *getpwent(void); 


Returns pointer on success, or NULL on end of stream or error 


void setpwent(void); 
void endpwent(void); 








函数 getpwent0 能 够 从 密码 文件 中 逐条 返回 记录 ， 当 不 再 有 记录 (或 出 错 ) 时 ， 该 函数 
1 译 者 注 : 即 抵达 流 末端 时 。 
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返回 NULL。getpwent() 一 经 调用 ， 会 自动 打开 密码 文件 。 当 密码 文件 处 理 完毕 后 ， 可 调用 
endpwentO 将 其 关闭 。 
可 使 用 以 下 代码 过 历 整 个 密码 文件 ， 并 打印 出 登录 名 和 用 户 ID. 





struct passwd *pwd; 


while ((pwd = getpwent()) !- NULL) 
printf("4-8s %51d\n", pwd-»pw name, (long) pwd-»pw uid); 


endpwent(); 





如 果 需 要 让 后 续 的 getpwentO 调 用 (也 许 是 在 程序 的 其 他 代码 中 ， 也 许 是 在 所 调用 的 其 他 
库 函 数 中 , 该 函数 再 次 出 现 ) 再 次 打开 密码 文件 并 重启 扫 接 过程， 此 处 的 endpwentO ii H 39b 4^ 
不 可 少 。 此 外 ， 如 果 对 该 文件 处 理 到 中 途 时 ， 还 可 以 调用 setpwentO 函 数 重 返 文件 起 始 处 。 

PAZ getgrent()、setgrent() 和 endgrent() 针 对 组 文件 执行 类 似 的 任务 。 由 于 这 3 个 函数 
与 前 述 的 密码 文件 函数 功能 相似 ， 故 而 其 函数 原型 也 束 不 再 列 出 ， 详 细 信 息 请 参考 手册 页 。 


从 shadow 密码 文件 中 钓 取 记录 
下 列 函 数 的 作用 包括 从 shadow 密 但 文件 中 获取 个 别 记 录 ， 以 及 扫 摘 该 文件 中 的 所 有 记录 。 




















#include «shadow.h» 


struct spwd *getspnam(const char *name); 
Returns pointer on success, or NULL on not found or error 
struct spwd *getspent(void); 


Returns pointer on success, or NULL on end of stream or error 


void setspent(void); 
void endspent(void); 














由 于 上 述 函 数 在 操作 上 类 似 于 相应 的 密码 文件 函数 ， 故 而 此 处 对 它们 的 介绍 也 就 点 到 为 
止 。( 上 述 函 数 既 未 在 SUSv3 中 明确 定义 ， 也 未 获得 所 有 UNIX 实现 的 文 持 。) 
FK Zi, getspnam0 和 getspentO 会 返回 指 回 spwd 类 型 结构 的 指针 。 该 结构 的 形式 如 下 : 








struct spwd 1 
char *sp namp; /* Login name (username) */ 
char *sp pwdp; /* Encrypted password */ 


/* Remaining fields support "password aging", an optional 
feature that forces users to regularly change their 
passwords, so that even if an attacker manages to obtain 
a password, it will eventually cease to be usable. */ 


long sp lstchg; /* Time of last password change 

(days since 1 Jan 1970) */ 
long sp min; /* Min. number of days between password changes */ 
long sp max; /* Max. number of days before change required */ 
long sp warn; /* Number of days beforehand that user is 

warned of upcoming password expiration */ 
long sp inact; /* Number of days after expiration that account 


is considered inactive and locked */ 
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long sp expire; /* Date when account expires 
(days since 1 Jan 1970) */ 
unsigned long sp flag; /* Reserved for future use */ 


i5 
在 程序 清单 8-2 中 ， 将 会 演示 对 getspnam() 的 使 用 。 








8.5 客 码 加 密 和 用 户 认 证 


某 些 应 用 程序 会 要 求 用 户 对 目 有 身 进行 认证 ， 通 稼 会 采取 用 户 名 【登录 名 ) /密码 的 认证 方 
式 。 出 于 这 一 目的 ， 应 用 程序 可 能 会 维护 其 目 有 的 用 户 名 和 密 但 数据 库 。 然 而 ， 或 许 是 由 于 
势 所 必然 , 或 许 是 为 了 方便 起 见 ， 有 时 需要 让 用 户 输 入 标准 的 用 户 名 / 黎 人 码 〈 定 义 于 /etc/passwd 
和 /etc/shadow 之 中 )。( 丁 的 剩余 部 分 将 假定 系统 司 用 了 shadow 83, £533 25 AE TEES] f 
也 因此 存储 于 /etc/shadow 中 。) 需要 登录 到 远程 系统 的 网 络 应 用 程序 ， 诸 如 ssh 和 ftp, Wilk 
类 程序 的 典范 ， 必 须 按 标 准 的 login 程序 那样 ， 对 用 户 名 和 密码 加 以 验证 。 

由 于 安全 方面 的 原因 ，UNIX 系统 采用 单 问 加 密 算 法 对 密码 进行 加 密 ， 这 意味 看 由 密码 的 
加 密 形 式 将 无 法 还 原 出 原始 密码 。 因 此 ， 验 证 候选 密码 的 唯一 方法 是 使 用 同一 算法 对 其 进行 加 
密 ， 并 将 加 蜜 结果 与 存储 于 /etc/shadow 中 的 密码 进行 由 配 。 加 密 算法 封装 于 crypt0 函 数 之 中 。 
































#define XOPEN SOURCE 
#include «unistd.h» 


char *crypt(const char *key, const char *salt); 


Returns pointer to statically allocated string containing 
encrypted password on success, or NULL on error 











cryptO 算 法 会 接受 一 个 最 长 可 达 8 字符 的 密 钥 〈 即 密码 )， 并 施 之 以 数据 加 密 算 法 (DES 
的 一 种 变 体 。salt 参数 指 同 一 个 两 字符 的 字符 串 ， 用 来 扰动 〈 改 变 ) DES 得法 ， 设 计 该 扩 术 ， 
意 在 使 得 经 过 加 密 的 密码 更 加 难以 破解 。 访 函数 会 返回 一 个 指针 ， 指 问 长 度 为 13 个 字符 的 字 
伯 串 ， 该 字符 串 为 议 态 分 配 而 成 ， 内 容 即 为 经 过 加 密 处 理 的 密码 。 


























DES 的 详细 信息 请 参考 http://www.itl.nist.gov/fipspubs/fip46-2.htm。 如 前 所 述 ， 除 DES 
以 外 ， 也 可 以 使 用 其 他 的 加 密 算法 。 例如， 使 用 MD5 算法 可 以 生成 一 个 34 FIRFIR, 
其 首 子 从 为 美元 符 写 《$)， 这 便于 让 crypt0 将 DES 加 密 密 码 和 MD5 加 密 密 人 码 区 分 开 来 。 

在 关于 密码 加 密 的 讨论 中 ， 本 书 对 “加 密 ” 一 词 的 使 用 相对 宽松 。 确 切 说 来 ，DES 会 
以 给 定 的 密码 字符 串 作为 加 密 密 钥 ,编码 得 出 国定 位 长 的 学 符 串 ,而 MD5 则 是 一 种 复杂 的 
哈 希 图 数 。 以 上 两 种 方法 其 实 殊途同归 ， 对 输入 密码 的 加 密 变 换 既 不 可 逆 又 难以 破解 。 




















salt 参数 和 经 过 加 密 的 密码 ， 其 组 成 成 员 均 取 目 同一 字符 集合 ， 范 围 在 [a-zA-Z0-9/.] 之 间 ， 
共计 64 CEIF. Kk, ANFI salt 参数 可 使 加 密 算法 产生 4096 (64x64) 种 不 同 变化 。 
这 意味 腹 ， 了 预先 对 整 部 字典 进行 加 密 ， 再 以 其 中 的 每 个 单词 与 丝 过 加 和 密 处 理 的 密码 进行 比 对 
的 做 法 并 不 可 行 ， 和 破解 程序 需要 对 照 字 典 的 4096 种 加 密 版 本 来 检查 密码 。 

由 cryptO 所 返回 的 经 过 加 密 的 密码 中 ， 头 两 个 字符 是 对 原始 salt 值 的 拷贝 。 也 就 是 说 ， 加 























passwd(1) 这 样 的 程序 会 生成 一 个 随机 salt f.) 事实 上 ， 在 salt 字符 串 中 ， 只 有 前 两 个 字符 对 
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cryptO0 函 数 有 意义 。 因 此 ， 可 以 直接 将 已 加 密 密 码 指定 为 salt 参数 。 
要 想 在 Linux 中 使 用 cryptD0， 在 编译 程序 时 需 开 局 - lerypt 选项 ， 以 便 程 序 链接 crypt FE. 


程序 示例 


程序 清单 8-2 演示 了 如 何 使 用 cryptO 来 验证 用 户 。 访 程序 首先 恋 取 用 户 名 ,然后 会 获取 相 
应 的 密码 记录 以 及 (如 开局 了 shadow 密码 功能 ) shadow 密码 记录 。 奋 未 能 发 现 密码 记录 , 或 
程序 没有 权限 读 取 shadow 密码 文件 (需要 超级 用 户 权 限 ,或 具有 shadow 组 成 员 资格 )， 该 程 
序 会 打印 一 条 错误 消 恩 并 退出 。 接 下 来 ， 该 程序 会 使 用 getpass0 〇 函数 ， 读 取 用 户 密 人 码 。 
































#define BSD SOURCE 
#include «unistd.h» 


char *getpass(const char *prompt); 


Returns pointer to statically allocated input password string 
On Success, or NULL on error 











getpassQ PR Zt H 26 zx Brill iB e XJ] Be. HEER ARATE Cir P BIET. — Rx 
为 Control-C)。( 第 62 章 将 论述 如 何 更 改 这 些 终端 设置 。) 然后 ,该 函数 会 打印 出 prompt 所 指 
HFR, ERITMA, BREA NULL 结尾 的 输入 字符 串 《〈 和 剥离 尾部 的 换行 符 ) 作为 函 
数 结果 。( 该 字符 串 由 静态 分 配 而 成 ， 故 而 后 续 对 getpassO 的 调用 会 履 盖 其 原 有 内 容 。) 返回 结 
末 之 前 ，getpass0 会 将 终端 设 营 还 原 。 

使 用 getpass0 读 取 密 人 码 之 后 ， 程 序 清单 8-2 所 示 程 序 会 对 密码 进行 验证 一 一 使 用 cryptO 
MER, KHAR shadow 密 但 文件 中 经 过 加 密 的 密码 记录 进行 比 对 。 知 两 者 匹配 ， 则 最 
示 用 户 ID， 如 下 所 示 : 

$ su Need privilege to read shadow password file 

Password: 

# ./check password 

Username: mtk 


Password: We type in password, which is not echoed 
Successfully authenticated: UID-1000 





























程序 清单 8-2 中 ， 以 调用 sysconf( SC LOGIN NAME MAX) EMEN ATH 46 
TRERARZHBJAA. VAVOHISABUI SV SES EHI MAEBNUBBECKIKE. 0112 TETPR 
sysconfO 的 使 用 。 


程序 清单 8-2: 根据 shadow 密码 文件 验证 用 户 








users groups/check password.c 


itdefine BSD SOURCE /* Get getpass() declaration from «unistd.h» */ 
itdefine XOPEN SOURCE /* Get crypt() declaration from <unistd.h> */ 
include <unistd.h> 

include «limits.h» 

include «pwd.h» 

include «shadow.h» 

include "tlpi hdr.h" 


int 


main(int argc, char *argv[]) 


| 
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char *username, *password, *encrypted, *p; 

struct passwd *pwd; 

struct spwd *spwd; 

Boolean authOk; 

size t len; 

long lnmax; 

lnmax = sysconf( SC LOGIN NAME MAX); 

if (lnmax == -1) /* If limit is indeterminate */ 
lnmax = 256; /* make a guess */ 


username = malloc(lnmax); 
if (username -- NULL) 


errExit("malloc"); 


printf("Username: "); 


fflush(stdout); 
if (fgets(username, lnmax, stdin) == NULL) 
exit(EXIT FAILURE); /* Exit on EOF */ 
len = strlen(username); 
if (username[len - 1] == '\n') 
username[len - 1] = '\0'; /* Remove trailing '\n' */ 


pwd = getpwnam(username); 
if (pwd == NULL) 
fatal("couldn't get password record"); 
spwd - getspnam(username); 
if (spwd == NULL && errno == EACCES) 
fatal("no permission to read shadow password file"); 


if (spwd != NULL) /* If there is a shadow password record */ 
pwd->pw_passwd = spwd->sp_pwdp; /* Use the shadow password */ 


password = getpass("Password: "); 

/* Encrypt password and erase cleartext version immediately */ 
encrypted = crypt(password, pwd->pw_passwd); 

for (p = password; *p != '\0'; ) 


*p++ = '\O'; 


if (encrypted == NULL) 
errExit("crypt"); 


authOk = strcmp(encrypted, pwd-»pw passwd) == O; 
if (lauthOk) ( 


printf("Incorrect password An"); 
exit(EXIT FAILURE); 


j 


printf("Successfully authenticated: UID=%ld\n", (long) pwd-»pw uid); 
/* Now do authenticated work... */ 


exit(EXIT SUCCESS); 


users groups/check password.c 
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程序 清单 8-2 展示 了 一 个 安全 要 点 。 读 取 密 人 码 的 程序 应 立即 加 密 密 码 ,并 尽快 将 密码 的 明 
文 从 内 存 中 抹 去 。 只 有 这 样 ， 才 能 基本 杜绝 如 下 事件 的 发 生 : 和 恶意 之 徒 价 程 序 骨 尝 之 机 ， 读 
取 和 内核 转 储 文件 以 获取 密码 。 




















仍 有 可 能 采用 其 他 方法 上 曝光 未 经 加 密 的 密码 。 例 如 ， 如 采 包 含 密 但 的 虚拟 内 存 页 执行 
了 换 出 操作 ， 那 么 特权 级 程序 吏 能 交换 文件 中 读 取 密码 。 此 外 ， 拥 有 足够 权限 的 进程 可 通 
过 读 取 /dev/mem (虚拟 设备 之 一 , 将 计算 机 物理 内 存 表示 为 有 序 字 市 流 ), 来 尝试 发 现 密码 。 

SUSv2 将 getpassO 函 数 标 记 为 LEGACY， 并 特别 指出 该 函数 名 容易 产生 误导 ， 且 其 所 
提供 的 功能 无 论 在 何 种 情况 下 都 极 易 于 实现 。SUSv3 DE | getpass()， 但 在 大 多 数 UNIX 
SEHUP AKI TR EH TOSPEBUSCRE- 

















8.6 AR 


IUS -H 








每 个 用 户 都 有 一 个 唯一 的 用 户 名 和 一 个 与 之 对 应 的 数值 型 用 户 卫 。 用 户 可 以 隶属 于 一 个 
或 多 个 组 ， 每 个 组 都 有 一 个 唯一 的 名 称 和 一 个 与 乙 对 应 的 数字 标识 符 。 这 些 标识 符 的 主要 用 
途 在 于 确立 各 种 系统 资源 《〈 比 如 ， 文 件 ) 的 所 有 权 和 访问 这 些 资源 的 权限 。 

用 户 名 和 ID 在 /etc/passwd 文件 中 加 以 定义 ， 访 文件 也 包含 有 关 用 户 的 其 他 信息 。 用 户 的 
属 组 则 由 /etc/passwd 和 /etc/group 文件 中 的 相关 字段 来 定义 。 还 有 一 个 只 能 由 特权 级 进程 所 读 
取 的 文件 /etc/shadow， 其 作用 在 于 将 敏感 的 密码 信息 与 /etc/passwd 中 共用 的 用 户 信 息 分 离开 
来 。 系 统 还 提供 有 不 同 的 库 函 数 ， 用 于 从 上 述 各 个 文件 中 获取 信息 。 

cryptO PK ROU 2A 25 83 85] 75 3X ENTER login 程序 相同 ， 这 对 需要 认证 用 户 的 程序 来 说 极为 
有 用 。 





























8.7 练习 


8-1 ”执行 下 列 代码 时 ， 将 会 有 发现， 尽管 这 两 个 用 户 在 密码 文件 中 对 应 不 同 的 一 ， 但 该 
程序 的 输出 还 是 会 将 同一 个 数字 显示 两 次 。 请 问 为 什么 ? 


printf("%ld %ld\n", (long) (getpwnam("avr")-»pw uid), 
(long) (getpwnam("tsr")-»pw uid)); 


8-2 使 用 setpwentO、getpwentO0 和 endpwentO 来 实现 getpwnam(). 
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ME 
EH 


ut Tz "E WE 








每 个 进程 都 有 一 套用 数字 表示 的 用 户 ID CUID) 和 组 ID(GID)。 有 时 ， 也 将 这 些 ID 称 之 
为 进程 凭证 。 具 体 如 下 所 示 。 

e 实际 用 户 ID Creal user ID) 和 实际 组 ID Creal group ID). 

e ANH ID Ceffective user ID) 和 有 效 组 ID (effective group ID). 

e 保存 的 set-user-ID (saved set-user-ID) 和 保存 的 set-group-ID (saved set-group-ID )。 

e 文件 系统 用 户 ID Cfile-system user ID) 和 文件 系统 组 ID (file-system group ID) (Linux 

*UHO. 

。 辅助 组 ID. 

本 章 将 话 细 介 绍 这 些 进 程 ID 的 用 途 , 以 及 用 于 获取 和 修改 此 类 ID 的 系统 调用 和 库 孔 数 ， 
还 将 讨论 特权 级 进程 和 非特 权 进 程 的 概念 ， 并 阐述 了 设置 用 户 ID 和 设置 组 ID. 的 使 用 机 制 ， 
采用 该 机 制 押 创建 的 程序 可 以 以 特定 用 户 或 组 的 权限 运行 。 








9.1 实际 用 户 ID 和 实际 组 ID 


实际 用 户 ID 和 实际 组 ID 人 确定 了 进程 所 属 的 用 户 和 组 。 作 为 登录 过 程 的 步骤 之 一 ， 登 录 
shell 从 /etc/passwd 文件 中 读 取 相应 用 户 密 人 码 记 录 的 第 三 字段 和 第 四 字段 ， 置 为 其 实际 用 户 ID 
和 实际 组 ID (8.1 节 )。 当 创建 新 进程 (比如 ，shell 执行 一 程序 ) 时 ， 将 从 其 父 进程 中 继承 这 
些 ID。 














9.2 ”有效 用户 ID TUR SXZB ID 


在 大 多 数 UNIX KI (Linux 实现 略 有 差异 ， 具 体 参 见 9.5 节 的 说 明 ) 中 ， 当 进程 答 试 执 
行 各 种 操作 〈 即 系统 调用 〉 时， 将 结合 有 效用 尸 ID、 有 效 组 ID， 连 同 辅助 组 ID 一 起 来 确定 





1 译 者 注 : 即 标识 符 。 
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授予 进程 的 权限 。 例 如 ， 当 进程 访问 诸如 文件 、System V 进程 间 通 信 APC 对 象 乙 类 的 系统 
资源 时 ， 此 类 ID 会 决定 系统 授予 进程 的 权限 ， 而 这 些 资源 的 属 主 则 男 由 与 之 相关 的 用 户 ID 
和 组 ID 来 决定 。 如 20.5 市 所 述 ， 内 核 还 会 使 用 有 效用 户 ID 来 决定 一 个 进程 是 否 能 问 男 一 个 
进程 发 送信 号 。 

AHF ID 为 0 Croot WHP D) 的 进程 拥有 超级 用 户 的 所 有 权限 。 这 样 的 进程 又 称 为 
特权 级 进程 Cprivileged process)。 而 某 些 系统 调用 只 能 由 特权 级 进程 执行 。 














第 39 HER J Linux 实现 的 能 力 〈capability) 方案 ， 即 把 授予 给 超级 用 己 的 特权 划分 
为 在 干 不 同 单元 ， 且 能 独立 局 用 和 和 葵 用 这 些 单 元 。 








通常 ， 有 效用 户 ID 及 组 ID 与 其 相应 的 实际 ID 相等 ， 但 有 两 种 方法 能 够 致使 二 者 不 
其 


同 。 其 一 是 使 用 9.7 节 中 所 讨论 的 系统 调用 ， 其 二 是 执行 set-user-ID 和 set-group-ID 程序 。 


9.3 Set-User-ID 和 Set-Group-ID 程序 


set-user-ID 程序 会 将 进程 的 有 效用 户 ID 置 为 可 执行 文件 的 用 户 ID〈 属 主 )， 从 而 获得 常 
规 情况 下 并 不 具有 的 权限 。set-group-ID 程序 对 进程 有 效 组 ID 实现 类 似 任务 。( 术 语 set-user-ID 
程序 和 set-group-ID 程序 有 时 也 简称 为 set-UID 程序 和 set-GID 程序 。) 

与 其 他 文件 一 样 ， 可 执行 文件 的 用 户 ID 和 组 ID 决定 了 该 文件 的 所 有 权 。 另 外 ， 可 执行 
文件 还 拥有 两 个 特别 的 权限 位 set-user-ID 位 和 set-group-ID 位 。( 实 际 上 ， 任何 文件 都 是 如 此 ， 
但 此 处 只 关注 可 执行 文件 的 这 两 个 权限 位 。) 可 使 用 chmod 命令 来 设置 这 些 权 限 位 。 非 特权 用 
户 能 够 对 其 拥有 的 文件 进行 设置 ,而 特权 级 用 户 (CAP_FOWNER) 能 够 对 任何 文件 进行 设置 。 
例如 : 











$ su 

Password: 

# ls -l prog 

-IWXI-XI-X 1 root root 302585 Jun 26 15:05 prog 

# chmod u*s prog Turn on set-user-ID permission bit 
# chnod g+S prog Turn on set-aroup-ID permission bit 


1E aA ol rz. BA HI SEO AAAA RART HAEC GA EAS As. 24 EH 
s- 命令 查看 文件 权限 时 ， 如 果 为 程序 设置 了 setuser-ID 权限 位 和 set-group-ID 权限 位 ， 那么 
通常 用 来 表示 文件 可 执行 权限 的 x 标识 会 被 s 标识 所 替换 。 

# ls -l prog 

-IWSI-SI-X 1 root root 302585 Jun 26 15:05 prog 

当 运 行 set-user-ID 程序 〈 即 通过 调用 exec() 将 set-user-ID 程序 载 入 进程 的 内 存 中 ) 时 ， 内 
核 会 将 进程 的 有 效用 户 ID 设置 为 可 执行 文件 的 用 户 ID 。setrgroup-ID 程序 对 进程 有 效 组 ID 的 
操作 与 之 类 似 。 通 过 这 种 方法 修改 进程 的 有 效用 户 ID 或 者 组 ID， 能 够 使 进程 (换言之 ,执行 
该 程序 的 用 户 〉 获 得 常规 情况 下 所 不 具有 的 权限 。 例 如 ， 如 果 一 个 可 执行 文件 的 属 主 为 root 
(超级 用 户 )， 且 为 此 程序 设置 了 set-user-ID 权限 位 ， 那 么 当 运 行 该 程序 时 ， 进 程 会 取得 超级 
用 户 权限 。 

也 可 以 利用 程序 的 set-user-ID 和 set-group-ID 机 制 ， 将 进程 的 有 效 ID 修改 为 root 之 外 的 
其 他 用 户 。 例 如 ， 为 提供 对 一 个 受 保护 文件 (或 其 他 系统 资源 ) 的 访问 ， 采用 如 下 方案 就 绰 
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HAR: 创建 一 个 上 共有 对 该 文件 访问 权限 的 专用 用 户 “〈 组 ) ID， 然 后 再 创建 一 个 set-user-ID 
(set-group-ID). 程序 ， 将 进程 有 效用 户 A) ID 变更 为 这 个 专用 ID。 这 样 ， 无 需 拥 有 超级 用 
户 的 所 有 权限 ， 程 序 束 能 访问 该 文件 。 

有 时 会 使 用 术语 set-user-ID-root 来 表示 root 用 户 所 拥有 的 set-user-ID 程序 ， 以 示 与 由 其 
他 用 户 所 拥有 的 set-user-ID 程序 有 所 区 别 ， 后 者 仪 为 进程 提供 其 属 主 所 具有 的 权限 。 

















术语 privileged〈 特 权 级 ) 有 两 种 不 同 含义 ， 其 一 是 为 早期 定义 而 成 的 ， 有 效用 户 ID 
为 0 的 进程 ， 拥 有 root 用 户 的 所 有 特权 。 然 而 ， 当 set-user-ID 程序 的 属 主 并 非 root 用 户 时 ， 
进程 也 会 获得 set-user-ID 程序 属 主 的 特权 。 各 种 情况 下 术语 privileged 的 具体 含义 , 可 通过 
E 

出 于 38.3 节 所 给 出 的 理由 , Æ Linux 系统 中 ，set-user-ID 和 set-group-ID 权限 位 对 shell 
脚本 无 效 。 











Linux 系统 中 经 常 使 用 的 set-user-ID 程序 包括 : passwd(1)， 用 于 更 改 用 户 密码 ;mount(8%) 
和 umount(8)， 用 于 加 载 和 郝 载 文件 系统 ; su(1)， 人 允许 用 户 以 男 一 用 户 的 映 份 运行 shell. 
set-group-ID 程序 的 例子 之 一 为 wall(1)， 用 来 回 tty 组 下 辖 的 所 有 终端 (通常 情况 下 ， 所 有 终 
端 都 属于 该 组 ) 写 入 一 条 消息 。 

8.5 市 曾 特 别 指出 ， 程 序 清单 8-2 中 的 程序 需要 以 root 用 户 身 份 运行 ， 以 便 获 取 对 
/etc/shadow 文件 的 访问 权限 。 欲 使 该 程序 可 为 任 一 用 户 执行 ， 必 须 将 其 设置 为 set-user-ID-root 
程序 ， 如 下 所 示 : 








$ su 

Password: 

# chown root check password Make this program owned by root 
# chnod u+s check password With the set-user-ID bit enabled 


# ls -1 check password 
-IWSI-XI-X 1 root users 18150 Oct 28 10:49 check password 


# exit 

$ whoami This is an unprivileged login 

mtk 

$ ./check password But we can now access the shadow 
Username: avr password file using this program 
Password: 


Successfully authenticated: UID-1001 

set-user-ID/set-group-ID 技术 集 实 用 性 与 强大 的 功能 于 一 身 ， 但 一 旦 设计 人 欠 佳 也 可 能 造成 
安全 隐患 。 第 38 章 总 结 了 一 整套 恨 好 的 编程 习惯 ， 编 写 set-user-ID 和 set-group-ID 程序 时 应 
多 加 参考 。 


9.4 保存 set-user-ID 和 保存 set-group-ID 


设计 保存 set-user-ID (saved set-user-ID) 和 保存 set-group-ID (saved set-group-ID)， 意 在 与 
set-user-ID 和 set-group-ID 程序 结合 使 用 。 当 执行 程序 时 ， 将 会 〈 依 次 ) 发 生 如 下 事件 (在 诸 
多 事件 之 中 )。 

1. 在 可 执行 文件 的 set-user-ID (set-group-ID) 权 限 位 已 开局 ， 则 将 进程 的 有 效用 户 〈 组 ) ID 

置 为 可 执行 文件 的 属 主 。 背 未 设置 set-user-ID (set-group-ID) 权 限 位 ， 则 进程 的 有 效用 户 

(组 ) ID 将 保持 不 变 。 
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2. 保存 set-user-ID 和 保存 set-group-ID 的 值 由 对 应 的 有 效 ID 复制 而 来 。 无 论 正 在 执行 的 文 

件 是 否 设 置 了 set-user-ID 或 set-group-ID 权限 位 ， 这 一 复制 都 将 进行 。 

举例 说 明 上 述 操作 的 效果 , 假设 某 进 程 的 实际 用 户 ID、 有 效用 户 ID 和 保存 set-user-ID 25) 
为 1000， 当 其 执行 了 root HJ? OH ID 为 0) 拥有 的 set-user-ID 程序 后 ， 进 程 的 用 户 ID 将 
发 生 如 下 变化 : 

real-1000 effective-0 Saved=0 

有 不 少 系统 调用 , 允许 将 set-user-ID 程序 的 有 效用 户 ID 在 实际 用 户 ID 和 保存 set-user-ID 
之 间 切 换 。 针 对 set-group-ID 程序 对 其 进程 有 效 组 ID 的 修改 ， 也 有 与 之 相 类 似 的 系统 调用 来 
支持 。 如 此 一 来 , 对 于 与 执行 文件 用 户 (组 ) ID 相关 的 任何 权限 , 程序 能 够 随时 “ 收 放 自 如 ”。 
(换言之 ， 程 序 可 以 游 走 于 两 种 状态 之 间 : 具备 获取 特权 的 潜力 和 以 特权 进行 实际 操作 。) 正 
如 38.2 节 所 述 , 只 要 set-user-ID 程序 和 set-group-ID 程序 没有 执行 与 特权 级 ID ( 亦 即 实际 ID) 
相关 的 任何 操作 ， 吏 应 将 其 置 于 非特 权 《〈 即 实际 ) ID 的 号 份 之 下 ， 这 是 一 种 安全 的 编程 手法 。 


























有 时 也 将 保存 set-user-ID 和 保存 set-group-ID 称 之 为 保存 用 户 ID (saved user ID) 和 保 
存 组 ID (saved group ID). 

保存 设置 ID 由 System V 首创 ， 后 为 POSIX 所 采用 。4.4 之 前 的 BSD 版 本 不 提供 对 此 
特性 的 文 持 。 最 初 的 POSIX.1 标准 将 对 这 些 ID 的 文 持 列 为 可 选 , 但 之 后 的 版 本 ( 始 于 1988 
年 诞生 的 FIPS 151-1 标准 ) 则 强制 要 求 提 供 这 一 特性 。 








9.5 文件 系统 用 户 ID 和 组 ID 


在 Linux 系统 中 ， 要 进行 诸如 打开 文件 、 改 变 文件 属 主 、 修 改 文件 权限 之 类 的 文件 系统 操 
作 时 ， 决 定 其 操作 权限 的 是 文件 系统 用 户 ID 和 组 ID 〈 结 合 辅助 组 ID )， 而 非 有 效用 户 ID 和 组 
ID。( 和 其 他 UNIX 实现 一 样 ， 有 效用 户 ID 和 组 ID 仍 在 使 用 ， 其 用 途 在 前 面 章节 已 有 论述 。) 

W MUFRA D 和 组 ID 的 值 等 同 于 相应 的 有 效用 户 ID 和 组 ID. (因而 一 般 也 等 
同 于 相应 的 实际 用 户 ID 和 组 ID )。 此 外 ， 只 要 有 效用 户 或 组 ID 发 生 了 变化 ， 无 论 是 通过 系 
统 调用 ， 还 是 通过 执行 set-user-ID 或 者 set-group-ID 程序 ， 则 相应 的 文件 系统 ID 也 将 随 之 改 
变 为 同一 值 。 由 于 文件 系统 ID 对 有 效 ID 如 此 的 “ 亦 步 亦 趋 ” 这 意味 着 在 特权 和 权限 检查 方 
If], Linux 实际 上 跟 其 他 UNIX 实现 非常 类 似 。 只 有 当 使 用 Linux 特有 的 两 个 系统 调用 Csetfsuid() 
和 setfsgid()) 时 ， 才 可 以 刻意 制造 出 文件 系统 ID 与 相应 有 效 ID 的 不 同 ， 因 而 Linux 也 不 同 
于 其 他 的 UNIX 实现 。 

那么 ，Linux 为 什么 要 提供 文件 系统 ID 呢 ? 在 何 种 情况 下 ， 需 要 使 有 效 ID 有 别 于 文件 系 
Zt ID E? 这 主要 是 由 于 历史 诛 因 造成 的 。 文 件 系 统 ID 始 见于 Linux 1.2 版 本 。 在 该 版 本 的 内 
核 中 ， 如 果 进 程 某 甲 的 有 效用 户 ID 等 同 于 进程 某 乙 的 实际 用 户 ID 或 者 有 效用 户 ID， 那 么 发 送 
者 〈 某 甲 ) 就 可 以 向 目标 进程 GE ZO 发 送信 号 。 这 在 当时 影响 到 了 不 少 程序 ， 比如 Linux NFS 
《网 络 文件 系统 ) 服务 器 程序 ， 在 访问 文件 时 瓯 好 像 拥 有 看 相应 客户 进程 的 有 效 卫 。 然 而， 如 
果 NFS 服务 器 真 地 修改 了 自身 的 有 效用 户 ID， 面 对 非特 权 用 户 进程 的 信号 攻击 ， 又 将 不 堪 一 
击 。 为 了 防范 这 一 风险 , 文件 系统 用 户 ID 和 组 ID 应 运 而 生 。NES 服务 器 将 有 效 ID 保持 不 变 ， 
而 是 通过 修改 文件 系统 ID 伪装 成 另 一 用 户 ， 这 样 既 达 到 了 访问 文件 的 目的 ， 又 避免 了 遭受 信 




































































1 译 者 注 : 进程 。 
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号 攻击 。 

H AH 2.0 起 ，Linux 开始 在 信号 发 送 权限 方面 庆 循 SUSv3 所 强制 规定 的 规则 ， 且 这 些 规 
则 不 再 涉及 目标 进程 的 有 效用 户 ID (参考 20.5 节 )。 因 此 ， 从 严格 意义 上 来 讲 ， 保 留 文件 系 
统 ID 特性 已 无 必要 (如今 , 进程 可 以 根据 需要 , 审慎 而 明智 地 利用 本 章 稍 后 介绍 的 系统 调用 ， 
使 以 非特 权 值 对 有 效用 户 ID. 的 赋值 来 去 目 由 ， 以 实现 预期 结果 )， 但 为 了 与 现 有 软件 你 持 莱 
容 ， 这 一 功能 得 以 保留 了 下 来 。 

由 于 文件 系统 ID 实 属 卉 类 ,日 一 般 邦 等 同 于 相应 的 有 效 ID, 本 书后 续 部 分 在 述 及 各 种 文 
件 权 限 的 检查 ， 以 及 设置 新 文件 的 属 主 时 ， 通 利 将 根据 进程 有 效 ID 来 加 以 解释 。 即 使 是 出 于 
Linux 系统 的 目的 而 真 地 使 用 了 进程 的 文件 系统 ID， 但 在 实践 中 ， 这 些 标识 的 存在 与 否 并 不 
AK NE E AJ] o 


























9.6 辅助 组 ID 


辅助 组 ID Hl T EMUEEREPUS BST ER URB ZH. EREMO SCXEREAEAIUEOXUUS ID, XE 
shell 从 系统 组 文件 中 获取 其 辅助 的 组 ID。 如 前 所 述 ， 将 这 些 ID 与 有 效 ID. 以 及 文件 系统 ID 
相 结 合 ， 就 能 决定 对 文件 、System V IPC 对 象 和 其 他 系统 资源 的 访问 权限 。 


9.7 ”获取 和 修改 进程 途 证 


为 了 获取 和 变更 本 草 已 然 论 及 的 各 种 用 户 ID 和 组 ID, Linux 提供 了 一 系列 系统 调用 
血水 数 。SUSvV3 仅 对 这 些 API 中 的 部 分 做 了 规范 ， 余 下 部 分 中 ， 有 一 些 在 其 他 UNIX 
实现 中 得 以 广泛 应 用 ， 还 有 少量 是 Linux 所 特有 的 。 在 讨论 每 个 API 接口 时 ， 将 特别 指 
出 可 移植 性 方面 的 问题 。 在 本 章 结尾 处 ， 表 9-1 总 结 了 变更 进程 任 证 的 所 有 接口 操作 。 

可 以 利用 Linux 系统 特有 的 proc/PID/status 文件 ， 通 过 对 其 中 Uid、Gid 和 Groups 
各 行 信息 的 检 奋 ， 来 获取 任何 进程 的 赁 证， 这 与 下 面 即 将 介绍 的 系统 调用 有 有 弄 曲 同 工 之 
wb. Uid 和 Gid 各 行 ,， 按 实际 、 有 效 、 保 存 设置 和 文件 系统 ID 的 顺序 来 展示 相应 标识 符 。 

在 下 列 章 节 中 所 论 及 的 特权 级 进程 ， 其 定义 是 基于 传统 意义 上 的 ， 即 进程 的 有 效用 户 ID 
为 0。 然 而, 正如 第 39 ATIR, Linux 将 超级 用 户 权 限 划分 成 多 种 各 不 相同 的 能 力 Ccapability )。 
在 讨论 修改 用 户 ID 和 组 ID 的 所 有 系统 调用 时 ， 将 涉及 其 中 的 两 种 。 

e CAP SETUID 能 力 允 许 进程 任意 修改 其 用 户 ID. 

e CAP SETGID 能 力 允 许 进程 任意 修改 其 组 ID. 


9.7.1 获取 和 修改 实际 、 有 效 和 保存 设置 标识 

下 面 段 沙 将 接 述 用 于 获取 和 修改 实际 、 有 效 和 你 存 设置 ID 的 系统 调用 。 能 完成 这 些 任 务 
的 系统 调用 有 多 个 ， 有 时 彼此 间 的 功能 还 相互 重 登 ， 这 是 由 于 各 种 系统 调用 分 别 源 于 不 同 的 
UNIX 实现 。 
获取 实际 和 有 效 ID 

系统 调用 getuid() 和 getgid0 分 别 返 回调 用 进程 的 实际 用 户 ID 和 组 ID。 而 系统 调用 
geteuid() 和 getegid() 则 对 进程 的 有 效 ID. 实现 类 似 功能 。 对 这 些 系统 函数 的 调用 总 会 成 功 。 
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Hinclude <unistd.h> 


uid t getuid(void); 
Returns real user ID of calling process 

uid t geteuid(void); 
Returns effective user ID of calling process 

gid t getgid(void); 
Returns real group ID of calling process 

gid t getegid(void); 


Returns effective group ID of calling process 








修改 有 效 ID 





setuid0 系 统 调用 以 给 定 的 uid. 参数 值 来 修改 调用 进程 的 有 效用 户 ID， 也 可 能 修改 实际 用 


F ID 和 你 行 setruser-ID 。 系 统 调用 setgidO 则 对 相应 组 I 实现 了 类 似 功 能 。 





#include «unistd.h» 


int setuid(uid t uid); 
int setgid(gid t gid); 


Both return 0 on success, or -1 on error 








进程 使 用 setuid0 和 setgid0 系 统 调 用 能 对 其 插 证 做 哪些 修改 呢 ? 其 规则 取决 于 进程 是 合 


拥有 特权 《〈 即 有 效用 户 ID X 00. ÆHF setuidO 系 统 调用 的 规则 如 下 。 


1. 





当 非 特权 进程 调用 setuid0 时 ， 仅 能 修改 进程 的 有 效用 户 ID 。 而 且 ， 仅 能 将 有 效用 户 ID 
修改 成 相应 的 实际 用 户 ID 或 保存 set-user-ID。( 企 图 违反 此 约束 将 引发 EPERM 错误 。) 
这 意味 着 , 对 于 非特 权 用 户 而 言 , 仅 当 执行 set-user-ID 程序 时 , setuid0 系 统 调 用 才 起 作用 ， 
因为 在 执行 普通 程序 时 ， 进 程 的 实际 用 户 ID、 有 效用 户 ID 和 保存 set-user-ID 三 者 之 值 均 
相等 。 在 一 些 派生 上 自 BSD 的 实现 中 ， 非 特权 进程 对 setuid() 或 setgid0 的 调用 ， 其 语义 有 
别 于 与 其 他 UNIX 实现 : 系统 调用 会 修改 实际 、 有 效 和 保存 设置 ID 〈 将 其 改 为 当前 的 实 
Es EX Ax ID 值 )。 

当 特 权 进 程 以 一 个 非 0 参数 调用 setuid0 时 , HEHP D, 有 效用 户 ID 和 保存 set-user-ID 
均 被 置 为 uid 参数 所 指定 的 值 。 这 一 操作 是 单 回 的 ， 一 旦 特权 进程 以 此 方式 修改 了 其 ID, 
那么 所 有 特权 都 将 丢失 ， 且 之 后 也 不 能 再 使 用 setuid0 调 用 将 有 效用 户 ID ER 0. WR 
不 希望 发 生 这 种 情况 ， 请 使 用 稍 后 介绍 的 seteuid0 或 者 setreuid A Zt Ug H]2K &N setuidO. 
使 用 setgid() 系 统 调 用 修改 组 ID 的 规则 与 之 相 类 似 ， 仪 需要 把 setuid0 符 换 为 setgid()， 把 





























用 户 叔 换 为 组 。 因 之 ， 规 则 1 与 前 述 完全 一 致 ， 但 在 规则 2 中 ， 由 于 对 组 有 D 的 修改 不 会 引起 
进程 特权 的 丢失 《拥有 特权 与 否 由 有 效用 户 ID 决定 )， 特 权 级 程序 可 以 使 用 setgid0 对 组 ID 
进行 任意 修改 。 





对 set-user-ID-root 程序 〈 即 其 有 效用 户 ID 的 当前 值 为 0) 而 言 ， 以 不 可 逆 方 式 放 弃 进 程 








所 有 特权 的 首选 方法 是 使 用 下 面 的 系统 调用 (以 实际 用 户 ID 值 来 设置 有 效用 户 ID 和 保存 


set-user-ID ) 。 





if (setuid(getuid()) -- -1) 
errExit("setuid"); 


set-user-ID 程序 的 属 主 如 条 不 是 root 用 户 ， 可 使 用 setuid KAAP ID 在 实际 用 户 ID 
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和 保存 set-user-ID 之 间 来 回 切换 ， 其 理由 已 在 9.4 节 中 予以 阐述 。 然 而 ， 使 用 seteuid0 来 达成 
这 个 目的 则 更 为 可 取 ， 因 为 无 论 set-user-ID 程序 是 否 属 于 root 用 户 ，seteuid0 都 能 够 实现 同样 
的 功能 。 

进程 能 够 使 用 seteuid0 来 修改 其 有 效用 户 ID 〔〈 改 为 参数 euid 所 指定 的 值 )， 还 能 使 用 
setegid0 来 修改 其 有 效 组 ID 〈 改 为 参数 egid 所 指定 的 值 )。 

















#include <unistd.h> 


int seteuid(uid t euid); 
int setegid(gid_t egid); 


Both return 0 on success, or -1 on error 











进程 使 用 seteuid0 和 setegid() 来 修改 其 有 效 ID 时 ， 会 遵循 以 下 规则 。 
1. 非特 权 级 进程 仅 能 将 其 有 效 ID 修改 为 相应 的 实际 ID 或 者 保存 设置 ID 。( 换 言 之 ,对 非特 
权 级 进程 而 言 , 除 去 前 面 讨论 的 BSD 可 移植 性 问题 , seteuid0 和 setegid0 分 别 等 效 于 setuid0) 
和 setgid() 。) 
2. 特权 级 进程 能 够 将 其 有 效 ID 修改 为 任意 值 。 知 特权 进程 使 用 seteuid0 将 其 有 效用 户 ID 修 
改 为 非 0 值 ， 那 么 此 进程 将 不 再 具有 特权 《但 可 以 根据 规则 1 来 恢复 特权 )。 
对 于 需要 对 特权 “ 收 放 上 自如 ”的 set-user-ID 和 set-group-ID 程序 ， 更 推荐 使 用 seteuid()， 
示例 如 下 : 


euid = geteuid(); /* Save initial effective user ID (which 
is same as saved set-user-ID) */ 
if (seteuid(getuid()) == -1) /* Drop privileges */ 
errExit("seteuid"); 
if (seteuid(euid) == -1) /* Regain privileges */ 
errExit("seteuid"); 








WT BSD 系统 的 seteuid() 和 setegid()， 现 已 纳入 SUSv3 规范 ， 并 获得 大 多 数 UNIX 系 
统 实现 的 文 持 。 


在 GNU C 语言 闵 数 库 的 早期 版 本 中 (glibe 2.0 及 其 之 前 的 版 本 )， 将 seteuid(euid) 实 现 
为 setreuid(-1, euid)。 而 在 狐 版 的 glibc 库 中 ， 则 将 seteuid(euid) 实 现 为 setresuid(-1, euid, 
一 1)。( 稍 后 将 给 出 对 setreuid(). setresuid() K HKA ZAIRE.) 这 两 种 实现 都 允许 将 euid 
参数 值 指定 为 当前 有 效用 户 ID〈 即 保持 不 变 )。 然 而 ，SUSv3 并 未 对 seteuid0 的 这 个 行为 进 
行规 犯 ， 并 且 其 他 一 些 UNIX 实现 对 此 也 不 文 持 。 总 的 来 资 ， 这 种 潜在 的 差异 在 系统 实现 
间 并 不 明显 ， 因 为 在 通常 情况 下 ， 有 效用 户 ID 要 么 与 实际 用 户 ID 相同 ， 要 么 与 保存 
set-user-ID 相同 。( 要 想 使 有 效用 户 ID 与 二 者 均 不 相同 , 在 Linux 系统 中 唯一 的 办 法 是 采用 
非 标准 的 setresuid() 系 统 调 用 。) 

在 glibc 奋 的 所 有 有 版 本 (包括 最 独 版 本 ) 中 ， 是 以 setregid(-1，egid) 来 实现 setegid(egid) 
有 的。 如 同 seteuid0 一 样 ， 这 意味 痢 能 够 将 参数 egid 指定 为 当前 有 效 组 ID, 尽管 SUSv3 并 未 
规范 这 一 行为 。 还 有 一 层 舍 义 是 使 用 setegid0 时 ， 如 采 对 有 效 组 ID 信 的 设置 不 同 于 当前 的 
实际 组 ID， 那 么 还 将 改变 保存 set-group-ID. (类 似 结论 也 适用 于 早期 使 用 setreuid() 来 实现 
的 seteuid()。〉 同样 ，SUSv3 也 不 支持 这 一 行为 。 
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修改 实际 ID 和 有 效 ID 
setreuid0 系 统 调用 允许 调用 进程 独立 修改 其 实际 和 有 效用 户 ID。setregid() 系 统 调用 对 实 
际 和 有 效 组 ID 实现 了 类 似 功 能 。 








#include «unistd.h» 


int setreuid(uid t ruid, uid t euid); 
int setregid(gid t rgid, gid t egid); 





Both return 0 on success, or -1 on error 














这 两 个 系统 调用 的 第 一 个 参数 都 是 新 的 实际 也， 第 二 个 参数 都 是 新 的 有 效 ID 。 大 只 想 修 
改 其 中 的 一 个 也， 可 以 将 另外 一 个 参数 指定 为 -1。 

目前 ， 最 初 派生 目 BSD 的 setreuid() 和 setregid() 为 SUSv3 规范 所 接纳 ， 并 且 获 得 了 大 多 
数 UNIX 系统 的 文 持 。 

同 本 市 介绍 的 其 他 系统 调用 一 样 ， 使 用 setreuid0 和 setregid0 来 作出 变更 也 要 遵循 一 定 的 
规则 。 下 面 将 从 setreuid0) 的 视角 来 摘 述 这 些 规则 ， 除 非 男 有 说 明 ，setregid0O) 函 数 的 规则 也 与 
之 类 似 。 

1. 非特 权 进 程 只 能 将 其 实际 用 户 ID 设置 为 当前 实际 用 户 DE REDA) 或 有 效用 户 

ID 值 ， 且 只 能 将 有 效用 户 ID 设置 为 当前 实际 用 户 ID、 有 效用 户 DD〈 即 无 变化 ) 或 保存 


set-user-ID 。 














SUSv3 声称 ， 对 于 非特 权 进 程 是 否 能 使 用 setreuid0 将 其 实际 用 户 ID 修改 为 实际 用 户 
ID、 有 效用 户 ID 或 者 保存 set-user-ID 的 当前 值 ,规范 不 做 规定 。 至 于 真正 能 将 实际 用 户 ID 
修改 成 何 值 ， 这 随 UNIX 实现 的 不 同 而 不 同 。 

SUSv3 对 setregid0 的 规定 稍 有 不 同 ， 非 特权 进程 能 够 将 其 实际 组 ID 设置 为 保存 
set-group-ID 的 当前 值 , 或 者 将 其 有 效 组 ID 设置 为 实际 组 ID 或 保存 set-group-ID 的 当前 值 。 
但 真正 能 对 实际 组 ID 做 哪些 修 取 决 于 具体 的 UNIX 实现 。 




















2. 特权 级 进程 能 够 设置 其 实际 用 户 ID 和 有 效用 户 ID 为 任意 值 。 

3. 不管 进 程 拥 有 特权 与 否 ， 只 要 如 下 条 件 之 一 成 立 ， 就 能 将 保存 set-user-ID 设置 成 〈 新 的 ) 
有 效用 户 ID。 
a) ruid 不 为 -1《〈 即 设置 实际 用 户 ID， 即 便 是 置 为 当前 值 )。 
b) 对 有 效用 户 ID 所 设置 的 值 不 同 于 系统 调用 之 前 的 实际 用 户 ID. 
反 过 来 说 ， 如 果 进 程 使 用 setreuid0 仅 将 有 效用 户 ID 修改 为 实际 用 户 ID 的 当前 值 ， 那 么 
保存 set-user-ID 的 值 将 保持 不 变 , 并 且 后 续 可 调用 setreuid0《〈 或 seteuid0 ) 将 有 效用 户 ID 
恢复 为 保存 set-user-ID 的 值 。(Csetreuid0 和 setregid0 针 对 保存 设置 ID 的 这 一 效果 ，SUSv3 
未 做 规定 ， 但 已 被 SUSv4 纳入 规范 。) 
规则 3 为 set-user-ID 程序 提供 了 一 个 永久 放弃 特权 的 方法 ， 使 用 如 下 调用 : 


setreuid(getuid(), getuid()); 




















set-user-ID-root Zt fir za d4 HJ P f&ubRIZH REA EAER, WINE UH] setregid(), 
然后 再 调用 setreuid0。 一 旦 调用 顺序 颠倒 ， 那 么 调用 setregid0 将 会 失败 ， 因 为 调用 setreuid() 
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后 ， 程 序 将 不 再 具有 特权 。 若 使 用 setresuidO 8l setresgid) CEI FR) 来 实现 此 功能 ， 上 述 
描述 也 同样 适用 。 


直至 4.3BSD，BSD 发 行 版 都 不 支持 保存 set-user-ID 和 保存 set-group-ID 〈 如 今 已 为 
SUSv3 强制 要 求 支持 )。 相 反 ， 在 BSD 中 ，setreuid0 和 setregid0 人 允许 进程 通过 来 回 交 换 实 
bs ID MAN ID ok "Mr. JA RNA A SAARA RREN ETA Y OUR IU D 而 改 
变 实际 用 户 ID. 

















获取 实际 、 有 效 和 保存 设置 ID 

在 大 多 数 UNIX 实现 中 ， 进 程 不 能 直接 获取 【或 修改 ) 其 保存 setruser-ID 和 保存 
set-group-ID 的 值 。 然 而 ，Linux 提供 了 两 个 〈 非 标准 的 ) 系统 调用 来 实现 此 项 功能 : getresuid() 
和 getresgid(). 








#define GNU SOURCE 
#include «unistd.h» 


int getresuid(uid t *ruid, uid t *euid, uid t *suid); 
int getresgid(gid t *rgid, gid t *egid, gid t *sgid); 





Both return 0 on success, or -1 on error 





getresuid() 系 统 调 用 将 调用 进程 的 当前 实际 用 户 DD、 有 效用 户 ID 和 保存 set-user-ID 值 返 
HERE 3 个 参数 所 指定 的 位 置 。getresgid0O) 系 统 调 用 针对 相应 的 组 ID 实现 了 类 似 功能 。 
修改 实际 、 有 效 和 保存 设置 ID 

setresuid() 系 统 调用 允许 调用 进程 独立 修改 其 3 个 用 户 ID 的 值 。 每 个 用 户 ID 的 新 值 由 系 
统 调用 的 3 个 参数 给 定 。setresgid0 系 统 调 用 对 相应 的 组 ID 实现 了 类 似 功 能 。 





#define GNU SOURCE 
#include <unistd.h> 


int setresuid(uid t ruid, uid t euid, uid t suid); 
int setresgid(gid_t rgid, gid_t egid, gid_t sgid); 


Both return 0 on success, or -1 on error 














右 不 想 同 时 修改 这 些 站 ， 则 需 将 无 意 修 改 的 ID 参数 值 指定 为 -1。 例 如 ， 下 列 调 用 等 同 于 
seteuid(x) 调 用 : 


setresuid(-1, x, -1); 


AT setresuid() 可 做 何 种 修改 的 规则 (setresgid() 与 之 类 似 ) 如 下 上 所 示 。 

1. 非特 权 进 程 能 够 将 实际 用 户 ID、 有 效用 户 ID 和 保存 set-user-ID 中 的 任 一 ID 设置 为 实际 
HPF DD、 有 效用 户 ID 或 保存 set-user-ID 之 中 的 任 一 当前 值 。 

. 特权 级 进程 能 够 对 其 实际 用 户 ID、 有 效用 户 ID 和 保存 set-user-ID 做 任意 设置 。 

3. 不 管 系 统 调用 是 否 对 其 他 ID 做 了 任何 改动 ， 总 是 将 文件 系统 用 户 ID 设置 为 与 有 效用 户 
ID《〈 可 能 是 新 什 ) 相同。 
setresuid() 和 setresgid() 调 用 上 其 有 0/1 效应 ， 即 对 ID 的 修改 请 求 要 么 全 都 成 功 ， 要 么 全 部 

失败 。( 这 也 适用 于 本 革 所 述 其 他 修改 多 个 D 的 系统 调用 。) 
虽然 setresuid0 和 setresgid0 为 修改 进程 凭证 提供 了 最 为 直接 的 API, 但 在 应 用 程序 中 采用 
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这 些 调用 会 寓 来 可 移植 性 问题 。SUSv3 规范 并 未 包括 这 些 调 用 ， 且 其 他 UNIX 实现 对 其 也 鲜 
有 支持 。 
9.7.2 ”获取 和 修改 文件 系统 ID 


前 述 所 有 修改 进程 有 效用 户 ID 或 组 ID 的 系统 调用 总 是 会 修改 相应 的 文件 系统 ID。 要 想 
独立 于 有 效 ID 而 修改 文件 系统 ID， 必须 使 用 Linux 特有 的 系统 调用 : setfsuid() 和 setfsgid(). 





#include «sys/fsuid.h» 


int setfsuid(uid t fsuid); 
Always returns the previous file-system user ID 


int setfsgid(gid t fsgid); 


Always returns the previous file-system group ID 








setfsuid() 系 统 调用 将 进程 文件 系统 用 户 ID 修改 为 参数 fsuid 所 指定 的 值 。setfsgid0 系 统 调 
用 将 文件 系统 组 ID 修改 为 参数 fsgid 所 指定 的 值 。 

同样 ， 此 类 变更 也 存在 一 些 规 则 。setfsgid() 的 规则 类 似 于 setfsuid0， 下 面 以 setfsuid() 
为 例 。 
1. 非特 权 进 程 能 够 将 文件 系统 用 户 ID 设置 为 实际 用 户 DD、 有效 用户 ID、 文 件 系统 用 户 ID 

( 即 保持 不 变 ) 或 保存 set-user-ID 的 当前 值 。 
2. 特权 级 进程 能 够 将 文件 系统 用 户 ID 设置 为 任意 值 。 

这 些 系统 调用 的 实现 存在 一 些 瑕 间 。 首 先 ， 没 有 相应 的 系统 调用 来 获取 当前 的 文件 系统 
ID。 另 外 ， 这 些 系统 调用 根本 不 做 错误 检查 。 一 旦 非特 权 进 程 试 图 将 文件 系统 ID 设置 为 一 个 
非法 值 ， 这 一 不 轨 企 图 也 只 是 被 静默 地 忽略 掉 。 无 论 这 些 调用 成 功 与 否 ， 其 返回 值 都 是 之 前 
相关 文件 系统 的 了 。 因 此 ,这 确实 也 是 一 种 获得 当前 文件 系统 ID 的 方法 , 但 却 只 能 是 在 尝试 
修改 这 些 值 〈 不 管 是 否 成 功 ) 的 同时 进行 。 

在 Linux 系统 中 ， 使 用 setfsuid0 和 setfsgidO0 系 统 调 用 已 不 是 必要 的 ， 知 需要 将 应 用 程序 
移植 到 其 他 UNIX 实现 上 ， 则 应 在 设计 时 避免 使 用 这 两 个 调用 。 


9.7.8 获取 和 修改 辅助 组 ID 
getgroups() 系 统 调用 会 将 当前 进程 所 属 组 的 集合 返回 至 由 参数 grouplist 指向 的 数组 中 。 





















































#include «unistd.h» 


int getgroups(int gidsetsize, gid t grouplist[ ]); 





Returns number of group IDs placed in grouplist on success, or -1 on error 





像 大 多 数 UNIX 实现 一 样 ，Linux 中 的 getgroupsO 仅 返回 调用 进程 的 辅助 组 ID 。 然 而 ， 
SUSv3 规范 还 允许 UNIX 实现 在 返回 的 grouplist 中 包含 调用 进程 的 有 效 组 ID。 

调用 程序 必须 负责 为 grouplist 数组 分 配 存 储 空 间 ， 并 在 gidsetsize 参数 中 指定 其 长 上 度 。 奉 
调用 成 功 ，getgroups() 会 返回 置 于 grouplist 中 的 组 ID 数量 。 

若 进程 属 组 的 数量 超出 gidsetsize， 则 getgroupsO 将 返回 错误 (错误 号 为 EINVAL)。 为 了 避 
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免 发 生 这 种 情况 ,可 将 grouplist 数组 的 大 小 调整 为 常量 NGROUPS_MAX+1( 考 虑 到 可 移植 性 ， 
数组 中 可 能 包含 了 有 效 组 ID)， 该 常量 (定义 于 <limits.h> 文 件 中 ) 定义 了 进程 属 组 的 最 大 数 
量 。 因 此 ， 可 声明 grouplist 如 下 : 








gid t grouplist[NGROUPS MAX + 1]; 


在 Linux 内 核 版 本 2.6.4 Z Bj, NGROUPS MAX 的 值 为 32。 始 于 内 核 版 本 2.64, 
NGROUPS MAX 的 值 为 65536。 


应 用 程序 要 在 运行 时 获取 NGROUPS_MAX 的 上 限 ， 还 可 使 用 如 下 方法 。 

e 调用 sysconf( SC NGROUPS MAX). (11.2 市 解释 了 sysconfO 的 用 法 。) 

e 从 Linux 特 有 的 /proc/sys/kernel/ngroups_max 只 读 文 件 中 读 取 该 限制 ,系统 从 内 核 2.6.4 

开始 提供 该 文件 。 

除 此 之 外 ， 应 用 程序 还 能 在 调用 getgroupsO 时 将 gidtsetsize 参数 指定 为 0。 这 样 一 来 ， 
grouplist 数组 未 作 修 改 ， 但 调用 的 返回 值 却 给 出 了 进程 属 组 的 数量 。 

通过 上 述 任意 一 种 运行 时 技术 所 获取 的 NGROUPS_MAX 值 , 可 用 于 为 后 续 的 getgroups() 
调用 动态 分 配 grouplist 数组 。 

特权 级 进程 能 够 使 用 setgroups 〇 〇 和 initgroups() 来 修改 其 辅助 组 ID 集合 。 




















#define BSD SOURCE 
#include «grp.h» 


int setgroups(size t gidsetsize, const gid t *erouplist); 
int initgroups(const char *user, gid t group); 


Both return 0 on success, or -1 on error 








setgroups() 系 统 调用 用 grouplist 数组 所 指定 的 集合 来 奉 换 调用 进程 的 辅助 组 ID 。 参 数 
gidsetsize 指定 了 置 于 参数 grouplist 数组 中 的 组 ID 数量 。 

initgroupsO 函 数 将 扫 摘 /etc/groups 文件 ， 为 user 创建 属 组 列表 ， 以 此 来 初始 化 调用 进程 
的 辅助 组 也。 画 外 ， 也 会 将 参数 group 指定 的 组 ID 退 加 到 进程 辅助 组 ID 的 集合 

initgroups0) 疯 数 的 主要 用 户 是 创建 登录 会 话 的 程序 一 一 例如 login(1)， 在 用 户 调 用 登录 
shell 之 前 ， 为 进程 设置 各 种 属性 。 此 类 程序 一 般 通 过 读 取 密码 文件 中 用 户 记 录 的 组 属性 来 获 
取 参 数 group 的 值 。 这 稍微 有 点 令 人 费解 ， 因 为 密码 文件 中 的 组 ID. 实际 并 非 辅 助 组 ID， 而 是 
定义 了 登录 shell 初始 的 实际 组 ID、 有效 组 ID 和 保存 set-group-ID。 尽 管 如 此 ， 这 却 是 initgroups() 
国 数 的 弟 用 使 用 方式 。 

虽然 未 纳入 SUSv3，setgroups() 和 和 initgroups() 却 获得 了 所 有 UNIX 实现 的 支持 。 


9.7.4 修改 进程 元 证 的 系统 调用 总 结 


K 9-1 对 修改 进程 凭证 的 各 种 系统 调用 及 库 函 数 的 效果 进行 了 总 结 。 
图 9-1 提供 了 表 9-1 中 信息 的 概括 图 示 。 本 图 内 容 古 从 修改 用 户 ID 的 角度 加 以 展示 的 ， 
但 修改 组 ID 的 规则 与 之 类 似 。 
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实际 用 户 ID 有 效用 户 ID 保存 
set-user-ID 
= 一 一 一 -各 仅 对 特权 级 进程 有 效 ifr /= -1 或 e = 之 前 的 实际 用 户 ID， 
对 所 有 进程 有 效 ; Y, 6, 5, Jb A. 保存 set-user-ID 


Eo Je Eck Ja 
一 一 一 = 指出 了 针对 非特 权 进 程 所 多 许 的 修改 范围 


9-1: 赁 证 修改 阔 数 对 进程 用 户 ID 的 效果 


表 9-1: 修改 进程 凭证 的 接口 一 览 


setuid(u) 将 有 效 ID 修改 为 当前 实际 ID 
setgid(g) 或 保存 设置 ID 


目的 和 效果 应 用 于 


可 移植 性 
非特 权 进 程 特权 级 进程 


将 实际 ID. AX ID 和 | 获得 SUSv3 规范 的 支 
保存 设置 ID 修改 为 任 | Ej, 1E BSD 的 派生 系 
何 飞 二 个 六 48 统 具 有 不 同 语义 








seteuid(e) 将 有 效 ID 修改 为 当前 的 实际 或 m m 
tir E 7% J 任意 得 lll d 
setegid(e) 保存 设置 ID 修改 有 效 ID 为 任意 值 “| 获得 SUSv3 规范 支持 


setreuid(r, e) 实际 ID 或 有 效 ID 值 ， 将 有 效 | Co 将 实际 ID 和 有 


setregid(r, e) ID 修改 为 当前 实际 ID、 有效 ID | 2 ID 修改 为 任意 值 
或 保存 设置 ID 


setresuid(r, e, s) 


A 将 实 丰 ID P ^ =i +- A -H 
Chro 将 实际 1 改 为 当前 获得 SUSv3 规范 支持 ， 


但 操作 随 系统 实现 不 
同 而 不 同 


(独立 ) 将 实际 ID、 有 效 ID 和 | (独立 ) 将 实际 D, A | 未 获 SUSv3 规范 支持 ， 
保存 设置 ID 修改 为 当前 实际 | 效 ID 和 保存 设置 ID 修 | 并 且 鲜 见于 其 他 UNIX 


vues e s | ID、 有 效 人 D 或 保存 设置 ID | 改 为 任意 值 实现 


setfsuid(u) 
setfsgid(u) 


将 文件 系统 ID 修改 为 当前 实际 
ID、 有 效 ID、 文 件 系 统 ID 或 者 
保存 设置 ID 


将 文件 系统 ID 修改 为 


(ER Linux 系统 所 特有 


未 见 诸 于 SUSv3 规范 ， 








setgroups(n, 1) | 非特 权 进 程 无 法 调用 设置 辅助 组 ID 为 任意 值 | 但 获得 所 有 UNIX 实现 





的 文 持 


补充 说 明 表 9-1 中 的 信息 。 


glibc 库 对 seteuidO(setresuid(-1]，e， 一 1)) 和 setegid()(setregid (1，e，-1)) 函 数 的 实现 方式 允 
许 将 有 效 DD RANAN ID 的 当前 值 ， 但 SUSv3 对 此 未 作 规 范 。 此 外 ， 知 将 有 效 组 ID w 
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置 为 当前 实际 组 ID 之 外 的 值 ， 那 么 setegid0 的 函数 实现 还 会 修改 保存 设置 组 ID。( 对 于 
setegid0 实 现 这 一 修改 保存 set-group-ID 的 行为 ，SUSv3 也 未 作 规 范 。) 

e 针对 特权 级 进程 和 非特 权 进 程 调用 setreuid0 和 setregidO 的 情况 ,车 的 值 不 等 于 -1, 或 
者 e 的 值 有 别 于 函数 调用 前 的 实际 ID, 则 将 保存 set-user-ID 或 保存 set-group-ID 设置 为 
HD AMID. Csetreuid() 5l setregidO0 函 数 对 保存 设置 ID 的 修改 未 获 SUSv3 文 持 。) 

e 只 要 修改 了 有 效用 户 ( 组 ) ID， 束 会 将 Linux 特有 的 文件 系统 用 户 〈 组 ) ID 也 修改 为 
相同 值 。 

e 不 管 有 效用 户 ID 是 否 改变 ,setresuid0 系 统 调 用 总 是 把 文件 系统 用 户 ID 修改 为 有 效用 
P ID, setresgid0 系 统 调用 对 文件 系统 组 ID 的 效力 与 之 类 似 。 











9.7.5 “示例 : 显示 进程 凭证 





程序 清单 9-1 中 的 程序 使 用 前 述 系 统 调用 和 库 函 数 来 获取 进程 的 所 有 用 户 ID 和 组 ID, 并 


显示 出 来 。 


程序 清单 9-1: 显示 进程 的 所 有 用 户 ID 和 组 ID 


148 


proccred/idshow.c 


#define GNU SOURCE 

#include <unistd.h> 

#include «sys/fsuid.h» 

#include «limits.h» 

#include "ugid functions.h" /* userNameFromId() & groupNameFromId() */ 
#include "tlpi hdr.h" 


#define SG SIZE (NGROUPS MAX + 1) 


int 
main(int argc, char *argv[]) 


uid t ruid, euid, suid, fsuid; 
gid t rgid, egid, sgid, fsgid; 
gid t suppGroups[SG SIZE]; 

int numGroups, j; 

char *p; 


if (getresuid(8ruid, &euid, &suid) == -1) 
errExit("getresuid"); 

if (getresgid(8rgid, &egid, &sgid) == -1) 
errExit("getresgid"); 


/* Attempts to change the file-system IDs are always ignored 
for unprivileged processes, but even so, the following 
calls return the current file-system IDs */ 


fsuid 
fsgid 


- setfsuid(0); 

= setfsgid(0); 

printf("UID: "); 

p = userNameFromId(ruid); 

printf("real=%s (%ld); ", (p == NULL) ? "???" : p, (long) ruid); 
p = userNameFromId(euid); 

printf("eff-Xs (1d); ", (p == NULL) ? "???" : p, (long) euid); 

p = userNameFromId(suid); 

printf("saved-Xs (41d); ", (p == NULL) ? "???" : p, (long) suid); 
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p = userNameFromId(fsuid); 
printf("fs=%s (Ald); ", (p == NULL) ? "???" : p, (long) fsuid); 
printf("Nn"); 


printf("GID: "); 
p = groupNameFromId(rgid); 
printf("real-Xs (91d); ", (p == NULL) ? "???" : p, (long) rgid); 


p = groupNameFromId(egid); 

printf('eff-s (%ld); ", (p == NULL) ? "???" : p, (long) egid); 

p = groupNameFromId(sgid); 

printf("saved-Xs (1d); ", (p == NULL) ? "???" : p, (long) sgid); 
p = groupNameFromId(fsgid); 

printf("fs=%s (%ld); ", (p == NULL) ? "???" : p, (long) fsgid); 
printf("Nn"); 


numGroups - getgroups(SG SIZE, suppGroups); 
if (numGroups == -1) 
errExit("getgroups"); 


printf("Supplementary groups (4d): ", numGroups); 
for (j = 0; j < numGroups; j++) { 
p = groupNameFromId(suppGroups[j]); 
printf("Xs (1d) ", (p == NULL) ? "???" : p, (long) suppGroups[j]); 


} 
printf("\n"); 
exit(EXIT SUCCESS); 


proccred/idshow.c 


9.8 总结 


每 个 进程 都 有 一 干 与 之 相关 的 用 户 ID 和 组 ID Ceu. Scl ID 定义 了 进程 所 属 。 在 大 
多 数 的 UNIX 实现 中 ， 进 程 对 诸如 文件 之 类 资源 的 访问 ， 其 许可 权限 由 有 效 ID 决定 。 然 而 ， 
Linux 会 使 用 文件 系统 ID 来 决定 对 文件 的 访问 权限 ， 而 将 有 效 ID 用 于 检查 其 他 权限 。( 因 为 
文件 系统 ID 一 般 等 同 于 相应 的 有 效 ID, 所 以 Linux 对 文件 权限 的 检查 方式 与 其 他 UNIX 实现 
相同 。) 进程 辅助 组 ID 则 是 出 于 权限 检查 目的 而 另行 设立 的 进程 属 组 集合 。 存 在 各 种 系统 调 
用 和 库 函 数 文 持 进 程 获 取 和 修改 其 用 户 ID 和 组 ID. 

set-user-ID 程序 运行 时 ， 会 将 进程 有 效用 户 ID 置 为 文件 属 主 的 用 户 ID。 运 行 某 个 特殊 程 
序 时 ， 这 种 机 制 文 持 用 户 “ 假 借 ” 其 他 用 户 的 身份 和 特权 。 相 应 的 ，set-group-ID 程序 会 修改 
运行 该 程序 的 进程 的 有 效 组 ID 。 保 存 set-user-ID 和 保存 setgroup-ID 允许 set-user-ID 和 
set-group-ID 程序 临时 性 地 放弃 特权 ， 并 在 之 后 恢复 特权 。 

0 ÆHF ID 中 可 谓 里 尔 不 群 。 通 单 仅 为 一 个 名 为 root 的 账号 上 所有。 有 效用 户 ID 为 0 的 
进程 属 特权 级 进程 。 换 言 之 ， 对 于 进程 发 起 的 各 种 系统 调用 ， 可 人 免 于 接受 通常 所 要 历经 的 庄 
多 权限 检查 《〈 比 如 那些 能 够 随意 修改 进程 各 种 用 户 ID 和 组 ID 的 调用 )。 












































1 HE: 即 属 主 和 属 组 。 
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9.9 >Ja 


9-1. 在 下 列 每 种 情况 中 ,假设 进程 用 户 ID 的 初始 值 分 别 为 real (实际 ) 71000, effective 
(有 效 ) =0, saved (保存 )=0、file-system (文件 系统 ) =0。 当 执行 这 些 调用 后 ， 
用 户 ID 的 状态 如 何 ? 
a) setuid( 2000); 
b) setreuid(—1, 2000); 
C) seteuid(2000); 
d) setfsuid(2000); 
€) setresuid(—-1, 2000, 3000); 
9-2. ”拥有 如 下 用 户 ID WAEA RNU? 请 了 予 解释 。 
real-0 effective-1000 saved-1000 file-system-1000 
9-3. ”使 用 setgroups0 〇 及 库 函 数 从 密码 文件 、 组 文件 (参见 SA 节 ) 中 获取 信息 ， 以 实现 
initgroupsO。 请 注意 ， 欲 调用 setgroups()， 进 程 必 须 至 有 特权 。 
real=0 effective=1000 saved=1000 file-system=1000 


9-4. BERERA HP ENRI X, Hír THF ID X Y 的 set-user-ID 程序 ， 且 YY 
为 非 0 什 ， 对 进程 凭证 的 设置 如 下 : 
real-X effective-Y saved-Y 
(这 里 忽略 了 文件 系统 用 户 ID， 因 为 该 ID 随 有 效用 户 ID 的 变化 而 变化 。) 为 
执行 如 下 操作 ， 请 分 别 列 出 对 setuid()、seteuid()、setreuid() 和 setresuid() 的 调用 。 
a) HEMKE setuser-ID 吴 份 “即将 有 效用 户 ID 在 实际 用 户 ID 和 保存 
set-user-ID 间 切 换 )。 
b) 永久 放弃 set-user-ID 身份 ( 即 确保 将 有 效用 户 ID 和 保存 set-user-ID 设置 
为 实际 用 户 ID)。 
(该 练习 还 需要 使 用 getuidO 和 geteuid0) 尔 数 来 获取 进程 的 实际 用 户 ID 和 有 效用 
P ID.) 请 注意 ， 鉴 于 上 述 列 出 的 茶 些 系统 调用 ， 部 分 操作 将 无 法 实现 。 
9-5. ”针对 执行 set-user-ID-root 程序 的 进程 ， 重 复 上 述 练 习 ， 进 程 赁 证 的 初始 值 如 下 : 


real-X effective=0 saved=0 
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程序 可 能 会 关注 两 种 时 间 类 型 。 
e 真实 时 间 : 度量 这 一 时 间 的 起 点 有 二 : 一 为 某 个 标准 点 ; 二 为 进程 生命 周期 内 的 茶 
个 固定 时 点 (通常 为 程序 启动 );。 前 者 为 日 历 (calendar) 时 间 ， 适 用 于 需要 对 数据 
库 记 录 或 文件 打上 时 间 惟 的 程序 ， 后 者 则 称 之 为 流 渤 (elapsed) 时 间或 挂钟 (wall 
clock) 时 间 ， 主 要 针对 需要 周期 性 操作 或 定期 从 外 部 输入 设备 进行 度量 的 程序 。 
e 进程 时 间 : 一 个 进程 所 使 用 的 CPU 时 间 总 量 ， 适 用 于 对 程序 、 算 法 性 能 的 检查 或 优化 。 
大 多 数 计 算 机 体系 结构 都 内 置 有 便 件 时 钟 ， 使 内 核 得 以 计算 真实 时 间 和 进程 时 间 。 本 章 
将 介绍 系统 调用 对 这 两 种 时 间 的 处 理 ， 以 及 在 可 读 时 间 和 机 器 时 间 之 间 吾 相 转 换 的 库 函 数 \。 
由 于 可 读 时 间 的 表现 形式 与 地 理 位 置 、 语 言 和 文化 习俗 有 关 ， 讨 论 这 一 话题 自然 引出 对 时 区 
和 地 区 的 研究 。 


























10.1 日 历时 间 (Calendar Time) 


无 论 地 理 位置 如 何 , UNIX 系统 内 部 对 时 间 的 表示 方式 均 是 以 自 Epoch 以 来 的 秒 数 来 度量 
的 ，Epoch 亦 即 通用 协调 时 间 (UTC， 以 前 也 称 为 格林 威 治 标准 时 间 , 或 GMT) 051970 4E T 
HH LBSESSG. xx UNIX 系统 问世 的 大 致 日 期 . AR T 2878/9 time 的 变量 


中 ， 此 类 型 是 由 SUSv3 定义 的 整数 类 型 。 











在 32 位 Linux 系统 ，time t 是 一 个 有 符 扎 整数 ， 可 以 表示 的 日 期 范围 从 1901 年 12 月 
13 H 20 时 45 分 52 秒 至 2038 年 1 月 19 号 03:14:07。(SUSv3 REX time t 值 为 负数 时 的 
FTX.) 因此 ， 当 前 许多 32 位 UNIX 系统 都 面临 一 个 2038 年 的 理论 问题 ， 如 采 执 行 的 计算 
工作 涉及 未 来 日 期 ， 那 么 在 2038 年 之 前 驶 会 与 乙 遭 遇 。 事 实 上 ， 到 了 2038 年 ， 可 能 所 有 
的 UNIX 系统 都 早已 升级 为 64 位 或 更 多 位 数 的 系统 ， 这 一 问题 也 许 会 随 之 而 大 为 缓解 。 然 
而 ，32 位 嵌入 式 系 统 ， 由 于 其 寿命 较 之 台式 机 便 件 更 长 ， 故 而 仍然 会 受 此 问题 的 困扰 。 此 
外 ， 对 于 依然 以 32 位 time t 格 式 保存 时 间 的 历史 数据 和 应 用 程序 ， 这 个 问题 将 依然 存在 。 
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系统 调用 gettimeofday0， 可 于 tv 指 回 的 缓冲 区 中 返回 日 历时 间 。 





#include «sys/time.h» 


int gettimeofday(struct timeval */v, struct timezone */z); 





Returns 0 on success, or -1 on error 





参数 tv 是 指 问 如 下 数据 结构 的 一 个 指针 : 
struct timeval { 
time t tv_sec; /* Seconds since 00:00:00, 1 Jan 1970 UTC */ 
suseconds t tv usec; /* Additional microseconds (long int) */ 
H 
虽然 tv usec 字段 能 提供 微 秒 级 精度 , 但 其 返回 值 的 准确 性 则 由 依赖 于 构 染 的 其 体 实现 来 
决定 。tv_usec 中 的 u 源 于 与 之 形似 的 布 脂 字 母 n( 读 首 “mu”)， 在 公制 系统 中 表示 白 力 分 之 
一 。 在 现代 X86-32 系统 上 ，gettimeofday0 的 确 可 以 提供 微 秒 级 的 准确 度 〈 例 如 ， Pentium 系 
RAEAN ERA TA MA CPU 时 钟 周期 而 加 一 )。 
gettimeofdayO 的 参数 tz 是 个 历史 产物 。 早 期 的 UNIX 实现 用 其 来 获取 系统 的 时 区 信息 ， 
目前 已 遭 废弃 ， 应 始终 将 其 置 为 NULL。 


如 果 提 供 了 tz 参数 ， 那 么 将 返回 一 个 timezone 的 结构 体 ， 其 内 容 为 上 次 调用 settimeofdayO 
时 传 入 的 刀 人 参数 (已 废弃 ) 值 。 该 结构 包含 两 个 字段 t 巡 minuteswest 和 tz dsttime。tz minuteswest 
学 段 表 示 欲 将 本 时 区 时 间 转 换 为 UTC 时 间 所 必须 增加 的 分 钟 数 ， 如 为 负 值 ， 则 表示 此 时 区 
位 于 UTC 以 东 〈 例 如 ， 如 为 欧洲 中 部 时 间 ， 会 提前 UTC 一 小 时 ， 则 将 此 字段 设置 为 -60 )。 
tz dsttime 印 段 内 为 一 个 音量 ， 意 在 表示 这 个 时 区 是 否 强 制 施行 夏令 时 CDSTO 制 。 正 由 于 
夏令 时 制度 无 法 用 一 个 简单 算法 加 以 表达 ， 故 而 tz SMOR. (Linux 从 未 文 持 过 此 参 
数 。) 详情 请 参考 gettimeofday(2) 手 册页 。 
































time() 系 统 调用 返回 日 Epoch 以 来 的 秒 数 (和 函数 gettimeofdayO 所 返回 的 tv 参数 中 tv. sec 
字段 的 数值 相同 )。 





#include «time.h» 


time t time(time t */umep); 





Returns number of seconds since the Epoch,or (time t) -1 on error 





如 条 timep 参数 不 为 NULL， 那 么 还 会 将 目 Epoch 以 来 的 秒 数 置 于 timep 所 指 问 的 位 置 。 

由 于 time0 会 以 两 种 方式 返回 相同 的 值 ， 而 使 用 时 唯一 可 能 出 错 的 地 方 是 赋予 timep 参数 
一 个 无 效 地 址 CEFAULT7， 因 此 往往 会 简单 地 采用 如 下 调用 《不 做 错误 检查 ): 

t = time(NULL); 














Br EMEREPS A AS E HAARA Ctime()RI. gettimeofday())， 目 有 其 历史 原 
o HUI UNIX 实现 提供 了 time). M 4.3BSD 叉 补 充 了 更 为 精确 的 gettimeofday() & 5 Wi 
用 。 这 时 ， 再 将 ttme0 作 为 系统 调用 融 显 得 多 余 ， 可 以 将 其 实现 为 一 个 调用 gettimeofday() 
IT] PF PL 


152 Linux/UNIX 系统 编程 手册 ( 上 册 ) 
异步 社区 会 员 flyman150(2410757683 (9 qq.com) EF 尊重 版 权 


10.2. 时间 转换 函数 


10-1 所 示 为 用 于 在 time_t 值 和 其 他 时 间 格 式 之 间 相 互 转换 的 函数 ， 其 中 包括 打印 输 






固定 格式 字符 串 用 户 格式 的 本 
Tue Feb 1 21:39:46 2011\n\0 Hire 






struct im 


(分 解 时 间 ) 











mhtime( )* 


gmtimel ) 
localtime( )* 


time 1 


(日 历时 间 ) 


10-1: 获取 和 使 用 日 历时 间 的 遂 数 





time( ) stime() — gettimeofday() 








Ho KERA EM FI DANI. EBD DST) 制 和 本 地 化 等 问题 给 转换 所 各 来 的 种 种 复杂 性 。 
10.3 节 将 讨论 时 区 (timezone), 10.4 节 将 讨论 地 区 (locale)。 


10.2.1 将 time tt 转换 为 可 打印 格式 
为 了 将 time t 转换 为 可 打印 格式 ，ctime0 函 数 提供 了 一 个 简单 方法 。 








Hinclude «time.h» 


char *ctime(const time t *timep); 


Returns pointer to statically allocated string terminated 
by newline and v0 on success, or NULL on error 








把 一 个 指 问 time t 的 指针 作为 timep 参数 传 入 函数 ctime0, 将 返回 一 个 长 达 26 *£- 8 Re 
符 串 ,内 含 标准 格式 的 日 期 和 时 间 ， 如 下 例 所 示 : 

Wed Jun 8 14:22:34 2011 

该 字符 串 包含 换行 符 和 终止 空 字 节 各 一 。 ctime0 函 数 在 进行 转换 时 ， 会 自动 对 本 地 时 区 
和 DST 设置 加 以 考虑 10.3 贡 将 解释 这 些 设 置 的 确定 过 程 )。 返 回 的 字符 串 经 由 静态 分 配 ， 下 
一 次 对 ctimeQ f] vil H] AF CAS ss o 

SUSv3 规定 ， 调 用 ctime(. gmtime(). localTime()z asctimeO 中 的 任 一 函数 ， 都 可 能 会 履 
盖 由 其 他 函数 返回 ， 且 经 静态 分 配 的 数据 结构 。 换 言 之 ， 这 些 函 数 可 以 共享 返回 的 学 符 数 组 
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和 tm 结构 体 ， 东 些 版 本 的 glibc 也 正 是 这 样 实 现 的 。 如 采 有 意 在 对 这 些 函 数 的 多 次 调用 间 维 
护 返 回 的 信息 ， 那 么 必须 将 其 你 存在 本 地 副本 中 。 








ctime TO 是 ctime() 的 可 重 入 版 本 。(21.1.2 太 将 解释 重 入 。) 该 函数 允许 调用 者 额外 指定 
一 个 指针 参数 ， 所 指 问 的 缓冲 区 (由 调用 者 提供 用 于 返回 时 间 社 符 串 。 本 草 所 论 及 的 其 
他 函数 的 可 重 入 版 ， 其 操作 方式 与 之 类 似 。 











10.2.2. time t 和 分 解 时 间 之 间 的 转换 


函数 gmtime() 和 localtime() 可 将 一 time t 值 转换 为 一 个 所 谓 的 分 解 时 间 (broken-down 
time)。 分 解 时 间 被 置 于 一 个 经 由 静态 分 配 的 结构 中 ， 其 地 址 则 作为 函数 结果 返回 。 





#include «time.h» 


struct tm *gmtime(const time t */imep); 
struct tm *localtime(const time t */zmep); 


Doth return a pointer to a statically allocated broken-down 
time structure on success, or NULL on error 








函数 gmtimeO 能 够 把 日 历时 间 转 换 为 一 个 对 应 于 UTC 的 分 解 时 间 。( 子 母 GM 源 于 格林 
威 治标 准时 间 )。 相 形 之 下， 函数 localtimeO 需 要 考虑 时 区 和 收 令 时 设置 ， 返 回 对 应 于 系统 本 
地 时 间 的 一 个 分 解 时 间 。 








gmtime_r() 和 localtime TO 分 别 是 这 些 国 数 的 可 重 入 版 。 


在 这 些 函 数 所 返回 的 tm 结构 中 ， 日 期 和 时 间 被 分 解 为 多 个 独立 字段 ， 其 形式 如 下 : 


struct tm { 
int tm sec; /* Seconds (0-60) */ 
int tm min; /* Minutes (0-59) */ 
int tm hour; /* Hours (0-23) */ 
int tm mday; /* Day of the month (1-31) */ 
int tm mon; /* Month (0-11) */ 
int tm year; /* Year since 1900 */ 
int tm wday; /* Day of the week (Sunday = 0)*/ 
int tm yday; /* Day in the year (0-365; 1 Jan = 0)*/ 
int tm isdst; /* Daylight saving time flag 
» 0: DST is in effect; 
- 0: DST is not effect; 
« 0: DST information not available */ 





TE Bx tm. sec 的 上 限 设 为 60 (而 非 59» 以 考虑 国 秒 ， 偶 尔 会 用 其 将 人 类 日 历 调整 全 精确 
的 天 文 年 〈 所 谓 的 回归 年 )。 

如 果 定 义 了 _BSD_ SOURCE 功能 测试 安 ， 那 么 由 glibc 定义 的 tm 结构 还 会 包含 两 个 额外 
字段， 以 摘 述 关于 所 示 时 间 的 深入 信息 。 第 一 个 字段 long int tm_gmtoff， 包 含 所 示 时 间 超 出 
UTC 以 东 的 秒 数 。 第 二 个 字段 const char* tm zone， 是 时 区 名 称 的 缩写 〈 例 如 ，CEST 为 欧洲 
中 部 夏令 时 间 )。SUSv3 并 未 定义 这 些 字 段 ， 它 们 只 见 诸 于 少数 其 他 UNIX 实现 (主要 为 BSD 
衍生 版 本 )。 

函数 mktime) 将 一 个 本 地 时 区 的 分 解 时 间 翻 译 为 tme t 值 ， 并 将 其 作为 函数 结果 返回 。 
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调用 者 将 分 解 时 间 置 于 一 个 tm 结构 ， 再 以 timeptr 指针 指 问 该 结 构 。 这 一 转换 会 忽略 输入 tm 
结构 中 的 tm_wday 和 tm yday 字段 。 





#include <time.h> 


time t mktime(struct tm */meptr); 


Returns seconds since the Epoch corresponding to timeptr 
on success, or (tzme 1) -1 on error 








函数 mktime() 可 能 会 修改 timeptr 所 指 问 的 结构 体 ， 至少 会 确保 对 tm. wday 和 tm. yday ^£ 
段 值 的 设置 ， 会 与 其 他 输入 字段 的 值 能 对 应 起 来 。 

此 外 ，mktime() 不 要 求 tm 结构 体 的 其 他 字段 受到 前 述 范围 的 限制 。 任 何 一 个 字段 的 值 超 
出 范围 ，mktimeO 都 会 将 其 调整 加 有 效 范围 之 内 ， 并 适当 调整 其 他 字段 。 所 有 这 些 调 整 ， 均 发 
生 于 mktime) € Xr tm. wday 和 tm yday 字段 并 计算 返回 值 time t Z pi- 

例如 ， 如 果 输 入 字段 tm_sec 的 值 为 123， 那 么 在 返回 时 此 字段 的 值 将 为 3， 且 tm_min 字 
段 值 会 在 其 之 前 值 的 基础 上 加 2。( 如 有 果 这 一 改动 造成 tm_min ái is 那么 将 调整 tm min 的 值 ， 
并 且 递 增 tm hour 字段 ， 以 此 类 推 。) 这 些 调整 甚至 适用 于 字段 负 值 。 例 如 ， 指 定 tm sec 为 
-1 即 意 味 看 前 一 分 钟 的 第 59 秒 。 此 功能 允许 以 分 解 时 间 来 计算 日 期 和 时 间 ， 故 而 非常 有 用 。 

mktime() 在 进行 转换 时 会 对 时 区 进行 设置 。 此 外 ，DST 设置 的 使 用 与 否 取 决 于 输入 字段 
tm isdst 的 值 。 

e 后 tm isdst 为 0， 则 将 这 一 时 间 视 为 标准 间 即 ， 和 忽略 夏令 时 ， 即 使 实际 上 每 年 的 这 

一 时 刻 处 于 夏令 时 阶段 )。 
e ditm isdst 大 于 0， 则 将 这 一 时 间 视 为 夏令 时 〈 即 ， 夏 令 时 生效 ， 即 使 每 年 的 此 时 不 









































处 于 夏令 时 阶段 )。 
e ditm isdst 小 于 0， 则 试图 判定 DTS 在 每 年 的 这 一 时 间 是 个 生效 。 这 往往 是 众望 所 归 
的 设置 。 


(无 论 tm isdst 的 初始 设置 如 何 ) 在 转换 完成 时 , 如 果 针 对 给 定 的 时 间 ,DST 生效 , mktimeO 
会 将 tm isdst 字段 置 为 正 值 ， 和 若 DST 未 生效 ， 则 将 tm isdst 置 为 0。 
10.2.3 ”分解 时 间 和 打印 格式 之 间 的 转换 
本 节 会 介绍 将 分 解 时 间 和 打印 格式 相互 进行 转换 的 函数 。 
从 分 解 时 间 转 换 为 打印 格式 


在 参数 tm 中 提供 一 个 指向 分 解 时 间 结构 的 指针 ，asctime0 则 会 返回 一 指针 ， 指 向 经 由 静 
态 分 配 的 字符 串 ， 内 含 时 间 ， 格 式 则 与 ctime 0 相同 。 








Hinclude «time.h» 


char *asctime(const struct tm */meptr); 


Returns pointer to statically allocated string terminated by 
newline and Wo on success, or NULL on error 








相形 于 ctimeO0， 本 地 时 区 设置 对 asctime0O 没 有 影响 ， 因 为 其 所 转换 的 是 一 个 分 解 时 间 ， 
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该 时 间 通 常 要 么 已 然 通过 localtime() 作 了 本 地 化 处 理 ， 要 么 早已 经 由 gmtime() 转 换 成 了 UTC。 
如 同 ctime0 一 样 ，asctime0 也 无 法 控制 其 所 生成 字符 串 的 格式 。 


asctime0O 的 可 重 入 版 为 asctime r(). 


程序 清单 10-1 演示 asctime() 以 及 直到 本 革 结 尾 所 述 时 间 转 换 函 数 的 用 法 。 该 程序 获取 当 
前 的 日 历时 间 ， 随 后 使 用 各 种 时 间 转 换 函数 并 显示 其 结果 。 下 例 为 冬季 在 德国 莫 尼 黑 运 行 此 
程序 的 结果 ， 该 地 区 处 于 欧洲 中 部 时 间 这 一 时 区 ， 比 UTC 要 早 一 小 时 。 
$ date 
Tue Dec 28 16:01:51 CET 2010 
$ ./calendar time 
Seconds since the Epoch (1 Jan 1970): 1293548517 (about 40.991 years) 
gettimeofday() returned 1293548517 secs, 715616 microsecs 
Broken down by gmtime(): 
year-110 mon-11 mday-28 hour-15 min-1 sec-57 wday-2 yday-361 isdst-O 
Broken down by localtime(): 
year-110 mon-11 mday-28 hour-16 min-1 sec-57 wday-2 yday-361 isdst-O 














asctime() formats the gmtime() value as: Tue Dec 28 15:01:57 2010 


ctime() formats the time() value as: Tue Dec 28 16:01:57 2010 
mktime() of gmtime() value: 1293544917 secs 
mktime() of localtime() value: 1293548517 secs 3600 secs ahead of UTC 


程序 清单 10-1. 获取 和 转换 日 历时 间 
time/calendar time.c 
&include «locale.h» 
#include «time.h» 


include «sys/time.h» 


&include "tlpi hdr.h" 
#define SECONDS IN TROPICAL YEAR (365.24219 * 24 * 60 * 60) 


int 
main(int argc, char *argv[]) 


time t t; 

struct tm *gmp, *locp; 
struct tm gm, loc; 
struct timeval tv; 


t - time(NULL); 
printf("Seconds since the Epoch (1 Jan 1970): %ld", (long) t); 
printf(" (about %6.3f years)Nn", t / SECONDS IN TROPICAL YEAR); 


if (gettimeofday(&tv, NULL) == -1) 
errExit("gettimeofday"); 
printf(" gettimeofday() returned %ld secs, Xld microsecsWn", 
(long) tv.tv sec, (long) tv.tv usec); 


gmp = gmtime(8t); 
if (gmp == NULL) 


errExit("gmtime"); 


gm - *gmp; /* Save local copy, since *gmp may be modified 
by asctime() or gmtime() */ 
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printf("Broken down by gmtime():Nn"); 

printf(" year-Xd mon=%d mday=%d hour=%d min=%d sec-Xd ", gm.tm year, 
gm.tm mon, gm.tm mday, gm.tm hour, gm.tm min, gm.tm sec); 

printf("wday-d yday-Xd isdst=%d\n", gm.tm wday, gm.tm yday, gm.tm isdst); 


locp = localtime(&t); 
if (locp == NULL) 
errExit("localtime"); 


loc = *locp; /* Save local copy */ 


printf("Broken down by localtime():Wn"); 
printf(" year-Xd mon=%d mday=%d hour=%d min=%d sec=%d ", 
loc.tm year, loc.tm mon, loc.tm mday, 
loc.tm hour, loc.tm min, loc.tm sec); 
printf("wday=%d yday=%d isdst=%d\n\n", 
loc.tm wday, loc.tm yday, loc.tm isdst); 


printf("asctime() formats the gmtime() value as: Xs", asctime(&gm)); 
printf("ctime() formats the time() value as: As", ctime(8t)); 


printf("mktime() of gmtime() value: %ld secsWn", (long) mktime(&gm)); 
printf("mktime() of localtime() value: %ld secsWn", (long) mktime(&loc)); 


exit(EXIT SUCCESS); 


time/calendar time.c 


当 把 一 个 分 解 时 间 转 换 成 打印 格式 时 , 函数 strftimeO 可 以 提供 更 为 精确 的 控制 。 仿 timeptr 
指 问 分 解 时 间 ，strftime0O 会 将 以 null 结尾 、 由 日 期 和 时 间 组 成 的 相应 字符 串 置 于 outstr 所 指 问 
的 缓冲 区 中 。 














Hinclude «time.h» 


size t strftime(char *outstr, size t maxsize, const char *format, 
const struct tm *timeptr); 


Returns number of bytes placed in outstr (excluding 
terminating null byte) on success, or 0 on error 











outstr 中 返回 的 字符 串 按 照 format 参数 定义 的 格式 做 了 格式 化 。Maxsize 参数 指定 outstr 的 最 
大 长 度 。 不 同 于 ctime() 和 asctime0，strftime0 不 会 在 字符 串 的 结尾 包括 换行 符 《〈 除 非 format 中 
定义 有 换行 符 )。 

如 果 成 功 ，strftime() 返 回 outstr 所 指 缓冲 区 的 字 节 长 度 ， 且 不 包括 终止 空 字 节 。 如 果 结 
字符 串 的 总 长 度 ， 含 终止 空 字 节 ， 超 过 了 maxsize 参数 ， 那 么 strftimeO 会 返回 0 以 示 出 错 ， 且 
此 时 无 法 确定 outstr 的 内 容 。 

strftime() 的 format 参数 是 一 字符 串 ， 与 赋予 printf() 的 参数 相 类 似 。 冠 以 百 分 写 “%) 的 
字符 序列 是 对 转换 的 定义 ， 函 数 会 将 百 分 号 后 的 说 明 符 字符 一 一 奉 换 为 日 期 和 时 间 的 组 成 部 
分 。 这 是 一 套 相 当 丰 富 的 转换 说 明 符 ， 表 10-1 中 所 列 的 是 其 一 个 子 集 。( 完 整 的 列表 可 见 诸 于 
strftime(3) 手 册页 。) 除非 特别 注 明 ， 所 有 这 些 转换 说 明 符 都 符合 SUSV3 标准 。 

AU 和 %W 说 明 符 都 生成 一 年 中 的 周 数 。%U 的 周 数 按 以 下 方法 计算 。 含 有 星期 日 的 第 一 
周 编号 为 1， 此 周 的 前 一 周 编写 为 0。 如 果 星 期 天 恰巧 是 当年 的 第 一 天 ， 那 么 就 没有 第 0 周 ， 
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当年 的 最 后 一 天 则 属于 第 53 周 。%W 的 周 数 编号 以 同样 的 方式 来 计算 ， 只 不 过 计算 对 象 是 周 
— fd H « 

通常 情况 下 ， 我 们 希望 在 本 书 的 各 种 示范 程序 中 显示 当前 时 间 。 为 此 ， 本 书 提供 了 函数 
cuUITTime0， 其 返回 一 字符 串 ， 内 合 strftime()1Z format 参数 格式 化 的 当前 时 间 。 




















#include "curr time.h" 


char *currTime(const char *format); 


Returns pointer to statically allocated string, or NULL on error 








程序 清单 10-2 所 示 为 currTime() R R SEEN o 
表 10-1: strftime() 的 转换 说 明 符 选集 


%% 49 CK 字符 % 

%a 星期 几 的 缩写 Tue 

%A 星期 几 的 全 称 Tuesday 
%b, %h 月 份 名 称 的 缩写 Feb 

%B 月 份 全 称 February 

V/oC 日 期 和 时 间 Tue Feb 1 21:39:46 2011 

%d 一 个 月 的 一 天 (2 位 数字 ，01 至 31 天) 01 

%D 美国 日 期 格式 (与 %m%d%y 相同 》 02/01/11 

%e 一 个 月 中 的 一 天 (2 个 字符 ) l 

%F ISO 日 期 格式 《与 %Y-%m-%d 相同 ) 2011-02-01 

%H 小 时 (24 小 时 制 ，2 位 数 ) 21 

vo] 小 时 (12 小 时 制 ，2 位 数 ) 09 

7oj 一 年 中 的 一 天 (3 位 数字 ， 从 001 到 366) 

%m 十 进 制 月 (2 位 ，01 到 12) 

99M 4] O2 位 数 ) 

%p AM/PM 

%P 上 午 / 下 午 (GNU 扩展 ) 

%R 24 小 时 制 的 时 间 (和 %H:%M 格式 相同 ) 

%S 秒 (00 至 60) 

%T 时 间 (和 %H:%M:%S 格式 相同 ) 

You 星期 几 编 号 (1 至 7， 星 期 一 = D 

%U 以 周 日 计算 、 一 年 中 的 周 数 (00 到 53) 

ow 星期 几 编 号 (0 至 6， 星期 日 = 0) 
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以 周一 计算 、 一 年 中 的 周 数 (00 到 53) 


日 期 〈 本 地 化 ) 02/01/11 


时 间 (本 地 化 》 : 39: 46 
2 位 数字 年 份 

4 位 数字 年 份 

时 区 名 称 





程序 清单 10-2: 返回 当前 时 间 的 字符 串 的 函数 
time/curr time.c 


include «time.h» 
include "curr time.h" /* Declares function defined here */ 


#define BUF SIZE 1000 


/* Return a string containing the current time formatted according to 
the specification in 'format' (see strftime(3) for specifiers). 
If 'format' is NULL, we use "Ac" as a specifier (which gives the 
date and time as for ctime(3), but without the trailing newline). 
Returns NULL on error. */ 


char * 

currTime(const char *format) 

( 
static char buf[BUF SIZE]; /* Nonreentrant */ 
time t t; 
sizets; 


struct tm *tm; 


t - time(NULL); 
tm - localtime(8t); 


if (tm -- NULL) 
return NULL; 


s = strftime(buf, BUF SIZE, (format !- NULL) ? format : "Ac", tm); 
return (s -- 0) ? NULL : buf; 


time/curr time.c 


将 打印 格式 时 间 转 换 为 分 解 时 间 
PKZ strptime() ze strftimeO 的 逆 问 函数 ， 将 包 侣 日 期 和 时 间 的 字符 串 转 换 成 一 分 解 时 间 。 








#define XOPEN SOURCE 
#include <time.h> 


char *strptime(const char *str, const char *format, struct tm *timeptr); 


Returns pointer to next unprocessed character in 
sir on success, or NULL on error 
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PK Zi strptime() 12: iR 22 23 format 内 的 格式 有 要求, 对 由 日 期 和 时 间 组 成 的 字符 串 str 加 以 解析 ， 
并 将 转换 后 的 分 解 时 间 置 于 指针 timeptr 所 指 癌 的 结构 体 中 。 

如 果 成 功 ，strptime() 返 回 一 指针 ， 指 癌 str 中 下 一 个 未 经 处 理 的 字符 。( 如 果 字 符 串 中 还 
包含 有 需要 应 用 程序 处 理 的 额外 信息 ， 这 一 特性 束 能 派 上 用 场 。〉， 如 果 无 法 匹配 整个 格式 字符 
P, strptimeQ3&|H] NULL， 以 示 出 现 错误 。 

strptime() 的 格式 规范 类 似 于 scanf(3)， 包 含 以 下 类 型 的 字符 。 

e 转换 字符 串 冠 以 一 个 自分 号 〈%) TN. 

e 如 包含 空格 字符 ， 则 意味 看 其 可 匹配 零 个 或 多 个 空格 。 

e (% 之 外 的 ) 非 空 格 字 符 必 须 和 输入 字符 串 中 的 相同 学 人 符 严 格 瑟 配 。 

转换 说 明 类 似 于 之 前 为 strftimeO 给 出 的 内 容 〈 表 10-1)。 主 要 的 区 别 在 于 ， 此 处 的 说 明 符 
更 为 通用 。 例 如 ， 不 拘 于 星期 名 称 的 全 称 或 简称 ，%a MAA 都 可 接受 ， 而 且 %d 和 %e 均 可 用 
于 读 取 月 中 的 个 位 天 数 ， 无 论 该 数字 前 面 是 否 有 0。 此 外 ,不 区 分 大 小 与 ,例如 ，May 和 MAY 
是 相同 的 月 份 名 称 。 使 用 字符 串 %% 来 匹配 输入 字符 串 中 的 百 分 号 学 符 。 strptime(3) 手 册页 提 
供 有 更 多 的 细 广 。 

glibc 在 实现 strptimeO0 时 ， 并 不 修改 tm 结构 体 中 那些 未 获 format 说 明 符 初始 化 的 字段 。 
这 也 意味 看 可 以 根据 多 个 字符 串 , 例如 , 一 个 日 期 字符 串 和 一 个 时 间 字 符 串 , 发 起 多 次 strptime() 
调用 ， 来 创建 一 个 tm 结构 体 。SUSv3 虽然 允许 这 一 行为 ， 但 并 不 强制 要 求实 现 ， 因 此 在 其 他 
UNIX 实现 上 不 能 对 其 有 所 依赖 。 要 保证 应 用 的 可 移植 性 ， 束 必须 确保 ， 要 么 str 和 format 中 
所 含 输入 信息 足以 设置 最 终 tm 结构 的 所 有 学 段 ， 要 么 在 调用 strptime()Z Bis] tm 结构 体 已 经 
做 了 适当 的 初始 化 处 理 。 在 大 多 数 情 况 下 ， 用 memsetO 把 整个 结构 体 置 为 0 dE ue[. 18 
要 留心 ， 在 glibc 和 许多 其 他 时 间 转 换 函 数 的 实现 中 ，m_mday 字段 值 为 0， 意 为 上 月 的 最 后 
一 天 。 最 后 还 要 注 症 ，strptime() 从 不 设置 tm 结构 体 的 tm isdst 字段 。 









































GNU C 库 还 提供 有 与 strptime() 功 能 类 似 的 两 个 函数 ，getdate() (已 由 SUSv3 规范 ， 且 
应 用 广泛 ) 及 其 可 重 入 版 getdate r() (SUSv3 中 未 定义 ， 仅 获 少 数 UNIX 实现 支持 )。 此 处 将 
不 会 介绍 这 些 函 数 ， 因 为 在 指定 用 于 扫描 日 期 的 格式 时 ， 它 们 所 采用 的 是 外 部 文件 〈 由 环境 
变量 DATEMSK 定义 )， 这 不 但 令 其 难以 使 用 ， 而 且 会 在 set-user-ID 程序 中 造成 安全 漏洞 。 








程序 清单 10-3 演示 了 strptime() 和 strftime() 的 用 法 。 该 程序 从 命令 行 参数 中 接受 日 期 和 时 
间 ， 然 后 用 strptime0O 将 其 转换 为 一 分 解 时 间 ， 接 看 使 用 strftimeQ AUT 35 [8] RRHH Sj zs Z8 
该 程序 接收 至 多 3 个 参数 ， 其 中 前 两 个 为 必需 提供 。 第 一 个 参数 是 包含 日 期 和 时 间 的 字符 串 。 
第 二 个 参数 指定 了 strptimeO 在 解析 第 一 个 参数 时 所 采用 的 格式 。 可 选 的 第 三 个 参数 是 格式 字 
TP. HF strftime() 的 逆向 转换 。 如 果 省 略 此 参数 ， 将 使 用 一 个 默认 的 格式 字符 串 。( 本 程 厅 
中 使 用 的 setLocaleO 函 数 将 在 10.4 节 中 加 以 介绍 。) 以 下 shell 会 话 日 志 显 示 了 使 用 该 程序 的 一 
ET: 

$ ./strtime "9:39:46pm 1 Feb 2011" "%I:%M:%S%p ^d ^b ^Y" 


calendar time (seconds since Epoch): 1296592786 
strftime() yields: 21:39:46 Tuesday, 01 February 2011 CET 


以 下 用 法 与 乙 相 似 ， 上 只 不 过 这 次 为 strftime() 明 确 指 是 了 格式 : 


$ ./strtime "9:39:46pm 1 Feb 2011" "%I:%M:%S%p ^d ^b ^Y" "AF ^T 
calendar time (seconds since Epoch): 1296592786 
strftime() yields: 2011-02-01 21:39:46 
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程序 清单 10-3. 获取 和 转换 日 历时 间 
time/strtime.c 
#define XOPEN SOURCE 
#include <time.h> 
#include «locale.h» 
#include "tlpi hdr.h" 


#define SBUF SIZE 1000 


int 
main(int argc, char *argv[]) 
struct tm tm; 


char sbuf[SBUF SIZE]; 
char *ofmt; 


if (argc < 3 || stremp(argv[1], "--help") == 0) 
usageErr("%s input-date-time in-format [out-format]Wn", argv[0]); 


if (setlocale(LC ALL, "") -- NULL) 
errExit("setlocale"); | /* Use locale settings in conversions */ 


memset(&tm, O, sizeof(struct tm)); /* Initialize 'tm' */ 
if (strptime(argv[1], argv[2], &tm) -- NULL) 
fatal("strptime"); 


tm.tm isdst - -1; /* Not set by strptime(); tells mktime() 
to determine if DST is in effect */ 
printf("calendar time (seconds since Epoch): %ld\n", (long) mktime(&tm)); 


ofmt = (argc > 3) ? argv[3] : "%H:%M:%S XA, %d %B %Y %Z"; 

if (strftime(sbuf, SBUF SIZE, ofmt, &tm) == O) 
fatal("strftime returned 0"); 

printf("strftime() yields: %s\n", sbuf); 


exit(EXIT SUCCESS); 


time/strtime.c 


10.8 时 区 


不 同 的 国家 《有 时 甚至 是 同一 国家 内 的 不 同 地 区 ) 使 用 不 同上 的 时 区 和 复 时 制 。 对 于 要 输 
入 和 输出 时 间 的 程序 来 说 ， 必 须 对 系统 所 处 的 时 区 和 夏 时 制 加 以 考 处 。 所 泪 的 是 ， 所 有 这 些 
细节 都 已 经 由 C 语言 函 数 库 包办 了 。 

















时 区 定义 

时 区 信息 往往 是 既 浩 党 又 多 变 的 。 出 于 这 一 原因 ， 系 统 没 有 将 其 直接 编 侣 于 程序 或 函数 
库 中 ， 而 是 以 标准 格式 保存 于 文件 中 ， 并 加 以 维护 。 

dece Ser F Hox/usrvshare/zeneinfo WW 中。 该 目录 下 的 每 个 文件 都 包含 了 一 个 特定 国家 或 地 
区 内 时 区 制度 的 相关 信息 ， 且 往往 根据 其 所 描述 的 时 区 来 加 以 命名 ， 诸 如 EST 美国 东部 标准 
时 间 )、CET 《欧洲 中 部 时 间 )、UTC、Turkey 和 Iran。 此 外 ， 可 以 利用 子 目 录 对 相关 时 区 进行 
有 层次 的 分 组 。 例如，Pacific 目录 就 可 能 包含 文件 Auckland、Port Moresby 和 Galapagos。 在 程 
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序 中 指定 使 用 的 时 区 ， 实 际 上 是 指定 该 目录 下 某 一 时 区 文件 的 相对 路 径 名 。 
系统 的 本 地 时 间 由 时 区 文件 /etc/localtime 定义 ， 通 常 链接 到 /usrshare/zoneinfo 下 的 一 个 文件 。 











时 区 文件 的 格式 记述 于 tzfile(5) 手 册页 ， 其 创建 可 通过 zie(8) OTKA Er, zoone 
information compiler) 工具 来 完成 。zdump(8) 命 令 可 根据 指定 时 区 文件 中 的 时 区 来 显示 当前 时 间 。 


为 程序 指定 时 区 

为 运行 中 的 程序 指定 一 个 时 区 , 需要 将 TZ 环境 变量 设置 为 由 一 上 骨 号 (和 时 区 名 称 组 成 的 
字符 串 ， 其 中 时 区 名 称 定义 于 /usrshare/zoneinfo 中 。 设 置 时 区 会 日 动 影响 到 函数 ctime(). 
localtime), mktime() fl strftime(). 

为 了 获取 当前 的 时 区 设置 ， 上 述 函数 都 会 调用 tzset(3)， 对 如 下 3 个 全 局 变量 进行 了 初始 化 : 





























char *tzname[2]; /* Name of timezone and alternate (DST) timezone */ 
int daylight; /* Nonzero if there is an alternate (DST) timezone */ 
long timezone; /* Seconds difference between UTC and local 


standard time */ 

函数 tzsetO 会 首先 检查 环境 变量 TZ。 如 果 尚 未 设置 该 变量 ， 那 么 就 采用 /etc/localtime 中 
定义 的 默认 时 区 来 初始 化 时 区 。 如 果 TZ 环境 变量 的 值 为 宇 ， 或 无 法 与 时 区 文件 名 相 匹 配 ， 那 
么 束 使 用 UTC。 还 可 将 TZDIR 环境 变量 〈 非 标准 的 GNU 扩展 ) 设置 为 搜寻 时 区 信息 的 目录 
名 称 ， 以 替代 默认 的 /usrvshare/zoneinfo 目录 。 

可 以 通过 运行 程序 清单 10-4 中 的 程序 来 观察 TZ 变量 的 影响 力 。 第 一 次 运行 输出 的 是 相 
应 系统 的 默认 时 区 《欧洲 中 部 时 间 , CET)。 在 第 二 次 运行 时 , 由 于 指定 的 时 区 为 New Zealand, 
其 在 每 年 此 时 已 进入 夏令 时 ， 时 区 要 比 CET 提前 12 个 小 时 。 


$ ./show time 

ctime() of time() value is: Tue Feb 1 10:25:56 2011 

asctime() of local time is: Tue Feb 1 10:25:56 2011 

strftime() of local time is: Tuesday, 01 Feb 2011, 10:25:56 CET 

$ TZ-":Pacific/Auckland" ./show time 

ctime() of time() value is: Tue Feb 1 22:26:19 2011 

asctime() of local time is: Tue Feb 1 22:26:19 2011 

strftime() of local time is: Tuesday, 01 February 2011, 22:26:19 NZDT 






































程序 清单 10-4: 演示 时 区 和 地 区 的 效果 
一 time/show time.c 


dinclude «time.h» 
dinclude «locale.h» 
include "tlpi hdr.h" 


#define BUF SIZE 200 


int 
main(int argc, char *argv[]) 
i 

time t t; 

struct tm *loc; 

char buf[BUF SIZE]; 


if (setlocale(LC ALL, "") -- NULL) 
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errExit("setlocale");  /* Use locale settings in conversions */ 
t = time(NULL); 
printf("ctime() of time() value is: 5s", ctime(8t)); 


loc = localtime(8t); 
if (loc -- NULL) 
errExit("localtime"); 


printf("asctime() of local time is: ^s", asctime(loc)); 


if (strftime(buf, BUF SIZE, "AA, %d 4B AY, %H:%M:%S ^Z , loc) == O) 
fatal("'strftime returned 0"); 
printf("strftime() of local time is: %s\n", buf); 


exit(EXIT SUCCESS); 


time/show time.c 


SUSv3 为 设置 TZ 环境 变量 定义 了 两 个 通用 方法 。 如 前 所 述 ,可 将 TZ 设置 为 由 冒号 外 加 
字符 串 组 成 的 字符 序列 ， 其 中 的 字符 串 用 以 标识 时 区 ， 并 随 系 统 实现 的 不 同 而 不 同 ， 通 常 为 
时 区 描述 文件 的 路 径 名 。( 在 采用 这 种 形式 时 ，Linux 和 其 他 一 些 UNIX 实现 允许 将 冒号 省 略 ， 
但 SUSv3 并 未 规范 这 一 行为 。 为 了 保证 代码 的 可 移植 性 ， 应 当 始终 包含 冒号。 

设置 TZ 的 男 一 种 方法 在 SUSv3 中 有 完整 的 定义 。 使 用 此 方法 ， 可 以 将 如 下 形式 的 字符 
PIRA TZ: 


























std offset | dst | offset ][ , start-date | /time ] , end-date [ /time ]]] 








H Y f Tp de EIBBIXTTIAY AN HUI T E, 但 实际 上 任何 空格 都 不 应 出 现在 TZ 中 。 
Jay AP 用 来 表示 可 选项 。 

std 和 dst 部 分 是 用 以 标识 标准 和 DST 时 区 名 称 的 字符 串 。 例如 , CET 和 CEST 分 别 为 欧洲 中 
部 时 间 和 欧洲 中 部 夏令 时 间 。 各 种 情况 下 的 offset 分 别 表 示 欲 转换 为 UTC， 需 要 车 加 在 本 地 时 间 
上 的 正 、 负 调整 值 。 最 后 四 部 分 则 提供 了 一 个 规则 ， 插 述 何 时 从 标准 时 间 变 更 为 夏令 时 。 

可 以 多 种 格式 指定 date， 其 中 之 一 是 Mm.n.d， 意 即 : m(1—12)H'B, $8 n (1 一 5$， 每 月 
的 最 后 d 天 总 为 第 5 周 ) 周 ， 星 期 d〈0= 星 期 一 ，6= 星 期 天 )。 如 末 省 略 tme， 则 无 论 何 种 情 
况 下 均 默 认为 02:00:00 (上 午 2 点 )。 

以 下 将 TZ 定义 为 Central Europe ， 访 时 区 的 标准 时 间 比 UTC 提前 1 小 时 ， 且 DST 始 于 
3 月 的 最 后 一 个 星期 日 ， 直 全 10 月 的 最 后 一 个 星期 日 结束 ， 提 前 UTC 2 小 时 。 

TZ2"CET-1:00:00CEST-2:00:00,M3.5.0,M10.5.0 


此 处 省 略 了 对 DST 转换 时 间 的 指定 ， 因 为 默认 其 友 生 于 02:00:00。 显 然 ， 较 之 于 如 下 的 
Linux 专 有 格式 ， 上 述 形 却 的 确 缺 乏 可 读 性 : 


TZz2":Europe/Berlin" 









































10.4 地 区 (Locale) 
世界 各 地 在 使 用 数 千 种 语言 ， 其 中 在 计算 机 系统 上 经 常 使 用 的 占 了 相当 比例 。 此 外 ,在 
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显示 诺 如 数学 、 仙 币 金 额 、 日 斯 和 时 间 之 类 的 信息 时 ， 不 同 国家 的 习俗 也 不 同 。 例 如 ， 大 多 
数 欧 洲 国 家 使 用 逗号 ， 而 非 小 数 点 来 分 隅 实数 的 整数 和 小 数 部 分 ， 大 多 数 国家 日 期 的 书写 格 
式 也 与 美国 所 采用 的 MM/DD/ YY 格式 并 不 相同 。SUSv3 对 locale 的 定义 为 : 用 户 环 境 中 依 
赖 于 语言 和 文化 习俗 的 一 个 子 集 。 

理想 情况 下 ， 和 意欲 在 多 个 地 理 区 位 运行 的 任何 程序 都 应 处 理 地 区 (locales〉 概念 ， 以 期 以 
用 户 的 语言 和 格式 来 显示 和 输入 信息 。 这 也 构成 了 一 个 相当 复杂 的 读 题 一 一 国际 化 
Cinternationalization)。 在 理想 情况 下 ， 程 序 上 只 要 一 次 经 编写 ， 则 不 论 运 行 于 何 处 ， 总 会 目 动 以 正 
确 方式 来 执行 IO 操作 ， 也 就 是 说 ， 完 成 本 地 化 〈localizatiom) 任 务 。 尽 管 存 在 各 种 文 持 工具 ， 
程序 国际 化 工作 依然 耗 时 不 菲 。 诸 如 glibc 之 类 的 程序 库 也 提供 有 工具 , 来 帮助 程序 文 持 国 际 化 。 



































经 常 将 术语 internationalization 写 为 118N， 意 即 : I 加 上 18 个 字母 再 加 N。 这 一 形式 既 
便于 快速 书写 ， 又 避免 了 单词 本 身 在 类 语 和 美语 间 拼 写 方式 不 同 的 问题 。 








地 区 定义 
和 时 区 信息 一 样 ， 地 区 信息 同样 是 既 浩 繁 且 多 变 的 。 出 于 这 一 原因 ,与 其 要 求 各 个 程序 
和 函数 库 来 存储 地 区 信息 , 还 不 如 由 系统 投标 准 格式 将 地 区 信息 存储 于 文件 中 , 并 加 以 维护 。 
地 区 信息 维护 于 /usr/share/local 《在 一 些 发 行 版 本 中 为 /usr/ib/local〉 之 下 的 目录 层次 结构 
中 。 访 目录 下 的 每 个 子 目录 都 包含 一 特定 地 区 的 信息 。 这 些 目 录 的 命名 约定 如 下 : 


language| territory| .codeset] | [emod?fier] 
































language 4éX E BER ISO iE AARI. territory ZÉXX^E BET] ISO 国家 代码 。codeset 表示 字符 
编码 集 。modifier 则 提供 了 一 种 方法 ， 用 以 区 分 多 个 地 区 目录 下 language. territory 和 codeset 
均 相 同 的 状况 。de_DE.utf-8@euro 是 完整 地 区 目录 名 称 的 例子 之 一 ， 代 表 地 区 如 下 : 德语 ， 
德国 ，UTF - 8 字符 编 码 ， 并 采用 欧元 作为 货币 单位 。 

正如 命名 格式 中 的 方 括号 所 示 ， 可 以 将 地 区 目录 名 称 中 的 相应 部 分 省 略 。 通 第 情况 下 ， 
命名 只 包括 语言 和 国家 。 因 此 ，en_US 是 《说 英语 的 ) 美国 的 地 区 目录 ， 而 fr CH 则 是 瑞士 
法 语 区 的 地 区 目录 。 





























这 里 CH 代表 Confoederatio Helvetica， 在 拉丁 语 〈 本 地 中 性 语言 ，locally language-neutra) 
中 意 即 “瑞士 2 由 于 有 4 门 官 方 语 言 ， 瑞 士 在 地 区 上 类 似 于 器 多 个 时 区 的 国家 。 











当 在 程序 中 指定 要 使 用 的 地 区 时 ， 实 际 上 是 指定 了 msr /share/locale 下 某 个 子 目 录 的 名 称 。 
如 果 程 序 指定 地 区 不 与 任何 子 目 录 名 称 相 匹配 ， 那 么 C 语言 图 数 库 将 按 如 下 顺序 将 各 部 分 从 
指定 地 区 Clocale) 中 和 剥离 ， 以 寻求 匹配 





1. codeset 
2. normalized codeset 
3. territory 
4. modifier 
标准 化 字符 编码 集 (normalized codeset) z — PEE T I EIOS AER Y PURGE 
FRR JEXCEBJTT. EGÉRHUHÓEBEBHÁÉONARAS. RATA RELA ISO 三 个 字符 。 标 准 化 的 
目的 ， 在 于 排除 字符 集 名 称 中 因 大 小 写 和 标点 符号 〈 例 如 ， 额 外 的 连 字符 ) 而 发 生 的 变化 。 
这 里 是 剥离 过 程 的 一 个 例子 ， 假 设 为 一 程序 指定 的 地 区 为 fr. CHLutf- 8， 但 并 不 存在 以 访 
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名 称 命名 的 地 区 目录 ， 那 么 如 果 fr CH 目录 存在 ， 则 与 之 匹配 。 如 果 fr CH 目录 也 不 存在 ， 
那么 将 采用 女 地 区 目录 。 万 一 在 目录 也 不 存在 ， 那 么 简 而 言 之 ，setLocaleO 国 数 将 会 报错 。 





/user/share/locale/locale.alias 文件 定义 了 为 程序 设 定 地 区 的 奉 代 方法 。 详 见 
locale.aliases($) 手 册页 。 


每 个 地 区 子 目录 中 包括 有 标准 的 一 父 文 件 ， 指 定 了 此 地 区 的 约定 设置 ， 如 表 10-2 所 示 。 

关于 本 表 中 的 信息 ， 还 要 注意 以 下 几 点 。 

e 文件 LC COLLATE 定义 了 一 套 规则 ， 描 述 了 如 何在 一 字符 集 内 对 字符 排序 《例如 
alphabetical“ 按 字母 顺序 排列 的 ”字符 集 顺 序 )。 这 些 规 则 将 决定 函数 strcoll(3) 和 
strxfrm(3) 的 动作 。 即 便 是 同属 拉丁 语系 的 语言 ， 其 遵循 的 排序 规则 也 不 相同 。 例 如 ， 
一 些 欧洲 语言 有 额外 字母 ， 在 茶 些 情况 下 排 在 学 母 Z 之 后 。 男 外 还 有 特殊 情况 ， 西 班 
牙 语 的 双 字 母 序列 1， 排序 时 位 于 字母 1 之 后 。 又 比如 德语 的 元 音 变 音字 符 a ， 对 应 于 
4e， 并 与 该 双 学 母 排 在 相同 位 置 。 

* 目录 LC MESSAGES 是 程序 显示 信息 迈 问 国际 化 的 步骤 之 一 。 要 实现 更 为 全 面 的 程 
序 信息 国际 化 ， 可 以 采用 消息 目录 《参考 catopen(3) 和 catgets(3) 手 册页 ) 或 是 GNU 的 
gettext API (参见 http://www.gnu.org/). 












































Glibc 的 2.2.2 版 引入 了 一 系列 非 标准 的 地 区 新 类 别 。LC_ADDRESS 定义 了 特定 于 地 区 
的 邮政 地 址 表示 规则 。LC IDENTIFICATION 指定 了 识别 地 区 的 信息 。LC_MEASUREMENT 
TE CO NAME e X. f Bre T HA CIT] A AGI EE E 
不 规则 。LC_PAPER 定义 了 该 地 区 的 标准 纸张 尺寸 例如， 美国 信纸 /其 他 大 多 数 国家 所 使 
用 的 A4 纸 )。LC_TELEPHONE 则 定义 了 特定 于 地 区 的 国内 及 国际 电话 号 但 表示 规则 ， 以 
及 国际 长 途 国家 代码 和 国际 拨号 前 绥 。 























表 10-2: 特定 于 地 区 的 子 目录 内 容 


LC_CTYPE 


该 文件 
LC COLLATE 该 文件 
该 


(2 


A 
D» D» D 


针对 一 

LC MONETARY 对 币值 的 格式 化 规则 〈( 见 localeconv(3) 和 <locale.h>) 

LC NUMERIC 该 文件 包含 对 币值 以 外 数字 的 格式 化 规则 〈( 见 localeconv(3) 和 <locale.h>) 
LC TIME 该 文件 包含 对 日 期 和 时 间 的 格式 化 规则 

LC MESSAGES 该 目录 下 所 含 文 件 ， 针 对 肯定 和 否定 (是 / 否 ) 响应 ， 就 格式 及 数值 做 了 规定 


A] 
A] 





包 


区 

















系统 中 实际 定义 的 地 区 可 能 会 各 有 不 同 。 除 了 必须 定义 一 个 名 为 POSIX 〈 与 C 同 义 ， 后 
者 的 存在 是 由 于 历史 原因 ) 的 标准 地 区 外 ,SUSv3 没有 对 此 作出 任何 要 求 .POSIX 折射 出 UNIX 
系统 的 历史 渊源 。 因 之 ， 系统 建立 于 ASCI 字符 集 之 上 , 使 用 英文 来 描述 日 期 并 以 “yes/no” 
来 响应 。 该 地 区 的 货币 和 数字 格式 则 处 于 未 定义 状态 。 














locale 命令 显示 当前 地 区 环境 (本 shell 内 ) 的 相关 信息 。 命 令 locale -a 则 将 列 出 系统 
上 定义 的 整套 地 区 。 
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为 程序 设置 地 区 
函数 setlocale() 既 可 设置 也 可 查询 程序 的 当前 地 区 。 








#include «locale.h» 


char *setlocale(int category, const char *locale); 


Returns pointer to a (usually statically allocated) string identifying 
the new or current locale on success, or NULL on error 








category 参数 选择 设置 或 得 询 地 区 的 哪 一 部 分 ,和 它 仅 能 使 用 表 10-2 中 列 出 的 地 区 类 别 的 
xA. D, 它 可 以 设置 地 区 的 时 间 显 示 格 式 是 德国 , 而 地 区 的 货币 符号 是 美元 。 或 者 ， 
更 常见 的 是 ， 我 们 可 以 利用 LC. ALL 来 指定 我 们 要 设置 的 地 区 的 所 有 部 分 的 值 。 

使 用 setLocaleO 设 置地 区 有 两 种 不 同 的 方法 。locale 参数 可 能 是 一 个 字符 串 ， 指 定 系 统 上 
已 定义 的 一 个 地 区 〈 例 如 ，Amsr /lib locale 中 的 子 目录 的 名 称 )， 如 de_DE 或 en US。 另外 ， 
地 区 可 能 被 指定 为 空 字 符 串 ， 这 意味 看 从 环境 变量 取得 地 区 的 议 置 。 


setlocale(LC ALL, ""); 


我 们 必须 这 样 调用 才能 使 程序 使 用 环境 变量 中 的 地 区 。 如 果 调 用 被 省 略 ， 这 些 环境 变量 
将 不 会 对 程序 生效 。 

当 运 行程 序 调用 了 setLocale(LC_ALL, ""), 我们 能 够 使 用 一 系列 环 卉 变量 来 控制 地 区 的 
各 部 分 内 容 , 环境 变量 的 名 称 也 是 对 应 于 表 10-2 中 列 出 的 类 型 : LC_CTYPE、LC_COLLATE、 
LC MONETARY, LC NUMERIC, LC TIME, LC MESSAGES. 另外 , 我 们 可 以 使 用 LC ALL 
或 LANG 环境 变量 指定 整个 地 区 的 设置 。 如 果 设 置 了 多 个 先前 的 环境 变量 ， 那 么 LC_ALL 
会 覆盖 所 有 其 他 的 LC _* 环 境 变量 ,同时 LANG 的 优先 级 最 低 。 因 此 ,通常 使 用 LANG 为 
地 区 所 有 内 容 设置 默认 值 ， 然 后 用 单独 的 LC * 变 量 ， 设 置地 区 的 各 个 方面 内 容 来 履 盖 默 
WB 

Exi, setLocaleQiR [n] —^ TR £F $8 In] by i3 — 28308 EATR OBL Ie BR S 2) NU 
的 )。 如 有 果 我 们 仅 需 要 但 看 地 区 的 设置 而 不 需 要 改变 它 ， 那 么 我 们 可 以 指定 locale 参数 为 
NULL. 

地 区 设置 影响 众多 GNU/ Linux 实用 程序 ， 以 及 glibc 的 许多 函数 的 功能 。 其 中 有 函数 
strftime() 和 strptime() (10.2.3 节 )， 当 我 们 在 不 同 的 地 区 运行 程序 清单 10-4，strftime 返回 的 结 
AU: 

$ LANG-de DE ./show time German locale 

ctime() of time() value is: Tue Feb 1 12:23:39 2011 


asctime() of local time is: Tue Feb 1 12:23:39 2011 
strftime() of local time is: Dienstag, 01 Februar 2011, 12:23:39 CET 




































































下 一 个 运行 演示 LC_TIME 比 LANG 的 优先 级 高 : 


$ LANG=de DE LC TIME=it IT ./show time German and Italian locales 
ctime() of time() value is: Tue Feb 1 12:24:03 2011 

asctime() of local time is: Tue Feb 1 12:24:03 2011 

strftime() of local time is: martedi, O1 febbraio 2011, 12:24:03 CET 
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而 这 个 运行 结果 表明 ，LC ALL ED LC TIME 的 优先 级 : 


$ LC ALL-fr FR LC TIME=en US ./show time French and. US locales 
ctime() of time() value is: Tue Feb 1 12:25:38 2011 

asctime() of local time is: Tue Feb 1 12:25:38 2011 

strftime() of local time is: mardi, O1 février 2011, 12:25:38 CET 


10.5 更 新 系统 时 钟 


我 们 现在 来 看 两 个 更 新 系统 时 钟 的 接口 : settimeofday0 和 adjtime0 。 这 些 接口 都 很 少 被 应 
用 程序 使 用 ， 因 为 系统 时 间 通 津 是 由 工具 软件 维护 ， 如 网 络 时 间 协 议 (Network Time Protocol) 
守护 进程 ， 并 且 它 们 需要 调用 者 已 被 授权 (CAP_SYS_TIME)。 

系统 调用 settimeofday()Z& gettimeofday0O 的 迹 癌 操作 〈 这 是 我 们 在 10.1 TPR). E 
将 tv 指向 timeval 结构 体 里 的 秒 数 和 微 秒 数 ， 设 置 到 系统 的 日 历时 间 。 














#define BSD SOURCE 
#include «sys/time.h» 


int settimeofday(const struct timeval *£v, const struct timezone */z); 


Returns 0 on success, or -1 on error 








和 函数 gettimeofday0 一 样 ， 刀 参数 已 被 废弃 ， 这 个 参数 应 该 始终 指定 为 NULL， 

tv.tv_usec 字段 的 微 秒 类 度 并 不 意味 春 我 们 以 微 秒 类 度 来 设置 系统 时 钟 ， 因 为 时 钟 的 精度 
可 能 会 低 于 微 秒 。 

虽然 SUSvV3 没有 定义 settimeofday0， 但 它 在 其 他 UNIX 实现 中 被 广泛 使 用 。 





Linux 还 提供 了 stime0O 系 统 调用 来 设置 系统 时 钟 。settimeofday0 和 stime()Z TRI] PX A] 
是 ， 后 者 调用 允许 使 用 秒 的 精度 来 表示 狐 的 日 历时 间 。 和 函数 time0 与 gettimeofdayO 相 同 ， 
stime() 和 settimeofday() 的 并 存 是 由 历史 原因 造成 的 ， 拥有 更 高 精确 度 的 后 一 个 函数 ， 是 由 
4.3BSD 添加 的 。 

















settimeofdayO 调 用 所 造成 的 那 种 系统 时 间 的 突然 变化 , 可 能 会 对 依赖 于 系统 时 钟 单调 递增 
的 应 用 造成 有 害 的 影响 〈 例 如 ，make(1)， 数 据 库 系统 使 用 的 时 间 鹤 或 包 侣 时 间 鹤 记 的 日 志 文 
作 ) 出 于 这 个 原因 , 当 对 时 间 做 微小 调整 时 ( 儿 秒 钟 误差 ), 通常 是 推荐 使 用 库 函数 adjtme0， 
它 将 系统 时 钟 逐步 调整 到 正确 的 时 间 。 











#define BSD SOURCE 
#include «sys/time.h» 


int adjtime(struct timeval *delta, struct timeval *olddelta); 


Returns 0 on success, or - 1 on error 








delta 参数 指 同一 个 timeval 结构 体 , 指定 需要 改变 时 间 的 秒 和 微 秒 数 .如 打 这 个 值 是 正 数 ， 
那么 每 秒 系 统 时 间 都 会 额外 拨 快 一 点 点 ， 直 到 增加 完 所 需 的 时 间 。 如 宋 delta 值 为 员 时 ， 时 钟 
以 类 似 的 方式 减 慢 。 
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Linux/x86-32 以 每 2000 秒 变 化 1 秒 (或 每 天 43.2 W) 的 频率 调整 时 钟 。 


在 adjtime0 函 数 执 行 的 时 间 里 ， 它 可 能 无 法 完成 时 钟 调整 。 在 这 种 情况 下 ,， 晋 余 未 经 调 ， 
整 的 时 间 存 放 在 olddelta 指向 的 timeval 结构 体 肉 。 如 果 我 们 不 关心 这 个 值 ， 我 们 可 以 指定 
olddelta 为 NULL。 相 反 ， 如 末 我 们 上 只 关心 当前 未 完成 时 间 校 正 的 信息 ， 而 并 不 想 改 变 它 ， 我 
们 可 以 指定 delta 参数 为 NULL。 

虽然 SUSv3 未 定义 adjtime0， 可 大 多 数 UNIX 实现 提供 了 这 个 函数 。 

















adjtime() 在 Linux 上 ， 基 于 更 通用 和 复杂 的 特定 于 Linux 的 系统 调用 adjtimex() 来 完成 
功能 。 这 个 系统 调用 也 同时 被 网 络 时 间 协 议 CNTP) 守护 进程 调用 。 如 需 进 一 步 信 息 ， 请 
参阅 Linux 的 源 代 码 ，Linux adjtimex(2) 帮 助手 册页 和 NTP 规范 《〈[Mills，1992] )。 








10.6 ”软件 时 钟 (jiffies) 


在 本 书 中 所 插 述 的 时 间 相 关 的 各 种 系统 调用 的 精度 是 受 限 于 系统 软件 时 钟 (software clock) 
的 分 辩 率 ， 它 的 度量 单位 被 称 为 jiffies。jiffies 的 大 小 是 定义 在 内 核 源 代码 的 常量 HZ。 这 是 内 
核 按 照 round-robin 的 分 时 调度 算法 (35.1 W 分 配 CPU 进程 的 单位 。 

在 2.4 或 以 上 版 本 的 Linux/x86-32 内 核 中 , 软件 时 钟 速度 是 100 24, 也 就 是 说 , ~A jiffy 
是 10 Æ. 

H Linux 面世 以 来 ， 由 于 CPU 的 速度 已 大 大 增加 ，Linux / x86- 32 2.6.0 内 核 的 软件 时 钟 
速度 已 经 提高 到 1000 赫 效 。 更 高 的 软件 时 钟 速率 意味 看 定时 器 可 以 有 更 高 的 操作 精度 和 时 间 
可 以 拥有 更 高 的 测量 精度 。 然 而 ， 这 并 非 可 以 任意 提高 时 钟 频 率 ， 因 为 每 个 时 钟 中 断 会 消耗 
少量 的 CPU 时 间 ， 这 部 分 时 间 CPU 无 法 执行 任何 操作 。 

经 过 内 核 开 发 人 员 之 间 的 的 讨论 ， 最 终 导致 软件 时 钟 频 率 成 为 一 个 可 配置 的 内 核 的 选 
项 (包括 处 理 器 类 型 和 特性 ， 定 时 器 的 频率 )。 自 2.6.13 内 核 ， 时 钟 频 率 可 以 设置 到 100、 
250 CSKU) 或 1000 赫兹 ， 对 应 的 jiffy 值 分 别 为 10、4、1 坚 秒 。 目 内 核 2.6.20， 增 加 了 一 
个 频率 : 300 赫 效 , 它 可 以 被 两 种 第 见 的 视频 帆 速 靳 25 帧 每 秒 (PAL) 和 30 帧 每 秒 (NTSC) 
整除 。 
































10.7 “进程 时 间 


进程 时 间 是 进程 创建 后 使 用 的 CPU 时 间 数 量 。 出 于 记录 的 目的 , 内 核 把 CPU 时 间 分 成 以 
下 两 部 分 。 
e H CPU 时 间 是 在 用 户 模 式 下 执行 所 花费 的 时 间 数 量 。 有 时 也 称 为 虚拟 时 间 (virtual 
time)， 这 对 于 程序 来 说 ， 是 它 已 经 得 到 CPU 的 时 间 。 
。 系统 CPU 时 间 是 在 内 核 模 式 中 执行 所 花 颖 的 时 间 数 量 。 这 是 内 核 用 于 执行 系统 调用 
或 代表 程序 执行 的 其 他 任务 例如， 服务 页 错误 ) 的 时 间 。 
有 时 候 ， 进 程 时 间 是 指 处 理 过 程 中 所 消耗 的 总 CPU 时 间 。 
当 我 们 运行 一 个 shell 程序 , 我 们 可 以 使 用 的 time(1) 命 令 , 同时 获得 这 两 个 部 分 的 时 间 值 ， 
以 及 运行 程序 押 需 的 实际 时 间 。 
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$ time ./myprog 
real O0m4.. 84s 
user 0m1.030s 
Sys 0m3.43s 


系统 调用 times()， 检 索 进 程 时 间 信 息 ， 并 把 结 下 通过 buf 指 问 的 结构 体 返 回 。 








#include «sys/times.h» 


clock t times(struct tms *buf); 


Returns number of clock ticks (sysconf( SC CLK TCK)) since 
"arbitrary" time in past on success, or (clock t) -1 on error 








buf 指向 的 TMS 结构 体 有 下 列 格式 : 


struct tms { 
clock t tms utime;  /* User CPU time used by caller */ 


clock t tms stime;  /* System CPU time used by caller */ 
clock t tms cutime; /* User CPU time of all (waited for) children */ 


clock t tms cstime; /* System CPU time of all (waited for) children */ 
tms 结构 体 的 前 两 个 学 段 返回 调用 进程 到 目前 为 止 使 用 的 用 户 和 系统 组 件 的 CPU 时 间 。 
最 后 两 个 字段 返回 的 信息 是 : 父 进程 (比如 ，times0 的 调用 者 ) 执行 了 系统 调用 wait0 的 所 有 
已 经 终止 的 子 进程 使 用 的 CPU 时 间 。 
数据 类 型 clock t 是 用 时 钟 计时 单元 Celock tick) 为 单位 度量 时 间 的 整 型 值 ， 习 惯用 于 计 
算 tms 结构 体 的 4 个 字段 。 我 们 可 以 调用 sysconfí SC CLK TCK) 来 获得 每 秒 包含 的 时 钟 计时 
单元 数 ， 然 后 用 这 个 数字 除 以 clock t 转换 为 秒 。(〈 我 们 在 11.2 SO sysconf().) 























”在 大 多 数 Linux 的 硬件 架构 ，sysconf( SC CLK TCK) 返 回 100。 与 此 对 应 的 内 核 常量 
是 USER. HZ. 然而 USER_HZ 在 其 他 几 个 架构 下 可 以 被 定义 超过 100, 如 Alpha 和 IA - 64. 














如 末 成 功 ,times(0 返 回 目 过 去 的 任意 点 流逝 的 以 时 钟 计 时 单元 为 单位 的 (真实 的 ) 时 间 。SUSV3 
特别 未 定义 这 点 是 什么 ， 只 是 说 ， 这 将 是 在 调用 进程 的 生命 周期 内 的 一 个 固定 点 。 因 此 ， 这 个 返 
回 值 唯一 的 用 法 是 通过 计算 一 对 titmesO 调 用 返回 的 全 的 震 ， 来 计算 进程 执行 消耗 的 时 间 。 然 而 ， 
即使 是 这 种 用 法 ,timesO0 的 返回 值 仍 然 不 可 和 车 的 ,因为 它 可 能 会 溢出 clock t 的 有 效 范围 , 这 时 times(O) 
的 返回 值 将 再 次 从 0 开始 计算 (也 束 是 说 ， 一 个 稍 后 的 times0 的 调用 返回 的 数值 可 能 会 低 于 一 个 
更 早 的 times0 调 用 )。 可 徘 的 测量 经 过 时 间 的 方法 是 使 用 函数 gettimeofday() (10.1 市 所 述 )。 

在 Linux 上 ， 我 们 可 以 指定 buf 参数 为 NULL。 在 这 种 情况 下 ，times0O 只 是 简单 地 返回 一 
个 函数 结果 。 然 而 ， 这 是 没有 意义 的 。 SUSv3 并 未 定义 buf 可 以 使 用 NULL， 因 此 许多 其 他 
UNIX 实现 需要 这 个 参数 必须 为 一 个 非 NULL 值 。 

函数 clock() 提 供 了 一 个 简单 的 接口 用 于 取得 进程 时 间 。 它 返回 一 个 值 描述 了 调用 进程 使 
用 的 总 的 CPU 时 间 (包括 用 户 和 系统 )。 






































#include <time.h> 


clock t clock(void); 


Returns total CPU time used by calling process measured in 
CLOCKS PER SEC, or (clock t£) -1 on error 
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time0 的 返回 值 的 计量 单位 是 CLOCKS PER SEC， 所 以 我 们 必须 除 以 这 个 值 来 获得 进程 
所 使 用 的 CPU 时 间 秒 数 。 在 POSIX.1, CLOCKS PER SEC 是 常量 10000, 无论 底层 软件 时 
钟 〈《10.6 节 ) 的 分 辨 率 是 多 少 。clockO 的 精度 最 终 仍然 受 限 于 软件 时 钟 的 分 辨 率 。 











虽然 clockO0 和 times0 返 回 相 同 的 数据 类 型 clock t， 这 两 个 接口 使 用 的 测量 单位 却 并 不 
相同 。 这 是 历史 原因 造成 了 clock t 定 义 的 冲突 , 一 个 是 POSIX.1 标准 ， 而 另 一 个 是 C 编程 
| 














即使 CLOCKS PER SEC 是 常量 10000，SUSv3 注 明 ， 这 个 常量 在 不 兼容 XSI (non-XSI- 
conformant) 的 系统 上 可 以 为 整 型 变量 ， 所 以 ， 我 们 不 能 人 简单 地 把 它 作 为 一 个 编译 时 常量 〈( 即 ， 
34 1 Be 9e fi H] H ifdef 预 处 理 表达 式 )。 它 可 能 会 被 定义 为 一 个 长 整数 〈 即 1000000L)， 我 们 
总 是 将 这 个 常量 转换 为 lng， 因 此 我 们 可 以 徐 单 地 用 printf() 把 它 打 印 输出 〈 见 3.6.2 市 )。 

SUSv3 描述 clockO 应 该 返回 “进程 所 使 用 的 处 理 器 时 间 ” 时 有 不 同 的 解释 。 在 一 些 UNIX 
的 实现 中 ，clockO 返 回 的 时 间 包 含 所 有 等 竺 子 进程 使 用 的 CPU 时 间 。 而 在 Linux 上 ， 它 不 
包括 。 


示例 程序 


在 程序 清单 10-5 中 的 程序 演示 了 如 何 使 用 本 节 中 描述 的 功能 。 函 数 displayProcessTimes() 
首先 打印 由 调用 者 提供 的 信息 ， 然 后 使 用 clock0 和 times0 来 获得 和 显示 进程 时 间 。 主 程序 首 
先 调用 函数 displayProcessTimes()， 人 然后 执行 一 个 循环 ， 通 过 重复 调用 getppid0 消 耗 一 些 CPU 
时 间 ， 再 次 调用 displayProcessTimes() 来 查看 这 个 循环 会 消耗 多 少 CPU 时 间 。 当 我 们 使 用 这 个 
程序 调用 getppid0) 十 万 次 ， 这 束 是 我 们 看 到 的 : 


$ ./process time 10000000 
CLOCKS PER SEC-1000000 sysconf( SC CLK TCK)-100 
































At program start: 
clock() returns: O clocks-per-sec (0.00 secs) 
times() yields: user CPU-0.00; system CPU: 0.00 
After getppid() loop: 
clock() returns: 2960000 clocks-per-sec (2.96 secs) 
times() yields: user CPU-1.09; system CPU: 1.87 


程序 清单 10-5: 获取 进程 CPU 时 间 
time/process time.c 
include «sys/times.h» 
include «time.h» 
include "tlpi hdr.h" 


static void /* Display 'msg' and process times */ 
displayProcessTimes(const char *msg) 
1 


struct tms t; 
clock t clockTime; 
static long clockTicks - 0; 


if (msg !- NULL) 
printf("%s", msg); 
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if (clockTicks -- 0) { /* Fetch clock ticks on first call */ 
clockTicks = sysconf( SC CLK TCK); 
if (clockTicks -- -1) 
errExit("sysconf"); 


j 


clockTime = clock(); 
if (clockTime == -1) 
errExit("clock"); 


printf(" clock() returns: %ld clocks-per-sec (%.2f secs)Wn", 
(long) clockTime, (double) clockTime / CLOCKS PER SEC); 


if (times(8t) -- -1) 
errExit("times"); 
printf(" times() yields: user CPU=%.2f; system CPU: 2.2f^n", 
(double) t.tms utime / clockTicks, 
(double) t.tms stime / clockTicks); 


j 


int 
main(int argc, char *argv[]) 


int numCalls, j; 


printf("CLOCKS PER SEC-Xld sysconf( SC CLK TCK)=%ld\n\n", 
(long) CLOCKS PER SEC, sysconf( SC CLK TCK)); 


displayProcessTimes("At program start: Wn"); 


numCalls = (argc > 1) ? getInt(argv[1], GN GT 0, "num-calls") : 100000000; 
for (j = 0; j < numCalls; j++) 
(void) getppid(); 


displayProcessTimes("After getppid() loop: Wn"); 


exit(EXIT SUCCESS); 


time/process time.c 


1 0.8 iz 


真实 时 间 对 应 于 时 间 定 义 的 每 一 天 。 当 真实 时 间 通 过 一 些 标准 点 计算 的 时 候 ， 我 们 称 它 
为 日 历时 间 。 和 经 过 的 时 间 相 对 ， 它 是 度量 一 个 进程 生命 周期 中 的 一 些 点 〈 通 第 是 开始 )。 

进程 时 间 是 由 一 个 进程 使 用 的 CPU 时 间 量 ， 并 划分 为 用 户 时 间 和 系统 时 间 。 

多 种 系统 调用 允许 我 们 获取 和 设置 系统 时 钟 值 * 即 日 历时 间 , 以 秒 为 单位 从 Epoch 计算 )， 
以 及 一 系列 的 库 函 数 能 够 完成 从 日 历时 间 a 到 其 他 时 间 格 式 之 间 的 转换 ， 包 括 分解 时 间 和 具有 
可 该 性 字符 串 。 描 述 这 种 转换 把 我 们 引入 了 地 区 和 国际 化 的 讨论 。 

使 用 和 显示 时 间 和 日 期 是 许多 应 用 程序 的 一 个 重要 组 成 部 分 ， 我 们 会 在 这 本 书后 面 的 章 
市 中 经 常 使 用 到 本 市 摘 述 的 功能 。 我 们 也 会 在 第 23 章 更 多 地 介绍 时 间 的 度量 。 


进一步 的 信息 
关于 Linux 内 核 如 何 度量 时 间 的 详细 信息 可 以 参考 [Love, 2010]. 
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关于 时 区 和 国际 化 的 进一步 讨论 ,可 以 参考 GNU C 库 手 册 (在 线 地 址 : http://www.gnu.org/). 
SUSv3 文档 也 包括 地 区 的 评 细 接 述 。 


10.9 练习 


10-1. 假设 一 个 系统 调用 sysconf( SC CLK TCK) 返 回 的 值 是 100。 假 设 times0O 返 回 
clock t 的 值 是 一 个 无 符号 的 32 位 整数 ， 需 要 多 久 这 个 值 才 能 进入 下 一 个 从 0 开始 
的 周期 ? 对 clock0 返 回 的 CLOCKS_PER_SEC 值 执行 相同 的 计算 。 
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A1. 


系统 限制 和 选项 





但 凡 _ UNIX 实现 ， 无 不 对 各 种 系统 特性 和 资源 加 以 限制 ， 并 提供 《或 者 选择 不 提供 ) 由 
各 种 标准 所 定义 的 选项 ， 例 如 : 
。 一 个 进程 能 同时 拥有 多 少 已 打开 的 文件 ? 
。 系统 是 否 文 持 实时 信号? 
e int 类 型 变量 可 存储 的 最 大 值 是 多 少 ? 
。 一 个 程序 的 参数 列表 能 有 多 大 ? 
。 路 径 名 的 最 大 长 度 是 多 少 ? 
尽管 可 以 把 假定 的 限制 和 选项 便 性 号 入 程序 编码 ， 但 这 将 破坏 程序 的 可 移植 性 ， 因 为 限 
制 和 选项 可 能 会 有 所 不 同 。 
。 在 UNIX KIMLA: 虽然 限制 和 选项 在 某 个 特定 UNIX 实现 中 可 能 是 固定 的 ， 但 在 不 
同 的 UNIX 实现 之 间 ， 可 能 会 有 所 不 同 。int 变量 可 存储 的 最 大 值 就 是 此 类 限制 的 例子 
KR 
e 特定 实现 的 运行 环境 : fu, AENEA IF, d rXIe. Xs TEM 
个 系统 上 编译 的 应 用 程序 ， 却 在 另 一 个 限制 和 选项 有 所 不 同 的 系统 中 运行 。 
e 从 一 个 文件 系统 到 另外 一 个 文件 系统 : 例如 ， 传 统 的 System V 文件 系统 允许 文件 名 
长 达 14 NFP, MRAN BSD 文件 系统 和 大 多 数 “ 原 生 ”Linux 文件 系统 则 允许 文 
件 名 高 达 255 个 字 节 。 
因为 系统 限制 和 选项 会 影 啊 应 用 程序 的 行为 ， 所 以 可 移植 应 用 程序 需要 获取 限制 值 ， 弄 
清 系统 对 选项 的 文 持 情 况 。C 语言 标准 和 SUSv3 为 此 而 提供 了 两 种 重要 途径 。 
e 在 编译 程序 时 能 够 获得 一 些 限 制 和 选项 。 例 如 ，int 类 型 的 最 大 值 取 决 于 人 硬件 结构 和 编 
评 器 的 设计 选择 。 此 美 限 制 可 在 头 文件 中 记录 。 
e 另外 一 些 限 制 和 选项 在 程序 运行 时 可 能 会 有 变化 。 对 此 ，SUSv3 定义 了 3 个 函数 
sysconf()、pathconf() 和 fpathconf()， 供 应 用 程序 调用 以 检查 系统 实现 的 限制 和 选项 。 
SUSv3 规定 有 一 系列 限制 ， 要 求人 符合 规范 的 实现 必须 文 持 ， 同 时 还 规定 了 一 套 选 项 ， 特 
定 系统 可 以 有 选择 地 对 其 中 各 个 选项 予以 支持 。 本 章 介 绍 了 部 分 限制 和 选项 ， 其 余 则 会 在 后 
续 章 和 中 适时 加 以 描述 。 
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11.1 系统 限制 


SUSv3 要 求 ， 针 对 其 所 规 苑 的 每 个 限制 ， 所 有 实现 都 必须 文 持 一 个 最 小 值 。 在 大 多 数 情 
况 下 ， 会 将 这 些 最 小 值 定义 为 <limits.h> 文 件 中 的 和 常量， 其 命名 则 冠 以 学 符 串 POSIX, mHE. 
(通常 ) 还 包含 字符 串 MAX， 因此， 党 量 命名 形 如 POSIX XXX MAX. 

如 果 应 用 程序 将 本 里 限制 在 SUSv3 对 每 个 限制 所 要 求 的 最 小 值 之 内 , 那么 该 程序 对 符合 标准 
的 所 有 实现 都 具有 可 移植 性 。 然而, 这 一 做 法 阻碍 了 应 用 程序 去 利用 特定 实现 可 提供 的 更 高 限制 。 
因此 , 在 特定 系统 上 获取 限制 , 通常 更 为 可 取 的 方法 是 使 用 <limits.h> 文 件 、sysconf0 或 patheonf(). 









































SUSv3 将 其 所 定义 的 各 类 限制 插 述 为 最 小 值 ， 但 命名 却 使 用 了 字符 串 MAX， 这 可 能 
央 令 人 疑惑 。 换 一 种 思路 ， 将 此 类 币 量 中 的 每 一 个 都 视 为 对 东突 资源 或 特性 的 上 限 ， 且 标 
准 要 求 这 些 上 限 都 必须 拥有 一 个 确定 的 最 小 值 ， 这 种 命名 的 用 意 也 束 不 言 目 明了 。 

在 东 些 情况 下 , 会 为 条 个 限制 提供 最 大 值 , 并 且 在 对 这 些 值 的 命名 中 包含 字符 串 _MIN。 
对 于 这 些 癌 量 ， 道 理 正好 反 过 来 ， 它们 代表 了 对 东 些 资源 的 下 限 ， 按 照 标 准 规定 ， 在 符合 
标准 的 实现 中 ， 该 下 限 不 能 高 于 某 个 值 。 例 如 ， 限 制 FLT_MIN(1E-37) 为 人 条 个 实现 中 所 能 
征 的 最 小 浮 点 数 定义 了 最 大 值 。 所 有 满足 标准 的 实现 至 少 能 够 表征 如 此 之 小 的 浮 点 数 。 



































每 个 限制 都 有 一 个 名 称 ， 与 上 述 最 小 值 的 名 称 相对 应 ， 但 缺少 了 _POSIX Bus A SH 
可 以 在 <limits.h> 文 件 中 以 该 名 称 定 义 一 个 常量 ， 用 以 表示 该 实现 的 相应 限制 。 硅 已 然 定义 ， 
则 该 限制 值 总 古人 至 少 等 同 于 前 述 最 大 值 CHI XXX MAX >=_POSIX XXX MAX). 

SUSv3 将 其 规定 的 限制 归 为 3 类 : 运行 时 恒定 值 、 路 径 名 变量 值 和 运行 时 可 增加 值 。 在 
下 列 段落 中 将 描述 这 些 关 别 并 提供 一 些 例子 。 
运行 时 恒定 值 〈 可 能 不 确定 ) 

所 谓 运 行 时 恒定 值 是 指 茶 一 限制 ， 若 已 然 在 <limits.h> 文 件 中 定义 ， 则 对 于 实现 而 言 固 定 
不 变 。 然 而 该 值 可 能 是 不 确定 的 (因为 该 值 可 能 依赖 于 可 用 的 内 存 空间 )， 因 而 在 <limits.h> 文 
件 中 会 忽略 对 其 定义 。 在 这 种 情况 下 (即使 在 <limits.h> 文 件 中 已然 定义 了 该 限制 )， 应 用 程序 
可 以 使 用 sysconf0) 来 获取 运行 时 的 值 。 

MQ PRIO MAX 限制 惑 是 运行 时 恒定 值 的 例子 之 一 。 正 如 52.5.1 节 所 述 ， 针 对 POSIX 1H 
县 队列 中 的 消息 ， 存 在 着 优先 级 方面 的 限制 。SUSv3 定义 了 值 为 32 的 常量 POSIX MQ 
PRIO_MAX， 将 其 作为 符合 规范 的 实现 为 该 限制 所 必须 提供 的 最 小 值 。 这 意味 春 ， 所 有 符合 
规范 的 实现 ， 其 对 消息 优先 级 的 文 持 全 少 应 为 从 0 一 31.。 一 个 UNIX 实现 可 以 为 此 限制 设 定 更 
局 值 ， 并 将 该 值 在 <limits.h> 文 件 中 以 币 量 MQ PRIO MAX 加 以 定义 。 例 如 ，Linux WK 
MQ PRIO MAX 的 值 定义 为 32768。 也 可 以 通过 下 列 调 用 在 运行 时 获取 该 值 : 

lim = sysconf( SC MO PRIO MAX); 


VET dB 

所 谓 路 径 名 变量 值 是 指 与 路 径 名 〈 文 件 、 目 录 、 终 端 等 ) 相关 的 限制 ， 每 个 限制 可 能 是 
相对 于 某 个 系统 实现 的 常量 ， 也 可 能 随 文件 系统 的 不 同 而 不 同 。 在 限制 可 能 因 路 径 名 而 发 生 
变化 的 情况 下 ， 应 用 程序 可 以 使 用 pathconf() EX fpathconfO 来 获取 该 值 。 

NAME MAX 限制 是 路 径 名 变量 值 的 例子 之 一 。 此 限制 定义 了 在 一 个 特定 文件 系统 中 文 
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件 名 的 最 大 长 度 。SUSv3 定义 了 值 为 14 〈 老 版 本 的 System. V 文件 系统 限制 ) 的 常量 
_POSIX NAME_MAX,， 作 为 系统 实现 必须 文 持 的 最 小 限制 值 。 系 统 实现 可 以 定义 一 个 高 于 此 
值 的 NAME_MAX 限制 , 并 /或 回应 用 开放 如 下 形式 的 调用 , 以 获取 特定 文件 系统 的 相关 信息 : 
lim = pathconf(directory path, PC NAME MAX) 
参数 directory path 是 目标 文件 系统 上 的 目录 路 径 名 。 


运行 时 可 增加 值 

运行 时 可 增加 值 是 指 菜 一 限制 ， 相 对 于 特定 实现 其 值 国定 ， 且 运行 此 实现 的 所 有 系统 全 
少 都 应 文 持 这 一 最 小 值 。 然 而 ,特定 系统 在 运行 时 可 能 会 增加 该 值 , 应 用 程序 可 以 使 用 sysconf() 
来 获得 系统 所 文 持 的 实际 值 。 

运行 时 可 增加 值 的 例子 之 一 是 NGROUPS MAX, 该 限制 定义 了 一 进程 可 同时 从 属 的 辅助 
2H ID (9.6 节 ) 的 最 大 数量 。SUSv3 定义 了 相应 的 最 小 值 POSIX NGROUPS MAX， 其 值 为 
8。 应 用 可 在 运行 时 通过 调用 sysconf( SC NGROUPS MAX) 来 获取 此 限制 值 。 


对 选 定 SUSv3 限制 的 总 结 
K 11-1 列举 了 与 本 书 有 关 , 由 SUSv3 所 定义 的 部 分 限制 (其 他 限制 将 在 后 续 章节 中 加 以 介绍 )。 
表 11-1: 选 定 的 SUSv3 限制 


限制 名 称 "T 在 sysconf() / pathconf() " M 
(<limits.h>) : 中 的 参数 命名 (<unistd.h>) 


提供 给 execO 的 参数 (argv) 与 环境 变量 
ARG MAX .SC ARG MAX (envirom 所 占 存储 空间 之 和 的 最 大 字 
"HZ CIL 6.7 市 和 27.2.3 市 ) 
none .SC CLK TCK 为 timesO 提 供 的 度量 单位 


LOGIN NAME 
MAX 


























.SC LOGIN NAME MAX | 登录 名 的 最 大 长 度 〈 含 终止 空 字 符 ) 


进程 同时 可 打开 的 文件 摘 述 符 的 最 大 
OPEN MAX .SC OPEN MAX 数量 ， 比 可 用 文件 摘 述 符 的 最 大 数量 
多 1 个 〈 见 36.2 59) 
进程 所 属 辅助 组 ID 数量 的 最 大 值 ( 见 
9.7.3 TT) 
一 个 虚拟 内 存 页 的 大 小 
( SC PAGE SIZE 与 其 同 义 ) 








NGROUPS MAX SC NGROUPS MAX 








none _SC PAGESIZE 





RTSIG MAX .SC RTSIG MAX 单一 实时 信号 的 最 大 数量 〈 见 22.8 1) 





SIGQUEUE MAX . SC SIGQUEUE MAX 排队 实时 信和 号 的 最 大 数量 〈 见 22.8 77) 
STREAM MAX SC STREAM MAX 同时 可 打开 的 stdio 流 的 最 大 数量 
排除 终止 空 字符 外 ， 文 件 名 称 可 达 的 
Ip IKE 
AR. 多 N HE e -- L5. Br ! A~ 
PATH MAX PC PATH MAX dia WUATUECAUWERE WE 
HP CI. v 


一 次 性 〈 原 子 操作 ) 写 入 管道 或 FIFO 
中 的 最 大 字 节 数 (44.177) 





NAME MAX PC NAME MAX 








PIPE BUF _PC PIPE BUF 








第 11 章 系统 限制 和 选项 175 


异步 社区 会 员 flyman150(2410757683 (9 qq.com) EF 尊重 版 权 











K 11-1 中 的 第 一 列 给 出 了 限制 的 名 称 ， 可 将 其 作为 常量 定义 于 <limits.h> 文 件 中 ， 用 于 表 
示 特 定 实现 下 的 限制 。 第 二 列 是 SUSv3 为 这 些 限 制 所 定义 的 最 小 值 〈 也 定义 于 <limits.h> 文 件 
中 )。 在 大 多 数 情况 下 ， 会 将 每 个 限制 的 最 小 值 定 义 为 冠 以 字符 串 _POSIX 的 常量 。 例 如 ， 常 
i& POSIX RTSIG MAX (其 值 为 8) 为 SUSv3 实现 对 相应 RTSIG MAX 常量 的 最 低 要 求 。 第 
三 列 列 出 了 为 在 运行 期 间 获取 实现 的 限制 , 调用 sysconfO 或 pathconfO 时 应 输入 入 参 的 第 量 
WLA SC 的 常量 用 于 sysconfÜ, LÀ PC 的 常量 用 于 pathconfD 和 fpathconf0。 
下 列 为 对 表 11-1 的 补充 信息 ， 请 了 予 关注 。 
e getdtablesize0 函 数 是 确定 进程 文件 描述 符 (OPEN_MAX) 限 制 的 备 选 方 法 , CORTE, 
该 函数 曾 一 度 为 SUSv2 MEX RWA LEGACY), 但 SUSv3 将 其 剔除 。 
e getpagesize0 函 数 是 确定 系统 页 大 小 (SC PAGESIZE) 的 备 选 方法 ， 已 然 废弃 。 该 
函数 一 度 曾 为 SUSv2 所 定义 (标记 为 LEGACY)， 但 SUSv3 将 其 剔除 。 
e 定义 于 <stdio.h> 文 件 中 的 常量 FOPEN MAX， 等 同 于 常量 STREAM MAX. 
。 NAME MAX 不 包含 终止 空 字符 ， 而 PATH MAX 则 包括 。POSIX.1 标准 在 定义 
PATH MAX 时 ， 对 于 是 人 否 包含 终止 空 字符 始终 含糊 不 请， 而 上 述 差 异 则 恰好 弥补 了 
这 一 缺陷 。 定 义 PATH MAX 中 包含 终止 符 也 意味 看 ， 为 路 径 名 称 分 配 了 PATH MAX 
个 字 节 的 应 用 程序 依然 符合 标准 。 


从 shell 中 获取 限制 和 选项 : getconf 

在 shell rH, 可 以 使 用 getconf 命令 获取 特定 UNIX 系统 中 已 然 实 现 的 限制 和 选项 。 该 命令 
的 格式 一 般 如 下 ; 

$ getconf variable-name | pathname | 

variable-name 标识 用 户 意 欲 获 取 的 限制 ， 应 是 符合 SUSV3 标准 的 限制 名 称 ， 例 如 : 
ARG MAX 或 NAME_MAX。 但 凡 限 制 与 路 径 名 相关 ， 则 还 需要 指定 一 个 路 径 名 ， 作 为 命令 
的 第 二 个 参数 ， 如 下 第 二 个 实例 所 示 。 


$ getconf ARG MAX 

131072 

$ getconf NAME MAX /boot 
255 


11.2 ”在 运行 时 获取 系统 限制 〈 和 选项 ) 


sysconf() 函 数 允 许 应 用 程序 在 运行 时 获得 系统 限制 值 。 



































#include «unistd.h» 


long sysconf(int name); 


Returns value of limit specified by name, 
or -1l if limit is indeterminate or an error occurred 

















参数 name 应 为 定义 于 <unistd.h> 文 件 中 的 _SC 系列 常量 之 一 ， 其 中 部 分 在 表 11-1 中 已 有 
所 罗列 。 限 制 值 将 作为 函数 结果 返回 。 

各 无 法 确定 某 一 限制 ， 则 sysconfO 返 回 -1。 大 调用 sysconfO 函 数 时 发 生 错 误 ， 也 会 返回 
-1。( 唯 一 指定 的 错误 是 EINVAL， 表 示 name 无 效 。) 为 区 别 上 述 两 种 情况 ， 必 须 在 调用 函数 
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前 将 erno 设置 为 0， 如 果 调 用 返回 -1， 且 调用 后 erno 值 不 为 0， 那 么 调用 sysconfO 函 数 时 
发 生 了 错误 。 


由 





sysconf() 函 数 所 返回 的 限制 值 类 型 总 是 (长 〉》 整 型 (pathconf() 和 fpathconfO 也 是 如 














此 )。 在 对 sysconf() 函 数 的 原理 接 述 中 ，SUSv3 特意 指出 ,一度 置 考虑 将 子 符 串 作 为 可 能 的 
返回 值 ， 但 由 于 实现 和 使 用 的 复杂 性 而 最 终 放 径 了 这 一 构想 。 





程序 清单 11-1 所 示 为 调用 sysconf0) 来 展示 各 种 系统 限制 。 在 某 一 Linux 2.6.31/x86-32 系 


统 上 运行 该 程序 ， 将 产生 如 下 结果 : 
$ ./t sysconf 
_SC ARG MAX: 2097152 
.SC LOGIN NAME MAX: 256 
_SC OPEN MAX: 1024 
_SC NGROUPS MAX: 65536 
_SC PAGESIZE: 4096 
_SC RTSIG MAX: 32 


程序 清单 11-1. 使 用 sysconf() 函 数 


syslim/t sysconf.c 


include "tlpi hdr.h" 


static void /* Print 'msg' plus sysconf() value for 'name' */ 
sysconfPrint(const char *msg, int name) 


i 


int 


long lim; 

errno = 0; 

lim = sysconf(name); 

if (lim != -1) { /* Call succeeded, limit determinate */ 
printf("Xs %ld\n", msg, lim); 

} else { 
if (errno -- 0) /* Call succeeded, limit indeterminate */ 

printf("%s (indeterminate)Nn", msg); 

else /* Call failed */ 


errExit("sysconf Xs", msg); 


main(int argc, char *argv[]) 


sysconfPrint(" SC ARG MAX: ", SC ARG MAX); 
sysconfPrint(" SC LOGIN NAME MAX: ", SC LOGIN NAME MAX); 
sysconfPrint(" SC OPEN MAX: ", SC OPEN MAX); 


3 
3 
3 
sysconfPrint(" SC NGROUPS MAX: "s _SC NGROUPS MAX); 
sysconfPrint(" SC PAGESIZE: ", SC PAGESIZE); 
sysconfPrint(" SC RTSIG MAX: ", SC RTSIG MAX); 
exit(EXIT SUCCESS); 


syslim/t sysconf.c 





SUSv3 要 求 ， 针 对 特定 限制 ， 调 用 sysconfO) 所 获取 的 值 在 调用 进程 的 生命 周期 内 应 保持 不 
变 。 例 如 ， 就 可 以 这 样 认 定 : 针对 SC PAGESIZE 限制 的 返回 值 在 进程 运行 期 间 不 会 改变 。 
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fr Linux 系统 中 ,对 于 上 述 要求 , 有 一 些 (合理 的 ) 例外 。 进 程 能 够 使 用 setrlimit() CJ 36.2 
THO 修改 进程 的 各 种 资源 限制 ， 这 会 波及 由 sysconfO 押 报告 的 限制 值 ; RLIMIT NOFILE, iz 
限制 确定 进程 能 够 打开 的 文件 数量 ( SC OPEN MAX); RLIMIT NPROC( 实 际 并 未 纳入 
SUSv3 中 )， 即 允许 进程 基于 每 用 户 所 创建 的 子 进程 限额 ( SC CHILD MAX); 
RLIMIT STACK, 45$] Linux 2.6.23 版 本 ， 访 限制 确定 了 进程 的 命令 行 参数 和 环境 变量 所 占 存 
储 空间 的 限额 C SC ARG MAX, RRS N, execve(2) 手 册页 )。 


11.3 ”运行 时 获取 与 文件 相关 的 限制 (和 选项 ) 


pathconf()fll fpathconf0) 函 数 允 许 应 用 程序 在 运行 时 获取 文件 相关 的 限制 值 。 








#include «unistd.h» 


long pathconf(const char *pathname, int name); 
long fpathconf(int fd, int name); 


Both return value of limit specified by name, 
or -1 if limit is indeterminate or an error occurred 











pathconf() 和 fpathconfO 之 间 唯 一 的 区 别 在 于 对 文件 或 目录 的 指定 方式 。pathconfO 采 用 路 
径 名 方式 来 指定 ， 而 印 athconfO 则 使 用 〈 之 前 已 经 打开 的 ) 文件 描述 和 从。 

参数 name 则 是 定义 于 <unistd.h> 文 件 中 的 _PC 系列 常量 之 一 ， 在 表 11-1 中 己 经 列举 了 其 
中 的 一 部 分 。 表 11-2 又 针对 表 11-1 中 展示 的 _PC_* 常 量 ， 提 供 了 更 深入 的 细 市 。 

限制 的 值 将 作为 函数 结果 返回 。 如 要 区 分 限制 值 不 确定 与 发 生 错误 的 情况 ， 应 对 方式 与 
sysconf() 相 同 。 

X T: sysconfPRZit, SUSv3 并 不 要 求 pathconf() fll fpathconfO 的 返回 值 在 进程 的 生命 局 
期 内 保持 恒定 。 这 是 因为 ， 例 如 ， 在 进程 运行 期 间 ， 可 能 会 秋 载 一 个 文件 系统 ， 然 后 再 以 不 
同 特性 重新 闭 载 该 文件 系统 。 


X 11-2: pathconf() 了 为数 中 ， 选 定 _PC_ 系 列 命名 的 详细 说 明 
































.PC NAME MAX | 针对 目录 ， 返 回 该 目录 下 文件 命名 的 最 大 长 度 ， 对 于 其 他 文件 类 型 ， 则 未 作 规 
定 








_PC PATH MAX | 对 于 目录 ， 返 回 该 目录 中 相对 路 径 名 的 最 大 长 度 ， 对 于 其 他 文件 类 型 ， 则 未 作 规定 











.PC PIPE BUF 对 于 FIFO 或 者 管道 ， 返 回 一 个 应 用 于 引用 文件 的 值 。 对 于 目录 ， 返 回 的 值 应 用 
于 在 该 目录 下 创建 的 一 FIFO。 对 于 其 他 文件 类 型 ， 则 未 作 规 定 


程序 清单 11-2 所 示 为 针对 由 标准 输入 所 指 问 的 文件 ， 使 用 fpathconfl) 函 数 获取 各 种 限制 。 
运行 该 程序 时 ， 帮 将 ext2 文件 系统 上 的 某 一 目录 指定 为 标准 输入 ， 可 产生 如 下 结果 : 
$ ./t fpathconf < . 
PC NAME MAX: 255 


PC PATH MAX: 4096 
PC PIPE BUF: 4096 
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程序 清单 11-2: 使 用 fpathconf() 函 数 


syslim/t fpathconf.c 


include "tlpi hdr.h" 


static void /* Print 'msg' plus value of fpathconf(fd, name) */ 
fpathconfPrint(const char *msg, int fd, int name) 


j 


int 


long lim; 


errno - 0; 
lim = fpathconf(fd, name); 
if (lim != -1) { /* Call succeeded, limit determinate */ 
printf("Xs %ld\n", msg, lim); 
} else { 
if (errno == 0) /* Call succeeded, limit indeterminate */ 
printf("%s (indeterminate)\n", msg); 
else /* Call failed */ 
errExit("fpathconf Xs", msg); 


main(int argc, char *argv[]) 


fpathconfPrint(" PC NAME MAX: ", STDIN FILENO, PC NAME MAX); 
fpathconfPrint(" PC PATH MAX: ", STDIN FILENO, PC PATH MAX); 
fpathconfPrint(" PC PIPE BUF: ", STDIN FILENO, PC PIPE BUF); 
exit(EXIT SUCCESS); 


syslim/t fpathconf.c 


11.4 不 确定 的 限制 


有 时 , 系统 实现 并 未 将 一 些 系 统 限制 定义 为 限制 常量 (比如 : PATH. MAX), 并 且 sysconf() 
或 pathconfO 在 返回 相应 限制 (比如 PC PATH. MAX) 时 会 将 其 归 为 不 确定 。 对 此 ， 可 采用 如 下 
RRL — e 











当 编 写 一 个 可 在 多 个 UNIX 实现 间 移 植 的 应 用 程序 时 , 可 选择 使 用 SUSv3 所 规定 的 最 
低 限 制 值 。 此 类 以 POSIX * MAX 形式 命名 的 常量 ， 有 具体 参见 11.1 节 。 此 方法 有 时 
并 不 可 行 ， 因 为 该 限制 之 低 已 经 超 乎 实际 情况 ， 正 如 _POSIX _PATH MAX 和 
. POSIX OPEN MAX 的 情况 。 

在 某 些 情况 下 ， 切 实 可 行 的 解决 方法 是 省 去 对 限制 的 检查 ， 取 而 代 之 以 执行 相关 的 系 
统 调用 或 库 函 数 。( 类 似 观 点 也 适用 于 11.5 节 中 所 描述 的 一 些 SUSv3 选项 。) 如 果 调 
用 失败 ， 且 ermo 表明 出 错 是 由 于 超出 了 系统 限制 时 ， 那 么 可 以 根据 需要 调整 应 用 的 
行为 ， 并 再 次 尝试 调用 。 例 如， 对 于 可 发 送 给 进程 的 实时 信号 队列 长 度 , 大 多 数 UNIX 
实现 都 进行 了 强制 限制 。 一 旦 达到 限额 ， 试 图 进一步 发 送信 号 〈 使 用 sigqueueQ PRO 
将 以 失败 告终 ， 且 会 将 错误 号 errorno 置 为 EAGAIN。 这 时 ， 发 送 进程 只 需 简 单 重 试 
即 可 ， 或 许 是 在 等 待 片刻 之 后 。 与 之 相 类 似 ， 试 图 打开 一 个 文件 时 ， 若 文件 命名 过 长 ， 
将 会 产生 ENAMETOOLONG 错误 ,之 后 应 用 程序 可 以 一 个 更 加 简短 的 命名 进行 重 试 。 
自行 编写 程序 或 函数 ， 以 推断 或 估算 限制 值 。 无 论 在 哪 一 种 情况 下 ， 都 会 调用 相关 的 
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sysconf()&k pathconf()， 大 限制 不 确定， 则 函数 将 返回 一 合理 估 值 。 RUN Nc. fH 
这 种 解决 方案 往往 在 实践 中 是 可 行 的 。 

e 也 可 以 利用 请 如 GNU Autoconf 之 类 的 扩展 工具 ， 该 工具 能 够 确定 各 种 系统 特性 及 限 
制 存在 与 否 、 如 何 设 置 。Autoconf 程序 可 基于 其 收集 到 的 信息 而 生成 头 文 件 ， 并 能 在 
C 程序 中 将 其 包含 EA. XF Autoconf 的 更 多 信息 ， 请 参考 http//www.gnu.org/ 
software/autoconf/ 中 的 内 容 。 






































11.5 ”系统 选项 


除了 对 各 种 系统 资源 的 限制 加 以 规范 外 ，SUSv3 还 规定 了 UNIX 实现 可 支持 的 各 种 选项 。 
这 包括 对 诸如 实时 信号 、POSIX 共享 内 存 、 任 务 控 制 以 及 POSIX 线程 之 类 功能 的 文 持 。 除 少 
数 特例 外 ， 并 未 要 求实 现 支 持 这 些 选项 。 相 反 ， 对 于 实现 在 编译 及 运行 时 是 否 支 持 某 一 特定 
特性 ，SUSv3 允许 实现 自行 给 出 建议 。 

通过 在 <unistd.h> 文 件 中 定义 相应 常量 ， 实 现 能 够 在 编译 时 通告 其 对 特定 SUSv3 选项 的 
支持 。 此 类 常量 的 命名 均 会 冠 以 前 级 (比如 POSIX 或 者 XOPEN )， 以 标识 其 源 于 何 种 
标准 。 

各 个 选项 常量 ， 一 经 定义 ， 其 值 必 为 下 列 之 一 。 

e 值 为 -1， 表 示 实 现 不 文 持 该 选项 。 此 时 ， 系 统 实 现 无 需 定 义 与 该 选项 有 关 的 头 文 

件 、 数 据 类 型 和 函数 接口 。 可 以 使 用 #f 预 处 理 程序 指令 ， 通 过 条 件 编译 来 处 理 这 
种 情况 。 
e 值 为 0， 表 示 实 现 可 能 文 持 该 选项 。 应 用 程序 必须 在 运行 时 检查 该 选项 是 否 获得 文 持 。 
e [HX] 0， 则 表示 实现 文 持 该 选项 。 实 现 定 义 了 与 该 选项 有 关 的 所 有 头 文件 、 数 据 类 
型 和 函数 接口 ， 且 其 行为 也 符合 规范 要 求 。 在 很 多 情况 下 ，SUSv3 要 求 这 一 正 值 为 
200112L， 访 常量 对 应 于 批准 SUSv3 标准 的 年 、 月 。(SUSv4 中 ， 将 类 似 功能 的 值 设 
为 200809L.) 

当 定 义 常 量 为 0 时 ， 应 用 程序 可 使 用 sysconfOsI pathconfO 〈 或 fpathconfO) 在 运行 时 检 
得 选项 是 否 获得 实现 的 文 持 。 传 递 给 这 些 函 数 的 入 参 name， 其 命名 通常 与 编译 时 常量 形式 相 
同 ， 只 是 前 绥 为 SC 或 PC 所 取代 。 系 统 实现 必须 至 少 提供 头 文件 、 第 量 以 及 实施 运行 时 
检查 所 必要 的 函数 接口 。 


对 于 未 定义 的 选项 常量 ， 其 含义 到 展 等 同 于 常量 0《〈 可 能 文 持 该 选项 ) 还 是 -1 〈 不 文 
持 该 选项 )，SUSv3 并 未 做 出 明确 规定 。 随 后 ， 标 准 委 员 会 作出 裁决 ， 规 定 这 种 情况 应 与 定 
义 为 -1 的 常量 含义 相同 ， 并 且 SUSv4 对 此 明确 作出 了 规定 。 


















































K 11-3 列举 了 SUSv3 所 规定 的 一 些 选项 。 表 中 第 一 列 针 对 选项 (定义 于 <unistd.h> 文 件 
中 ) 给 出 了 相关 编 详 时 向 量 的 名 称 ， 以 及 sysconf()(_SC_*) 和 pathconf0)(_PC_*) 函 数 的 相应 
AZ name 值 。 对 于 特定 选项 ， 请 注意 以 下 几 点 。 
e 菏 些 选项 在 SUSv3 中 是 必需 的 ， 即 编译 时 其 常量 值 总 应 大 于 0。 历史 上 ， 这 些 选 项 一 
皮 确 实 曾 是 可 选项 ， 但 如 今 已 是 时 过 境 迁 。“ 备注” 栏 会 以 学 人 符 “+” 标 识 此 类 选项 。 
(许多 在 SUSv3 中 的 可 选项 在 SUSv4 中 已 经 成 为 必 选 项 。) 




















1 译 者 注 : include. 
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虽然 这 些 选项 在 SUSv3 中 是 必需 的 ， 但 在 安装 一 些 UNIX 系统 时 ， 夯 配置 不 当 ， 系 统 
依然 会 与 规范 人 不符。 因此 ， 对 可 移植 的 应 用 程序 而 言 ， 不 管 标 准 是 否 对 影 啊 应 用 的 选项 作 
出 了 了 要求， 总 应 检查 系统 是 合 文 持 该 选项 。 


。 对 于 茶 些 选项 ， 其 编 详 时 和 常量 必须 为 -1 以 外 的 值 。 换 言 之 ， 要 么 必须 支持 该 选项 ， 要 
么 必须 有 方法 可 以 检查 出 系统 在 运行 时 是 合 文 持 该 选项 。 这 些 选 项 的 “备注 ” 栏 以 字 
人 符 “* ”标识 这 些 选 项 。 


表 11-3: 已 选 的 SUSv3 选项 
选项 ( 常量 ) 名 
( sysconf() / pathconf0 A € name 名 ) 
|. POSIX ASYNCHRONOUS IO 
rz I/O 


仅 有 特权 级 进程 能 够 使 用 chown() 和 fchown() 
函数 将 文件 的 用 户 ID 和 组 ID 修改 为 任意 值 
615.32 T) 























描 X 


POSIX CHOWN RESTRICTED 
( PC CHOWN RESTRICTED) 





POSIX JOB CONTROL 
( SC JOB CONTROL) 


POSIX MESSAGE PASSING 


POSIX 消息 队列 (第 52 章 ) 
( SC MESSAGE PASSING) KANZ GE 52 章 


_POSIX PRIORITY SCHEDULING 
( SC PRIORITY SCHEDULING) 


POSIX REALTIME SIGNALS 
( SC REALTIME SIGNALS) 


进程 调度 (35.3 T) 





实时 信号 扩展 (22.8 T) 


进程 拥有 的 你 存 (saved)set-user-ID 和 保存 
(saved)set-group-ID (9.4 ^11) 


POSIX SAVED IDS(none) 


POSIX SEMAPHORES 
( SC SEMAPHORES) 


POSIX SHARED MEMORY OBJECTS 
( SC SHARED MEMORY OBJECTS) 


POSIX 信号 〈 第 53 38) 





POSIX 共享 内 存 对 象 〈 第 54 38) 


POSIX THREADS 
( SC THREADS) 


. XOPEN UNIX 


地 XSI 扩展 功能 (1.3.4 45) 
( SC XOPEN UNIX) 支持 XSI 扩展 功能 节 





11.6 ”总结 


IUS -H 


对 于 系统 实现 必须 支持 的 限制 和 可 能 支持 的 系统 选项 ，SUSv3 都 做 了 规范 。 

通常 ， 不 建议 将 对 系统 限制 和 选项 的 假设 值 硬 性 写 入 应 用 程序 代码 ， 因 为 这 些 值 既 可 能 
随 系 统 的 不 同 而 发 生变 化 ， 也 可 能 在 同一 个 系统 实现 中 因 不 同 的 运行 期 间或 文件 系统 而 不 同 。 
因此 ，SUSv3 规定 了 一 干 方法 ， 借 助 于 此 ， 系 统 实现 可 发 布 其 所 支持 的 限制 和 选项 。 对 于 大 
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多 数 限 制 ，SUSv3 规定 了 所 有 实现 所 必须 文 持 的 最 小 值 。 此 外 ， 每 个 实现 还 能 在 编 详 时 (通过 
定义 于 <limits.h> 或 <unistd.h> 文 件 中 的 和 常量) 和 /或 运行 时 (通过 调用 sysconf(). pathconf() 
或 fpathconf() KZO 发 布 其 特有 有 的 限制 和 选项 。 此 类 技术 同样 可 应 用 于 找 出 实现 所 支持 的 
SUSv3 选项 。 在 一 些 情况 下 ， 无 论 使 用 上 述 何 种 方法 ， 都 不 能 获取 某 个 特定 限制 的 值 。 对 于 
这 些 不 确定 的 限制 ， 必 须 采 用 特殊 技术 来 确定 应 用 程序 所 应 遵循 的 限制 。 


更 多 信息 

[Stevens & Rago，2005] 第 1 章 和 [Gallmeister，1995] 第 2 章 均 涵盖 了 与 本 章 相 类 似 的 知识 ， 
[Lewine，1991] 也 提供 了 很 多 有 用 的 〈 尽 管 稍 有 过 时 ) 背景 知识 。 在 Linux 及 glibc 中 与 POSIX 选 
项 有 关 的 一 些 详细 信息 ， 可 见 诸 于 http://people.redhat.com/drepper/posix-option-groups.html。 相 关 
的 Linux 手册 页 如 下 : sysconf(3)、pathconf(3)、 feature test macros(7)、 posixoptions(7) 和 和 
standards(7)。 

最 佳 的 信息 来 源 (虽然 有 时 难以 理解 ) 还 是 SUSv3 中 的 相关 部 分 , 特别 是 基本 定义 (XBD) 
的 第 2 章 以 及 针对 <unistd.h>、<limits.h>、sysconfO 和 fpathconfO 的 规格 说 明 。[Josey，2004] 
也 为 SUSv3 的 使 用 提供 了 指导 。 






































11.7 练习 


11-1. 尝试 在 其 他 UNIX 实现 中 运行 程序 清单 11-1 所 列 程序 。 
11-2. 尝试 在 其 他 文件 系统 中 运行 程序 清单 11-2 所 列 程序 。 
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:12. 


系统 和 进程 信息 








本 曹 将 研究 一 系列 系统 和 进程 信息 的 访问 方法 ， 重 点 讨论 /proc 文件 系统 。 本 革 还 摘 述 了 
unameO 系 统 调 用 ， 访 调用 用 于 获取 各 种 系统 标识 。 


12.1 /proc 文件 系统 


ERER UNIX 实现 中 ， 通 种 并 无 简单 方法 来 获取 《或 修改 ) 内 核 属 性 并 回答 如 下 问题 : 

e 系统 中 有 多 少 进程 正在 运行 ， 其 属 主 是 谁 ? 

“个 进程 已 经 打开 了 什么 文件 ? 

。 目前 锁定 了 什么 文件 ， 哪 些 进 程 持 有 这 些 锁 ? 

。 系统 正在 使 用 什么 套 接 字 (socket) ? 

一 些 老 版 UNIX 实现 解决 这 一 问题 的 方法 是 允许 特权 级 程序 深入 内 核 内 存 中 的 数据 结构 。 
然而 ， 这 会 带 来 各 种 问题 。 特 别 是 ， 这 要 求 对 内 核 数 据 结 构 具 有 专业 知识 ， 并 且 这 些 结构 可 
能 因 内 核 版 本 的 演进 而 发 生 改 变 ， 故 而 需要 加 以 重 写 。 

为 了 提供 更 为 简便 的 方法 来 访问 内 核 信 息 ， 许 多 现代 UNIX. 实现 提供 了 一 个 /proc 虚拟 文 
作 系 统 。 该 文件 系统 驻 留 于 /proc 目录 中 ， 包 含 了 各 种 用 于 展示 内 核 信息 的 文件 ， 并 且 允 许 进 

程 通过 常规 文件 VO 系统 调用 来 方便 地 读 取 ， 有 时 还 可 以 修改 这 些 信 息 。 之 所 以 将 /proc 文件 
系统 称 为 虚拟 ， 是 因为 其 包含 的 文件 和 子 目 录 并 未 存储 于 磁盘 上 ， 而 是 由 内 核 在 进程 访问 此 
关 信 息 时 动态 创建 而 成 。 

本 市 展示 了 /proc 文件 系统 的 概况 。 后 续 各 章 将 视 各 目 主 题 来 描述 特定 的 /proc X fF. 虽然 
许多 UNIX 实现 提供 了 /proc 文件 系统 ， 但 SUSv3 并 未 对 其 进行 规范 ， 本 书 所 述 细节 是 Linux 
专 有 的 。 


12.1.1 效 取 与 进程 有 关 的 信息 : /proc/PID 


对 于 系统 中 每 个 进程 ， 内 核 痢 提供 了 相应 的 目录 ， 命 名 为 /proc/PID， 其 中 PID 下 进程 的 
ID。 在 此 目录 中 的 各 种 文件 和 子 目录 包含 了 进程 的 相关 信息 。 例 如 ， 通 过 奋 看 /proc/1l 目录 下 
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的 文件 ， 可 以 获取 init 进程 的 信息 ， 该 进程 的 ID 总 是 为 1。 
每 个 /proc/PID 目录 中 都 存在 一 个 命名 为 status 的 文件 ， 提 供 了 有 关 该 进程 的 一 系列 信息 。 
$ cat /proc/1/status 





Name: init 

State: S (sleeping) 
Tgid: 1 

Pid: 1 

PPid: 0 

TracerPid: 0 

Uid: 0 0 

Gid: 0 0 
FDSize: 256 

Groups: 

VmPeak: 852 kB 
VmSize: 724 kB 
VmLck: O kB 
VmHWM : 288 kB 
VmRSS: 288 kB 
VmData: 148 kB 
VmStk: 88 kB 
VmExe: 484 kB 
VmLib: 0 kB 
VmPTE : 12 kB 
Threads: 1 

Sig0: 0/3067 

SigPnd: 0000000000000000 
ShdPnd: 0000000000000000 
SigBlk: 0000000000000000 
SigIgn: fffffffe5770d8fc 
SigCgt: 00000000280b2603 
CapInh: 0000000000000000 
CapPrm: oooo0000ffffffff 
CapEff: oooooo00fffffeff 
CapBnd: oooo0000ffffffff 


Cpus allowed: 1 
Cpus allowed list: 
Mems allowed: 1 
Mems allowed list: 
voluntary ctxt switches: 


nonvoluntary ctxt switches: 


Stack usage: 8 kB 


上 面 的 输出 来 和 目 于 内 核 2.6.32。 正 如 伴随 文件 输出 的 “ 始 于 ”说 明 所 示 ， 访 文件 格式 随 看 
时 间 的 推移 而 不 断 演进 ， 在 不 同 内 核 版 本 中 增加 了 新 字段 〈 极 少 情况 下 ， 也 会 移 除 罕 段 )。( 除 
了 注释 中 Linux 2.6 MERA Z 7M, Linux 2.4 增加 了 Tgid, TracerPid, FDSize 和 Threads 


字段 。) 


该 文件 内 容 随 看 时 间 而 改变 ， 这 一 事实 揭示 出 关于 /proc 文件 使 用 的 要 点 所 在 。 当 这 些 文 











件 由 多 个 条 目 组 成 时 ， 对 其 解析 应 当 鹿 慎 从 事 ， 在 这 种 情况 下 ， 应 得 找 包 含 特殊 字符 串 《〈 如 ， 





Name of command run by this process 
State of this process 

Thread group ID (traditional PID, getpid()) 
Actually, thread ID (gettid()) 

Parent process ID 

PID of tracing process (0 if not traced) 
Real, effective, saved sel, and FS UIDs 
Real, effective, saved set, and FS GIDs 

# of file descriptor slots currently allocated 
Supplementary group IDs 

Peak virtual memory size 

Current virtual memory size 

Locked memory 

Peak resident set size 

Current resident set size 

Data segment size 

Stack size 

Text (executable code) size 

Shared library code size 

Size of page table (since 2.6.10) 

# of threads in this thread s thread group 
Current/max. queued signals (since 2.6.12) 
Signals pending for thread 

Signals bending for process (since 2.6) 
Blocked signals 

Ignored signals 

Caught signals 

Inheritable capabilities 

Permitted capabilities 

Effective capabilities 

Capability bounding set (since 2.6.26) 
CPUS allowed, mask (since 2.6.24) 

Same as above, list format (simce 2.6.26) 
Memory nodes allowed, mask (since 2.6.24) 
Same as above, list format (since 2.6.26) 
Voluntary context switches (since 2.6.23) 
Involuntary context switches (since 2.6.23) 
Stack usage high-water mark (since 2.6.52) 











PPid) 的 匹配 行 记 录 ， 而 非 按照 〈 逻 辑 ) 行 号 来 处 理 文件 。 
K 12-1 列举 了 在 每 个 /proc/PID 目录 中 的 部 分 其 他 文件 。 
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表 12-1: 每 个 /proc/PID 目录 下 的 文件 节选 


cmdline 以 \0 分 隅 的 命令 行 参数 
cwd 指向 当前 工作 目录 的 符号 链接 
Environ NAME=value 键 值 对 环境 列表 ， 以 \0 分 陋 
exe 指向 正在 执行 文件 的 符号 链接 
fd 文件 目录 ， 包 含 了 指向 由 进程 打开 文件 的 符号 链接 











maps 内 存 映 射 

mem 进程 虚拟 内 存 〈 在 VO 操作 之 前 必须 调用 lseek0 移 人 至 有 效 偏 移 量 ) 
mounts FEHI RR A 

root 指 问 根 目录 的 符号 链接 
status 各 种 信息 〈 比 如， 进程 ID、 和 凭证 、 内 存 使 用 量 、 信 和 号 ) 

task 为 进程 中 的 每 个 线程 均 包 含 一 个 子 日 录 〈 始 日 Linux 2.6) 

















/proc/PID/fd 目录 


/proc/PID/fd 目录 为 进程 打开 的 每 个 文件 摘 述 符 都 包 合 了 一 个 符号 链接 ， 每 个 符 扎 链接 的 
名 称 都 与 摘 述 符 的 数值 相 匹 配 。 例 如 ，/proc/1968/1 是 ID 为 1968 的 进程 中 指向 标准 输出 的 符 
C HEBR, S IIT. 

为 方便 起 抑 ， 任 何 进程 都 可 使 用 符 扎 链接 /proc/self 来 访问 其 目 己 的 /proc/PID 目录 。 











线程 : /proc/PID/task 目录 


Linux 2.4 增加 了 线程 组 概念 ， 正 式 文 持 POSIX 线程 模型 。 因 为 线程 组 中 的 一 些 属性 对 于 
线程 而 言 是 唯一 的 ， 所 以 Linux 2.4 在 /proc/PID 目录 下 增加 了 一 个 task 子 目 录 。 人 针对 进程 中 的 
每 个 线程 ,内 核 提 供 了 以 /proc/PID/task/TID 命名 的 子 目 录 ,， 其 中 TID 是 该 线程 的 线程 ID 。( 此 
值 等 同 于 在 线程 中 调用 gettidO PR ZI HS 3C [n FE e) 

每 个 /proc/PID/task/TID 子 目 录 中 都 有 一 套 类 似 于 /proc/PID 目录 内 容 的 文件 和 目录 。 因 为 线 
程 共享 了 多 个 属性 ， 所 以 这 些 文件 中 的 许多 信息 对 进程 中 各 个 线程 而 言 都 是 相同 的 。 然 而 ， 这 
些 文 件 也 显示 了 每 个 线程 的 独特 信息 , 故而 是 合理 的 。 例如, 在 线程 组 的 /proc/PID/task/TID/status 
文件 中 ， 存 在 那 种 对 每 个 线程 而 言 ， 内 容 都 有 可 能 不 同 的 字段 ，State、Pid、SigPnd、SigB 东 、 
CapInh, CapPrm, CapEff 和 CapBnd 束 在 此 列 。 


12.1.2 /proc 目录 下 的 系统 信息 


/proc 目录 下 的 各 种 文件 和 子 目 录 提 供 了 对 系统 级 信息 的 访问 。 图 12-1 展示 了 其 中 的 部 分 。 
图 12-1 中 的 许多 文件 在 本 书 的 其 他 革 市 进行 拉 述 。 表 12-2 总 结 了 图 12-1 所 示 /proc TT H 
杂 的 一 般 用 途 。 
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proc 


filesystems, kallsyms, loadavg, locks, meminfo, 
partitions, stat, swaps, uptime, version, vmstat 


sSockstat, sockstato, 


tcp, tcp6, udp, udp6 


acct, core pattern, hostname, 


msgmax, msgmnb, msgmni, pid max, 
sem, shmall, shmmax, shmmni 


net 


somaxconn 
ip local port range 


overcommit memory, 
overcommit ratio 
Sysvipc 
msg, sem, shm 


12-1: /proc BR FXCEERIG-EISRBV D XC 


表 12-2: 节选 /proc FARAR 
目录 中 文件 表达 的 信息 
/proc 各 种 系统 信息 
/proc/net 有 天 网 络 和 套 接 衬 的 状态 信息 
/proc/sys/fs 文件 系统 相关 设置 





/proc/sys/kernel 各 种 常规 的 内 核 设置 
/proc/sys/net 网 络 和 套 接 字 的 设置 





/proc/sys/vm 内 存 管理 设置 
/proc/sysvipc 有 关 System V IPC 对 象 的 信息 





12.1.3 ”访问 /proc 文件 
通常 使 用 shell 脚本 来 访问 /proc 目录 下 的 文件 (使 用 诸如 Python 或 者 Perl 之 类 的 脚本 语 
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言 ， 很 容易 解析 大 多 数 /proc 目录 下 包含 有 多 个 值 的 文件 )。 例 如 ， 使 用 如 下 shell 命令 ， 就 可 
以 修改 和 查看 /proc 目录 下 的 文件 内 容 : 


# echo 100000 > /proc/sys/kernel/pid max 
# cat /proc/sys/kernel/pid max 
100000 


也 可 以 从 程序 中 使 用 常规 IO 系统 调用 来 访问 /proc 目录 下 的 文件 。 但 在 访问 这 些 文件 时 ， 
有 如 下 一 些 限制 。 

e /proc 目录 下 的 一 些 文件 是 只 读 的 , 即 这 些 文件 仅 用 于 显示 内 核 信 息 , 但 无 法 对 其 进行 
修改 。/proc/PID 目录 下 的 大 多 数 文件 就 属于 此 类 型 。 

e /proc 目录 下 的 一 些 文件 仪 能 由 文件 拥有 者 (或 特权 级 进程 》 读 取 。 例 如 ，/proc/PID 
目录 下 的 所 有 文件 都 属于 拥有 相应 进程 的 用 户 ， 而 且 即 使 是 对 文件 的 属 主 ， 其 中 的 部 
分 文件 〈 如 : proc/PID/environ 文件 ) 也 仅仅 授予 了 读 权 限 。 

e 除了 /proc/PID 子 目 录 中 的 文件 ，/proc 目录 的 其 他 文件 大 多 属于 root 用 户 ， 并 且 也 仅 
有 root 用 户 能 够 修改 那些 可 修改 的 文件 。 




















访问 /proc/PID 目录 中 的 文件 

/proc/PID 目录 内 容 变 化 不 定 。 每 个 目录 随 看 含有 相应 进程 ID 的 进程 创建 而 生 ， 又 随 进程 
的 终止 而 灭 。 这 和 意味 看 要 确定 特定 /proc/PID 目录 的 存在 ， 束 需要 干净 利 洛 地 处 理 如 下 可 能 性 : 
当 打 开 此 目录 下 的 文件 时 ， 进 程 已 经 终止 ， 并 有 日 也 已 经 删除 了 相应 的 /proc/PID Hx. 

















示例 程序 


程序 清单 12-1 展示 了 如 何 读 取 和 修改 一 个 /proc 目录 下 的 文件 。 该 程序 读 取 并 显示 了 
/proc/sys/kernel/pid_max 文件 的 内 容 。 知 提供 了 命令 行 参数 ， 则 程序 将 使 用 此 参数 对 文件 进行 
更 新 。 访 文件 (Linux 2.6 的 新 增 文 件 ) 规定 了 进程 ID 的 上 限 ( 见 6.2 和 )。 此 处 是 运用 该 程 
序 的 一 个 例子 : 


$ su Privilege is required to update pid max file 
Password: 

# ./procfs pidmax 10000 

Old value: 32768 

/proc/sys/kernel/pid max now contains 10000 








程序 清单 12-1: 访问 /proc/sys/kernel/pid_max 文件 
sysinfo/procfs pidmax.c 


#include «fcntl.h» 
#include "tlpi hdr.h" 


#define MAX LINE 100 


int 

main(int argc, char *argv[]) 
int fd; 
char line[MAX LINE|; 
ssize t n; 


fd = open("/proc/sys/kernel/pid max", (argc > 1) ? O RDWR : O RDONLY); 
if (fd == -1) 
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errExit("open"); 


n - read(fd, line, MAX LINE); 
if (n -- -1) 
errExit("read"); 


if (argc » 1) 
printf("Old value: "); 
printf("5.*s", (int) n, line); 


if (argc > 1) 1 


if (write(fd, argv[1], strlen(argv[1])) != strlen(argv[ 


fatal("write() failed"); 


system("echo /proc/sys/kernel/pid max now contains 
"`cat /proc/sys/kernel/pid max ^"); 


j 


exit(EXIT SUCCESS); 


12.2 系统 标识 : uname() 
aname() 4t WDR IBET 3 YDDESESELRR AERARII ABC utsbuf 所 指向 的 结 


构 中 。 


1])) 


sysinfo/procfs pidmax.c 








include «sys/utsname.h» 


int uname(struct utsname *utsbuf); 


Returns 0 on success, or -1 on error 


utsbuf 参数 是 一 个 指 问 utsname 结构 的 指针 ， 其 定义 如 下 : 
#define UTSNAME LENGTH 65 


struct utsname { 





char sysname[ UTSNAME LENGTH]; /* Implementation name */ 
char nodename[ UTSNAME LENGTH]; /* Node name on network */ 
char release[ UTSNAME LENGTH]; /* Implementation release level */ 


char version 
char machine 


 UTSNAME LENGTH 
 UTSNAME LENGTH 


ma ma 


15 
15 


is running */ 


/* Release version level */ 
/* Hardware on which system 


#ifdef GNU SOURCE /* Following is Linux-specific */ 
char domainname[ UTSNAME LENGTH]; /* NIS domain name of host */ 

#endif 

}; 





SUSv3 规范 了 uname0， 但 对 utsname 结构 中 各 种 字段 的 长 上 度 未 加 定义 ， 仅 要 求 字 人 符 串 以 
TFE. Æ Linx 中 ， 这 些 字 段 长 度 均 为 65 个 字 节 ， 其 中 包括 了 空 字 市 终止 符 所 占用 的 
空间 。 而 在 一 些 UNIX 实现 中 ， 这 些 字 段 更 短 ， 但 在 其 他 操作 系统 〈 如 Solaris) 中 ， 这 些 字 














段 的 长 度 长 达 257 E. 
utsname 结构 中 的 sysname, release, version 和 machine 字段 由 内 核 日 动 设置 。 
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TE Linux H1, /proc/sys/kernel 目录 下 的 3 个 文件 提供 了 与 utsname 结构 的 sysname, release 
和 version 字段 返回 值 相 同 的 信息 ， 这 些 只 谈 文 件 分 别 为 ostype、osrelease 和 versions 25 7h 
一 个 文件 /proc/version， 也 包含 了 这 些 信 息 ， 并 且 还 包含 了 有 关内 核 编 译 的 步骤 信息 〈 即 执 
行 编译 的 用 户 名 、 用 于 编译 的 主机 名 ， 以 及 使 用 的 gee 版 本 )。 








( 


nodename 字段 的 返回 值 由 sethostname(O 系 统 调用 议 置 〈 详 情 请 人 参 
页 )。 通 常 ， 该 值 类 似 于 系统 DNS 域名 中 的 前 级 主机 名 。 

domainname 字段 的 返回 值 由 setdomainname() 系 统 调 用 设置 ( 评 情 请 参考 此 系统 调用 的 手 
册页 )。 该 值 是 主机 的 网 络 信息 服务 NIS 域名 与 主机 域名 不 同 )。 


考 此 系统 调用 的 手册 




















gethostnameO 系 统 调用 〈 是 sethostname() 函 数 的 反 回 操作 〉 用 于 获取 系统 主机 名 ， 也 可 
利用 hostname(1) 命 令 和 Linux 特有 的 /proc/hostname 文件 来 查看 和 设置 系统 主机 名 。 

getdomainname() 系 统 调用 (setdomainname() 冰 数 的 反问 操作 〉， 用 于 获取 NIS HZ, 
可 利用 domainname(1) 命 令 和 Linux 特有 的 /proc/domainname 文件 来 查看 和 设置 NIS 域名 。 

sethostname() 和 setdomainname() 系 统 调用 在 应 用 程序 中 人 鲜 有 使 用 。 通常 , 会 在 系统 局 动 
时 运行 启动 脚本 来 确立 主机 名 和 NIS 域名 。 





























程序 清单 12-2 中 程序 展示 了 uname0 的 返回 信息 。 下 面 是 运行 该 程序 可 能 看 到 的 输出 信息 : 
$ ./t uname 


Node name: ^ tekapo 
System name: Linux 


Release: 2.6.30-default 
Version: 43 SMP Fri Jul 17 10:25:00 CEST 2009 
Machine: 1686 


Domain name: 
程序 清单 12-2: 使 用 uname() 


sysinfo/t uname.c 
#define GNU SOURCE 
include «sys/utsname.h» 
include "tlpi hdr.h" 
int 
main(int argc, char *argv[]) 


struct utsname uts; 


if (uname(&uts) == -1) 
errExit("uname"); 


printf("Node name: %s\n", uts.nodename); 
printf("System name: %s\n", uts.sysname); 
printf("Release: 4sNn", uts.release); 
printf("Version: 4sNn", uts.version); 
printf("Machine: 4sNn", uts.machine); 


#ifdef GNU SOURCE 

printf("Domain name: %s\n", uts.domainname); 
#endif 

exit(EXIT SUCCESS); 
} 


sysinfo/t uname.c 
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12.3 Ati 

/proc 文件 系统 回应 用 程序 暴露 了 一 系列 内 核 信 息 。 每 个 /proc/PID 子 目 录 都 包含 有 许多 文 
件 和 子 目 录 ， 是 进程 了 为 PD 的 进程 提供 的 相关 信息 。/proc 目录 下 的 其 他 许多 文件 和 目录 ， 
则 暴露 了 应 用 程序 可 以 读 取 ， 有 时 还 可 以 修改 的 系统 级 信息 。 

使 用 unameO 系 统 调用 ， 能 够 获取 UNIX 的 实现 信息 以 及 应 用 程序 所 运行 的 机 器 类 型 。 


进 阶 信息 


关于 /proc 文件 系统 的 深入 信息 可 见 说 于 proc (5) 手册 页 、 内 核 源 文件 Documentation/ 
filesystems/proc.txt 以 及 Documentation/sysctl 目录 下 的 各 种 文件 。 




















了 路 








12.4 练习 


12-1. 编写 一 个 程序 ， 以 用 户 名 作为 命令 行 参 数 ， 列 表 显 示 该 用 户 下 所 有 正在 运行 的 进程 
ID 和 命令 名 。( 程 序 清单 8-1 中 的 userIdFromNameO 函 数 对 本 题 程 序 的 编写 可 能 会 
有 所 帮助 。) 通过 分 析 系 统 中 /proc/PID/status 文件 的 Name: 和 Uid: 各 行 信息 ， 可 
以 实现 此 功能 。 遇 有 历 系统 的 所 有 /proc/PID 目录 种 要 使 用 readdir(3) 函 数 ，18.8 TNI 
其 进行 了 摘 述 。 程序 必 须 能 够 正确 处 理 如 下 可 能 性 : 在 确定 目录 存在 与 程序 尝试 打 
开 相 应 /proc/PID/status 文件 之 间 ，/proc/PID 目录 消失 了 。 

12-2. 编写 一 个 程序 绘制 树 状 结构 , 展示 系统 中 所 有 进程 的 父子 关系 , 根 市 点 为 init 进程 。 
对 每 个 进程 而 言 ， 程 序 应 该 显示 进程 ID 和 所 执行 的 行 命令 。 程 序 输 出 类 似 于 pstree(1) 
的 输出 结果 , 但 也 无 需 像 后 者 那样 复杂 。 每 个 进程 的 父 进程 可 通过 对 /proc/PID/status 
系统 文件 中 PPid: 行 的 分 析 获 得 。 但 是 需要 小 心 处 理 如 下 可 能 性 : 在 扫描 所 有 
/proc/PID 目录 的 过 程 中 ， 进 程 的 父 进程 〈 以 及 父 进程 的 /proc/PID HRK) 消失 了 。 

12-3. 编写 一 个 程序 ， 列 表 展 示 打 开 同 一 特定 路 径 名 文件 的 所 有 进程 。 可 以 通过 分 析 所 有 
/proc/PID/fd/# 符 号 链接 的 内 容 来 实现 此 功能 。 这 需要 利用 readdir3) PG ICI BE: 18 
环 ， 扫 摘 所 有 /proc/PID 目录 以 及 每 个 /proc/PID 目录 下 所 有 /proc/PID/fd 的 条 目 内 容 。 
ix BUproc/PID/fd/n 符号 链接 的 内 容 ， 需 要 使 用 readlinkO, 18.5 节 对 其 进行 了 描述 。 
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.13. 


文件 1/O 缓冲 


出 于 速度 和 效率 考虑 ， 系 统 VO 调用 ( 即 内 核 ) 和 标准 C 语言 库 IO Zi CHI stdio 函数 ) 在 
操作 磁盘 文件 时 会 对 数据 进行 缓冲 。 本 章 描述 了 这 两 种 类 型 的 缓冲 ， 并 讨论 了 其 对 应 用 程序 性 能 
的 影响 。 本 章 还 讨论 了 可 以 屏蔽 或 影响 缓冲 的 各 种 技术 ， 以 及 直接 VO 技术 一 一 在 某 些 需要 绕 过 
内 核 缓 冲 的 场景 中 非常 有 用 。 


























13.1 文件 VO 的 内 核 缓冲 : 缓冲 区 高 速 缓存 


read0 和 writeO 系 统 调用 在 操作 磁盘 文件 时 不 会 直接 发 起 磁盘 访问 ， 而 是 仅仅 在 用 户 空 间 | 
组 证 区 与 内 核 组 证 区 高 速 缓存 (kernel buffer cache) 之 间 复 制 数据 ， 例 如 ， 如 下 调用 将 3 个 字 
市 的 数据 从 用 户 罕 间 内 存 传递 到 内 核 容 间 的 绥 冲 区 中 : 

write(fd, "abc", 3); 

write() 随 即 返 回 。 在 后 续 某 个 时 刻 ， 内 核 会 将 其 绥 冲 区 中 的 数据 写 入 (刷新 人 至) 磁盘 。( 因 
此 ， 可 以 说 系统 调用 与 磁盘 操作 并 不 同步 。〉 如 果 在 此 期 间 ， 另 一 进程 试图 读 取 该 文件 的 这 儿 
个 学 他 ， 那 么 内 核 将 目 动 从 绥 冲 区 高 速 缓存 中 提供 这 些 数据 ， 而 不 是 从 文件 中 《 谈 取 过 期 的 
内 容 )。 

与 此 同 理 ， 对 输入 而 言 ， 内 核 从 磁盘 中 恋 取 数据 并 存储 到 内 核 绥 冲 区 中 。readO0 调 用 将 从 
该 缓冲 区 中 读 取 数据 ， 直 人 至 把 绥 冲 区 中 的 数据 取 完 ， 这 时 ， 内 核 会 将 文件 的 下 一 段 内 容 读 入 
绥 冲 区 高 速 绥 存 。( 这 里 的 接 述 有 所 位 化 。 对 于 序列 化 的 文件 访问 ， 内核 通常 会 尝试 执行 预 读 ， 
以 确保 在 需要 之 前 束 将 文件 的 下 一 数据 块 谈 入 缓冲 区 高 速 绥 存 中 。 更 多 关于 了 预 读 的 内 容 请 参 
25 13.5 T.) 

采用 这 一 设计 ， 意 在 使 IeadO 和 write0 调 用 的 操作 更 为 快速 ， 因 为 它们 不 需要 等 得 ( 绥 慢 
的 大 磁 络 操 作 。 同 时 ， 这 一 设计 也 极为 高 效 ， 因 为 这 减少 了 内 核 必须 执行 的 磁盘 传输 次 数 。 

Linux 内 核对 缓冲 区 高 速 缓存 的 大 小 没有 国定 上 限 。 内 核 会 分 配 尽 可 能 多 的 缓冲 区 高 速 绥 
存 页 ， 而 仅 受 限于 两 个 因素 : 可 用 的 物理 内 存 总 量 ， 以 及 出 于 其 他 目的 对 物理 内 存 的 需求 〈 例 
如 ， 需 要 将 正在 运行 进程 鸭 文本 和 数据 页 体 留 在 物理 内 存 中 )。 奉 可 用 内 存 不 足 ， 则 内 核 会 将 
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一 些 修改 过 的 绥 冲 区 局 速 缓存 中 内 容 刷 新 到 磁盘 ， 并 释放 其 供 系 统 重 用 。 





更 确切 地 说 ， 从 内 核 2.4 开始 ，Linux 不 再 维护 一 个 单独 的 缓冲 区 高 速 缓存 。 相 反 ， 会 
将 文件 VO 缓冲 区 置 于 页 面 高 速 缓存 中 ， 其 中 还 含有 诸如 内 存 映 射 文件 的 页 面 。 然 而 ， 正 
文 的 讨论 采用 了 “缓冲 区 高 速 缓存 (buffer cache)” 这 一 术语 ， 因 为 这 是 UNIX 实现 中 历史 
悠久 的 通称 。 

















缓冲 区 大 小 对 UO 系统 调用 性 能 的 影响 


无 论 是 让 人 磁盘 写 1000 次 ， 每 次 写 入 一 个 字 季 ， 还 是 一 次 写 入 1000 ^E. PEU RÀ 
盘 的 学 节 数 都 是 相同 的 。 然 而 ， 我 们 更 属意 于 后 者 ， 因 为 它 只 需要 一 次 系统 调用 ， 而 前 者 则 
需要 调用 1000 次 。 尽 管 比 磁 盘 操作 要 快 许 多 ， 但 系统 调用 所 耗费 的 时 间 总 量 也 相当 可 观 ; 内 
核 必 须 捕 获 调 用 ， 检 查 系统 调用 参数 的 有 效 性 ， 在 用 户 空间 和 内 核 空间 之 间 传 输 数据 〈 详 情 
参见 3.1 节 )。 
为 BUF_SIZE (BUF_SIZE 指定 了 每 次 调用 read0 和 write() 时 所 传输 的 学 和 数 ) 设 定 不 
同 的 大 小 来 运行 程序 清单 4-1， 可 以 观察 到 不 同 大 小 的 缓冲 区 对 执行 文件 IO 所 产生 的 影响 。 
X 13-1 所 示 为 在 Linux ext2 文件 系统 上 复制 大 小 为 100MB 的 文件 ， 访 程序 在 使 用 不 同 
BUF SIZE 值 时 所 需要 的 时 间 。 有 关 本 表 中 的 信息 ， 需 要 注意 以 下 儿 点 。 
e 总 用 时 和 总 CPU 时 间 这 两 列 含义 很 明显 。 而 用 户 CPU 和 系统 CPU 两 列 是 将 总 CPU 
用 时 分 解 为 在 用 户 模 式 下 执行 代码 所 需 的 时 间 和 执行 内 核 代 码 所 需 的 时 间 (比如 ， 系 









































统 调用 )。 
e 表 中 测试 结果 得 自 于 2.6.30 普通 (vanilla〉 内 核 下 , BECK 4096 字 季 的 ext2 文件 
系统 。 





所 谓 普 通 内 核 (vanilla kernel)， 蕊 指示 打 补 丁 的 主线 (mainline〉 内 核 。 与 之 形成 鲜明 
对 比 的 是 大 多 数 发 行商 所 提供 的 内 核 ， 第 包 合 各 种 补丁 来 修复 钳 误 和 请 加 新 功 能 。 


。 每 行 显示 的 结 玉 为 在 给 定 绥 冲 区 大 小 下 运行 20 次 的 均值 。 在 这 些 测 试 以 及 本 章 后 续 
提 及 的 其 他 测试 里 ， 在 程序 每 次 的 执行 间隔 中 ， 会 凶 载 并 再 次 重 狐 猴 配 文件 系统 ， 以 确 
保 文 件 系统 的 组 冲 区 高 速 绥 存 为 衬 。 计 时 则 由 shell 命令 time 完成 。 


表 13-1: 复制 100MB 大 小 的 文件 所 需 时 间 


时 间 ( 秒 ) 
BUF SIZE 

















] 
2 
4 
8 
16 
32 
64 
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时 间 ( 秒 ) 
BUF SIZE 
总 用 时 用 户 CPU 用 时 | 系统 CPU 用 时 














因为 采用 不 同 的 绥 冲 区 大 小 时 ， 数 据 的 传输 总 量 〈 因 此 招致 磁 盘 操 作 的 数量 ) 是 相同 的 ， 表 
13-1 所 示 为 发 起 read (fll write0 调 用 的 开销 。 绥 冲 区 大 小 为 1 字 节 时 ， 需 要 调用 read0 和 write()1 
亿 次 ， 绥 冲 区 大 小 为 4096 个 学 节 时 ， 需 要 调用 read0 和 write() 24000 次 左右 ， 儿 乎 达到 最 优 性 能 。 
设置 再 超过 这 个 值 ， 对 性 能 的 提升 束 不 显著 了 ， 这 是 因为 与 在 用 户 空间 和 内 核 空间 之 间 复 制 数据 
以 及 执行 实际 磁盘 VO 所 花费 的 时 间 相 比 ，read0 和 write 系统 调用 的 成 本 就 显得 微不足道 了 。 


























从 表 13-1 的 最 后 一 行 中 可 以 粗略 估算 出 在 用 户 空 间 与 内 核 空 间 之 间 传 输 数据 以 及 执 
行文 件 VO 的 总 耗 时 。 因 为 此 时 系统 调用 的 次 数 相对 较 少 ， 所 以 它们 所 花费 的 时 间 相 对 于 
总 耗 时 和 CPU 时 间 可 以 忽略 不 计 。 据 此 可 认为 ， 系统 CPU 时 间 主 要 是 测量 用 户 空 间 与 内 
核 空间 之 间 数 据 传输 所 消耗 的 时 间 。 而 总 耗 时 则 是 对 与 磁盘 传输 数据 所 需 时 间 的 估算 。( 正 
如 下 面 将 提 到 的 ， 时 间 主 要 花 在 了 对 磁盘 的 该 操作 上 。) 


总 之 ， 如 果 与 文件 发 生 大 量 的 数据 传输 , 通过 采用 大 块 空间 缓冲 数据 ， 以 及 执行 更 少 的 | 
系统 调用 ， 可 以 极 大 地 提高 1/O 性 能 。 

K 13-1 度量 了 一 系列 因素 : 执行 read0 和 write0 系 统 调用 所 需 的 时 间 、 内 核 空 间 和 用 户 
空间 绥 冲 区 之 间 传 输 数 据 所 需 的 时 间 、 内 核 缓 冲 区 与 磁盘 之 间 传 输 数 据 所 需 的 时 间 。 再 进 一 
步 考 虑 一 下 最 后 一 个 要 素 ， 显 然 ， 将 输入 文件 的 内 容 传输 到 绥 冲 区 高 速 缓存 是 不 可 避免 的 。 
然而 ， 当 数据 从 用 户 空间 传输 到 内 核 空 间 后 ，write0 调 用 立即 返回 。 由 于 测试 系统 上 的 RAM 
大 小 (4 GB) 远 超 欲 复制 文件 的 大 小 (100MB )， 据 此 推断 ， 当 程序 完成 时 ， 输 出 文件 实际 尚未 
写 入 磁盘。 因此 ， 再 进一步 做 个 实验 ， 运 行 一 个 程序 ， 使 用 不 同 大 小 的 缓冲 区 ， 以 write() Bf 
意向 文件 中 写 入 一 些 数据 。 运 行 结果 如 表 13-2 所 示 。 

同样 ， 表 13-2 中 数据 是 来 自 于 内 核 2.6.30， 以 及 块 大 小 为 4096 字 节 的 ext2 文件 系统 ， 并 
且 每 行 显示 为 运行 了 20 次 后 的 均值 。 本 节 并 未 列 出 测试 程序 Cfilebuff/ write bytes.c) 的 代码 
清单 ， 但 可 从 随 本 书 一 起 友 行 的 源码 中 获取 。 


表 13-2: 写 一 个 100MB 大 小 的 文件 所 需要 的 时 间 
时 间 ( 秒 ) 


BUF SIZE 
总 CPU 用 时 用 户 CPU 用 时 系统 CPU 用 时 












































l 72.13 72.11 
2 36.19 36.17 
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时 间 (Æ) 


BUF SIZE 
总 CPU 用 时 用 户 CPU 用 时 系统 CPU 用 时 











K 13-2 显示 为 使 用 不 同 大 小 的 缓冲 区 调用 writeO0 从 用 户 空 间 向 内 核 缓 冲 区 高 速 缓存 传输 
数据 所 伦 颖 的 成 本 。 绥 冲 区 越 大 ， 与 表 13-1 PAER SE. Du. Xp 65536 
子 市 大 小 的 缓冲 区 ， 在 表 13-1 中 总 耗 时 为 2.06 秒 ， 而 表 13-2 中 仅 为 0.09 秒 。 这 是 因为 在 后 
者 的 情况 下 并 未 执行 实际 的 磁盘 IO RE. MEL, K 13-1 中 采用 大 绥 冲 区 时 的 耗 时 绝 大 部 
分 花 在 了 对 磁盘 的 读 取 上 。 

正如 13.3 节 所 述 ， 大 强 制 在 数据 传输 到 磁盘 前 阻塞 输出 操作 ， 则 调用 write0 所 需 的 时 间 
会 显著 上 升 。 

最 后 ， 值 得 注意 的 是 ， 表 13-2 (URK 13-30 中 信息 仅仅 代表 了 对 文件 系统 评价 基准 的 
形式 之 一 ， 还 不 完善 。 此 外 ， 文 件 系 统 不 同 ， 结 和 东 可 能 也 会 有 所 不 同 。 对 文件 系统 的 度量 还 
有 各 种 其 他 标准 ， 比 如 多 用 户 、 高 负载 下 的 性 能 表现 ， 创 建 和 删除 文件 的 速度 ， 在 一 个 大 型 
目录 下 搜索 一 个 文件 所 需 的 时 间 ， 存 储 小 文件 所 需 的 空间 ， 或 者 在 遭遇 系统 朋 浊 时 对 文件 完 
整 性 的 维护 。 只 要 IO 或 是 其 他 文件 系统 操作 的 性 能 全 天 重要 , 那么 在 目标 平台 上 针对 特定 应 
用 的 测试 基准 就 不 可 玲 代 。 
































13.2 stdio 库 的 缓冲 


当 操 作 磁 秀文 件 时 ， 缓 冲 大 块 数据 以 减少 系统 调用 ，C 语言 函数 库 的 UO 函数 (比如 ， 
fprintf()、fscanf()、feets()、fputsO 〇 、fputc()、fegetcO) 正 是 这 么 做 的 。 因 此 ， 使 用 stdio 库 可 以 
使 编程 者 免 于 自行 处 理 对 数据 的 缓冲 ， 无 论 是 调用 write() 来 输出 ， 还 是 调用 read() 来 输入 。 
设置 一 个 stdio 流 的 缓冲 模式 

调用 setvbuf0) 函 数 ， 可 以 控制 stdio 库 使 用 绥 冲 的 形式 。 
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dinclude <stdio.h> 


int setvbuf(FILE *stream, char *buf, int mode, size t size); 





Returns 0 on success, or nonzero on error 





参数 stream 标识 将 要 修改 哪个 文件 流 的 缓冲 。 打 开 流 后 ， 必 须 在 调用 任何 其 他 stdio 函数 
之 前 先 调用 setvbuf()。setvbuf0) 调 用 将 影响 后 续 在 指定 流 上 进行 的 所 有 stdio 操作 。 


不 要 将 stdio 库 所 使 用 的 流 与 System V 系统 的 STREAMS 机 制 相 混淆 , Linux 的 主线 内 
核 中 并 未 实现 System V 系统 的 STREAMS. 





参数 buf 和 size 则 针对 参数 stream 要 使 用 的 绥 冲 区 ， 指 定 这 些 参 数 有 如 下 两 种 方式 。 
e lS buf 不 为 NULL， 那 么 其 指 问 size 大 小 的 内 存 块 以 作为 stream 的 缓冲 区 。 
为 stdio PFR RITH buf 指 问 的 缕 冲 区 , 所 以 应 该 以 动态 或 静态 在 堆 中 为 该 缕 冲 区 分 配 
一 块 空 间 (使 用 malloc0 或 类 似 函 数 )， 而 不 应 是 分 配 在 栈 上 的 函数 本 地 变量 。 否 则 ， 函 
数 返 回 时 将 销毁 其 栈 帧 ， 从 而 导致 混乱 。 
e d; buf 7j NULL, Jl A stdio 库 会 为 stream 目 动 分 配 一 个 绥 锌 区 《除非 选择 非 缓冲 的 
W/O， 如 下 所 述 )。SUSv3 允许 , 但 不 强制 要 求 库 实现 使 用 size 来 确定 其 缓冲 区 的 大 小 。 
glibc 实现 会 在 该 场景 下 忽略 size 参数 。 
参数 mode 指定 了 缕 冲 类 型 ， 并 具有 下 列 值 之 一 。 
_IONBF 

不 对 VO 进行 缓冲 。 每 个 stdio 库 函 数 将 立即 调用 write0 或 者 read, Jf HZ buf 和 size 
参数 ， 可 以 分 别 指定 两 个 参数 为 NULL 和 0。stderr 默认 属于 这 一 类 型 ， 从 而 保证 错误 能 立即 
输出 。 
_IOLBF 

采用 行 缓冲 IO。 指 代 终 端 设 备 的 流 默 认 属 于 这 一 类 型 。 对 于 输出 流 ， 在 输出 一 个 换行 符 
《除非 缓冲 区 已 经 项 满 ) 前 将 绥 冲 数据 。 对 于 输入 流 ， 每 次 谈 取 一 行 数 据 。 
_IOFBF 

采用 全 缓冲 IO。 单 次 读 、 写 数据 〈 通 过 read0 或 write0 系 统 调用 ) 的 大 小 与 缓冲 区 相同 。 
指 代 磁盘 的 流 默 认 采 用 此 模式 。 

下 面 的 代码 演示 了 setvbuf0 函 数 的 用 法 : 


#define BUF SIZE 1024 
static char buf[BUF SIZE]; 



































if (setvbuf(stdout, buf,  IOFBF, BUF SIZE) !- 0) 
errExit("setvbuf"); 


注意 : setvbufO 出 错时 返回 非 0 值 〈 而 不 一 定 是 -1)。 
setbuf0) 函 数 构建 于 setvbufO0 之 上 上， 执行 了 类 似 任 务 。 





#include «stdio.h» 


void setbuf(FILE *stream, char *buf); 














setbuf(fp,buf) 调 用 除了 不 返回 函数 结果 外 ， 束 相当 于 : 
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setvbuf(fp, buf, (buf !- NULL) ? IOFBF: IONBF, BUFSIZ); 

要 么 将 参数 buf 指定 为 NULL 以 表示 无 缓冲 ， 要 么 指 癌 由 调用 者 分 配 的 BUFSIZ N 
大 小 的 缓冲 区 。(BUFSIZ 定义 于 <stdio.h> 头 文件 中 。glibc 库 实 现 将 此 常量 定义 为 一 个 典型 值 
8192.) 

setbuffer() RŽI T^ setbuf() EE Z4, 4H fo VEA HI E buf 缕 冲 区 大 小 。 











#define BSD SOURCE 
#include <stdio.h> 


void setbuffer(FILE *stream, char *buf, size_t size); 











对 setbuffer(fp,bpufsize) 的 调用 相当 于 如 下 调用 : 
setvbuf(fp, buf, (buf != NULL) ? IOFBF : IONBF, size); 
SUSv3 并 未 对 setbufferO Pg Zn EA EX, HE Žr UNIX 实现 均 文 持 它 。 


刷新 stdio 缓冲 区 


无 论 当前 采用 何 种 缓冲 区 模式 ， 在 任何 时 候 , SERI UU] fflush()PE PRICE BITE stdio $6; Hi. 
受审 的 数据 玉 即 通过 Wite0 7 刷新 到 内 核 缓冲 区 惠 。 此 函数 会 刷新 指定 stream 的 输出 缓冲 区 。 


dinclude <stdio.h> 





int fflush(FILE *siream); 


Returns 0 on success, EOF on error 








tr% stream 为 NULL, W) fflush() 将 刷新 所 有 的 stdio 绥 冲 区 .。 

也 能 将 也 ushO 函 数 应 用 于 输入 流 ， 这 将 丢弃 业已 缓冲 的 输入 数据 。( 当 程序 下 一 次 答 试 从 
流 中 读 取 数据 时 ， 将 重 狐 装 满 绥 冲 区 。) 

当天 闭 相应 流 时 ， 将 目 动 刷新 其 stdio 绥 冲 区 。 

在 包括 glibc 库 在 内 的 许多 C 函数 库 实现 中 ， 若 stdin 和 stdout 指向 一 终端 ， 那 么 无 论 何 
时 从 stdin 中 读 取 输入 时 ， 者 将 隐 合 调用 一 次 fflush(stdout) PR Zt... 3201 BIEN. stdout 的 任何 
提示 ， 但 不 包括 终止 换行 符 ( 比 如 ，printf("Date:"))。 然 而 ，SUSv3 和 C99 并 未 规定 这 一 行 
为 ， 也 并 非 所 有 的 C 语言 函数 库 都 实现 了 这 一 行为 。 要 保证 程序 的 可 移植 性 ， 应 用 应 使 用 显 
式 的 fush(stdoub 调 用 来 确 体 显示 这 些 提示 。 

若 打 开 一 个 流 同 时 用 于 输入 和 输出 ， 则 C99 标准 中 提出 了 两 项 要 求 。 首 先 ， 一 个 输出 
操作 不 能 款 跟 一 个 输入 操作 ， 必 须 在 二 者 之 间 调 用 fushO 国 数 或 是 一 个 文件 定位 函数 
(fseek()、fsetpos0O 或 者 rewind0)。 其 次 ， 一 个 输入 操作 不 能 么 跟 一 个 输出 操作 ， 必 须 在 二 
者 之 间 调 用 一 个 文件 定位 函数 ， 除 非 输 入 操作 遭遇 文件 结尾 。 


13.3 ”控制 文件 VO 的 内 核 缓冲 


强制 刷新 内 核 缓 冲 区 到 输出 文件 是 可 能 的 。 这 有 时 很 有 必要 ， 例 如 ， 当 应 用 程序 〈 诸 如 
数据 库 的 日 记 进 程 》 要 确保 在 继续 操作 前 将 输出 真正 写 入 磁盘 (或 者 至 少 写 入 人 磁盘 的 便 件 局 
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速 缓 仔 中 )。 
在 描述 用 于 控制 内 核 绥 剖 的 系统 调用 之 前 ， 有 必要 先 见 悉 一 下 SUSv3 中 的 相关 定义 。 








同步 |/O 数据 完整 性 和 同步 I/O 文件 完整 性 

SUSv3 将 同步 IO 完成 定义 为 ， 某 一 VO 操作 ， 要 么 已 成 功 完成 到 磁盘 的 数据 传递 ， 要 
么 被 诊 断 为 不 成 功 。 

SUSv3 定义 了 两 种 不 同类 型 的 同步 UO 完成 ， 二 者 之 间 的 区 别 涉及 用 于 描述 文件 的 元 数 
据 ( 天 于 数据 的 数据 )3， 亦 即 内 核 针 对 文件 而 存储 的 数据 。14.4 节 在 摘 述 文件 i-node HRTEM 
讨论 文件 的 元 数据 ， 但 就 目前 而 言 ， 了 解 文件 元 数据 包含 了 些 什么 ， 诸 如 文件 属 主 、 属 组 、 
文件 权限 、 文 件 大 小 、 文 件 ( 便 ) 链接 数量 ， 表 明文 件 最 近 访 问 、 修 改 以 及 元 数据 发 生变 化 
的 时 间 崔 ， 指 回 文 件数 据 块 的 指针 ， 束 足够 了 。 

SUSv3 定义 的 第 一 种 同步 UO 完成 类 型 是 synchronized I/O data integrity completion , ELE 
确保 针对 文件 的 一 次 更 新 传递 了 足够 的 信息 (到 磁盘 )， 以 便于 之 后 对 数据 的 获取 。 

e 了 怠 恋 操作 而 言 ， 这 和 意味 看 被 请 求 的 文件 数据 已 经 〈 从 磁盘 ) 传递 给 进程 。 知 存在 任 

何 影 响 到 所 请 求 数据 的 挂 起 写 操作 ， 那 么 在 执行 谈 操 作 之 前 ， 会 将 这 些 数据 传递 到 
T du. 

e LOG PRTEIU TI. RARE SDKI E NA k CBRRRO 完毕 ， 且 用 于 获取 数 
据 的 所 有 文件 元 数据 也 已 传递 (至 人 磁盘) 完毕。 此 处 的 要 点 在 于 要 获取 文件 数据 ， 并 
非 需 要 传递 所 有 经 过 修改 的 文件 元 数据 属性 。 发 生 修改 的 文件 元 数据 中 需要 传递 的 属 
性 之 一 是 文件 大 小 《如 林 写 操作 确实 扩展 了 文件 )。 相 形 乙 下， 如 末 是 文件 时 间 鹤 发 
生 了 变化 ， 就 无 需 在 下 次 获取 数据 前 将 其 传递 到 人 厂 盘 。 

Synchronized I/O file integrity completion 是 SUSv3 定义 的 另 一 种 同步 IO 完成 ， 也 是 上 述 
synchronized I/O data integrity completion 的 超 集 。 该 IO 完成 模式 的 区 别 在 于 在 对 文件 的 一 次 
更 新 过 程 中 ， 要 将 所 有 发 后 更 新 的 文件 元 数据 都 传递 到 磁盘 上 ， 即 使 有 些 在 后 续 对 文件 数据 
的 读 操 作 中 并 不 需要 。 






























































用 于 控制 文件 MO 内 核 缓冲 的 系统 调用 


fsSyncO 系 统 调 用 将 使 缓冲 数据 和 与 打开 文件 摘 述 符 fd 相关 的 所 有 元 数据 都 刷新 到 人 磁盘 
E. WH fsyncO 会 强制 使 文件 处 于 Synchronized I/O file integrity completion 状态 。 








#include «unistd.h» 


int fsync(int fd); 





Returns 0 on success, or -1 on error 








DU HE qe Coo prb ERRER) 的 传递 完成 后 ，fsyncO 调 用 才 会 返回 。 
fdatasyncO 系统 调用 的 运作 类 似 于 fync0 ， 只 是 强制 文件 处 于 synchronized I/O data 
integrity completion 的 状态 。 








1 译 者 注 : synchronized I/O completion. 
2 WEE: ALA, RARE- 
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dinclude <unistd.h> 


int fdatasync(int fd); 





Returns 0 on success, or - 1 on error 








fdatasync() HJ RESID ATRAE BRTE RARO H fsyncO UR HERKEN SAR. PP. E 
修改 了 文件 数据 ， 而 文件 大 小 不 变 ， 那 么 调用 fdatasyncO 只 强制 进行 了 数据 更 新 。( 前 面 已 然 
述 及 ， 针 对 synchronized I/O data completion 状态 ， 如 有 条 是 诸如 最 近 修 改 时 间 惟 之 类 的 元 数据 
属性 发 生 了 变化 ， 那 么 是 无 需 传 递 到 磁盘 的 。) 相 比 之 下 ，fsyncO 调 用 会 强制 将 元 数据 传递 到 
RW L. 

对 某 些 应 用 而 言 ， 以 这 种 方式 来 减少 磁盘 UO 操作 的 次 数 是 很 有 用 的 ， 比 如 对 性 能 要 求 极 
高 ， 而 对 某 些 元 数据 〈 比 如 时 间 惟 ) 的 准确 性 要 求 不 高 的 应 用 。 当 应 用 程序 同时 进行 多 处 文 
件 更 新 时 ， 二 者 存在 相当 大 的 性 能 差异 ， 因 为 文件 数据 和 元 数据 通常 驻 留 在 磁盘 的 不 同 区 域 ， 
更 新 这 些 数据 需要 反复 在 整个 磁盘 上 执行 寻 道 操作 。 

Linux 2.2 以 及 更 早 版 本 的 内 核 将 faatasync0O 实 现 为 对 fsync0 的 调用 , 因而 性 能 也 未 获得 提升 。 






































始 于 内 核 2.6.17, Linux 提供 了 非 标准 的 系统 调用 sync. file range0, 当 刷 新 文件 数据 时 ， 
该 调用 提供 比 faatasyncO 调 用 更 为 精准 的 控制 。 调 用 者 能 够 指定 竺 刷新 的 文件 区 域 ,并 且 还 
能 指定 标志 ， 以 控制 该 系统 调用 在 遭遇 与 磁盘 时 是 否 阻 奢 。 更 详细 的 信息 请 参阅 
sync file range(2) 手 册页 。 





sync() 系 统 调用 会 使 包含 更 新 文件 信息 的 所 有 内 核 绥 冲 区 〈 即 数据 块 、 指 针 块 、 元 数据 等 ) 
Aor SURE D. 





#include <unistd.h> 





void sync(void); 











TE Linux KILP, sync WH NERA js CAE ESR E RA BORER) 时 返回 。 
然而 ，SUSv3 All ft YT syncO 实 现 只 是 简单 调度 一 下 IO 传递 ， 在 动作 未 完成 之 前 即 可 返回 。 











知 内 容 发 生变 化 的 内 核 缓冲 区 在 30 秒 内 未 经 显 式 方式 同步 到 人 磁盘 上 , 则 一 条 长 期 运行 的 
内 核 线程 会 确保 将 其 刷新 到 磁盘 上 。 这 一 做 法 是 为 了 规避 绥 冲 区 与 相关 位 可 文 件 内 容 长 期 处 
于 不 一 致 状态 〈 以 全 于 在 系统 衣 溃 时 发 生 数 据 丢 失 ) 的 问题 。 在 Linux 2.6 版 本 中 ， 该 任务 由 
pdflush 内 核 线 程 执行 。( 在 Linux 2.4 版 本 中 ， 则 由 kupdated 内 核 线 程 执 行 。) 

文件 /proc/sys/vm/dirty_expire_centisecs 规定 了 在 pdflush 刷 狐 之 前 脏 绥 冲 区 必须 达到 的 “年 
龄 ”( 以 1% 秘 为 单位 )。 位 于 同一 目 孙 下 的 其 他 文件 则 控制 了 pdflush 操作 的 其 他 方面 。 























使 所 有 与 入 同步 : O_SYNC 
调用 open0 函 数 时 如 指定 O SYNC 标志 ， 则 会 使 所 有 后 续 输 出 同步 (synchronous)。 
fd = open(pathname, O WRONLY | O SYNC); 


调用 open0 后 ， 每 个 write0 调 用 会 目 动 将 文件 数据 和 元 数据 刷新 到 磁盘 上 《〈 即 ， 按 照 
Synchronized I/O file integrity completion 的 要 求 执行 写 操作 )。 
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早期 BSD 系统 曾 使 用 O_FSYNC 标记 来 提供 O SYNC 标志 的 功能 。 在 glibe 库 中 ， 将 
O FSYNC 定义 为 与 O_ SYNC 标志 同 义 。 


O SYNC 对 性 能 的 影响 


采用 O SYNC fræ RAMMA fyncO、fdatasyncO 或 syneO) 对 性 能 的 影响 极 大 。 表 
13-3 所 示 为 采用 不 同 缓冲 区 大 小 , 在 有 、 E O SYNC 标识 的 情况 下 将 一 百 万 字 节 写 入 一 个 (位 
于 ext2 文件 系统 上 的 ) 新 创建 文件 所 需要 的 时 间 。 运 行 〈 随 本 书 一 同 发 行 源 人 码 中 的 
filebuff/write_bytes.c 程序 ) 结果 取 自 于 vanilla 2.6.30 内 核 以 及 块 大 小 为 4096 字 节 的 ext2 文件 
系统 。 每 行 数据 均 为 在 给 定 缓冲 区 大 小 下 运行 20 次 的 平均 值 。 

从 表 中 可 以 看 出 ，O_SYNC 标志 使 运行 总 用 时 大 为 增加 一 一 在 缓冲 区 为 1 字 节 的 情况 下 ， 
运行 时 间 相 差 1000 多 倍 。 还 要 注意 ， 以 O_SYNC 标志 执行 写 操作 时 运行 总 用 时 和 CPU 时 间 之 
间 的 巨大 差 寞 。 这 是 因为 系统 在 将 每 个 绥 冲 区 中 数据 问 人 磁盘 传递 时 会 把 程序 阻 守 起 来 。 

X 13-3 所 示 的 结果 中 还 略 去 了 使 用 O SYNC 时 影响 性 能 的 一 个 深层 次 因素 。 现代 磁盘 驱 
动 需 均 内 置 大 型 高 速 缓存 ， 而 默认 情况 下 ， 使 用 O_SYNC 只 是 将 数据 传 圳 到 该 缓存 中 。 如 果 
禁用 磁盘 上 的 高 速 缓存 〈 使 用 命令 hdparm -W0)， 那 么 OSYNC 对 性 能 的 影响 将 变 得 更 为 极 
























































器 。 在 绥 冲 区 大 小 为 1 字 节 的 情况 下 ， 运 行 鼠 用 时 从 1030 WERS] 16000 PEA. mAAR 
区 大 小 为 4096 字 贡 上 时， 运行 总 用 时 也 会 从 0.34 秒 上 升 到 4 秒 。 
表 13-3: O_SYNC 标志 对 写 入 1MB 速度 的 影响 
所 需 时 间 (b) 
BUF SIZE FE O SYNC A O SYNC 


总 CPU 时 间 











总 之 ， 如 果 和 需要 强制 刷新 内 核 缓冲 区 ， 那 么 在 设计 应 用 程序 时 就 应 考 虚 是 否 可 以 使 用 大 
尺寸 的 write£&vppe, 或 者 在 调用 fsync() 8k fdatasyncO 时 谍 慎 行事 ,而 不 是 在 打开 文件 时 束 使 
用 O SYNC 标志 。 





O DSYNC $i O RSYNC 标志 


SUSv3 规定 了 两 个 与 同步 WO 有 关 的 、 更 为 细 化 的 打开 文件 状态 标志 : O DSYNC 和 
O RSYNC. 

O DSYNC 标志 要 求 写 操作 按照 synchronized I/O data integrity completion 来 执行 (类 似 于 
fdatasync())。 与 之 相映 成 趣 的 是 O SYNC 标志 ， 遵 从 synchronized I/O file integrity completion 
(类 似 于 fsyncOrR Zl. 

O RSYNC 标志 是 与 O SYNC 标志 或 O DSYNC 标志 配合 一 起 使 用 的 ， 将 这 些 标志 对 写 
操作 的 作用 结合 到 读 操 作 中 。 如 末 在 打开 文件 时 同时 指定 O_ RSYNC M O DSYNC figs, H 
么 就 意味 着 会 遵照 synchronized I/O data integrity completion 的 要 求 来 完成 所 有 后 续 读 操作 
( 即 ， 在 执行 谈 操 作 之 前 ， 像 执行 O_DSYNC 标志 一 样 完成 所 有 等 处 理 的 写 操 作 )。 而 在 打开 
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文件 时 指定 O RSYNC 和 O SYNC f, MAREA synchronized I/O file integrity 
completion 的 要 求 来 完成 所 有 后 续 读 操作 〈 即 ， 在 执行 读 操作 之 前 ， 像 执行 O_SYNC 标志 一 
样 完成 所 有 待 处 理 的 写 操作 )。 

2.6.33 版 本 之 前 的 Linux 内 核 并 未 实现 O DSYNC 和 O RSYNC 标志 。glibc 头 文件 当时 














O SYNC 与 该 操作 无 关 。) 
始 于 2.6.33 版 本 , Linux 内 核实 现 了 O DSYNC 标志 的 功能 , 而 O_RSYNC 标志 的 功能 则 
可 望 在 未 来 的 版 本 中 添加 。 


在 2.6.33 版 本 之 前 ，Linux 内 核 并 未 完全 实现 O SYNC 的 语义 ， 而 是 将 其 实现 为 
O DSYNC 标志 。 针 对 基于 较 老 内 核 而 构建 的 应 用 程序 ， 为 保证 其 行为 的 一 任性 , 与 老 版 GNU 
C 函数 库 链 接 的 应 用 程序 会 继续 为 O_SYNC 标志 提供 O_DSYNC 标志 的 语义 ,即使 在 Linux 
2.6.33 及 更 高 版 本 的 运行 环境 下 。 

















13.4 |/O 缓冲 小 结 


图 13-1 概括 了 stdio 函数 库 和 内 核 所 采用 的 缓冲 《针对 输出 文件 )， 以 及 对 各 种 绥 冲 类 型 
的 控制 机 制 。 从 图 中 自 上 而 下 ， 首 先是 通过 stdio 库 将 用 户 数据 传递 到 stdio 缓冲 区 ， 该 缓冲 区 











位 于 用 户 态 内 存 区 。 当 绥 冲 区 填 满 时 ，stdio 库 会 调用 write0 系 统 调用 ， 将 数据 传递 到 内 核 高 
速 缓冲 区 《位 于 和 内核 态 内 存 区 )。 最 终 ， 内 核发 起 磁盘 操作 ， 将 数据 传递 到 磁盘 。 





stdio 转 数 库 调 用 








2| | AMA 1 ( prio oog PI WATVOWEBARH 

S| | 新 缓冲 区 | r | 

E ! UN ， x 3 

| fflush() -- stdio 缓冲 区 | | setbuf(stream, NULL) ' 

| | = | E. | 

I | F | 

I | 一 -一 4 | 

| | 1/ 〇 系统 调用 | | 

| ! write( ) 等 | 

| | | 

= | Jsyne() | | 

B |! fdatasyne() =~ 内 核 缓冲 区 高 速 缓 存 open(path, flags | | 

zo! sm) , D | O SYNC, mode) — | 
«| 1 

D zum. l | 


由 内 核发 起 的 写 操作 





磁盘 
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图 13-1 Æ MEIR 2g n] T 49] BI Zu] d os Ut rS X PPPS BUSH]. Bo iu PT fe fs m] 
新 目 动 化 的 调用 : 一 是 通过 禁用 stdio 库 的 绥 冲 ， 二 是 在 文件 输出 类 的 系统 调用 中 启用 同步 ， 
从 而 使 每 个 writeO 调 用 立刻 刷新 到 磁盘 。 
13.5 ”就 VO 模式 同 内 核 提 出 建议 


posix_fadvise() 系 统 调 用 允许 进程 束 目 身 访问 文件 数据 时 可 能 采取 的 模式 通知 内 核 。 





#define XOPEN SOURCE 600 
#include «fcntl.h» 


int posix fadvise(int fd, off t offset, off t len, int advice); 


Returns 0 on success, or a positive error number on error 














内 核 可 以 (但 不 必 非 要 ) 根据 posix_fadvise0O) 所 提供 的 信息 来 优化 对 绥 冲 区 局 速 绥 存 的 使 
用 ， 进 而 提高 进程 和 整个 系统 的 性 能 。 调 用 posix_fadvise() 对 程序 语义 并 无 影响 。 

参数 fd 所 指 为 一 文件 描述 符 ， 调 用 期 望 通知 内 核 进 程 对 fd 指 代 文件 的 访问 模式 。 人 参数 
offset 和 len 确定 了 建议 所 适用 的 文件 区 域 。offset 指定 了 区 域 起 始 的 偏 移 量 ，len 指定 了 区 域 
的 大 小 (以 字 节 数 为 单位 )。len 为 0 表示 从 offset 开始 ， 直 至 文件 结尾 。( 在 内 核 2.6.6 版 本 之 
Bf, len 为 0 sio EA 0 个 学 市 。) 

参数 advice 表示 进程 期 望 对 文件 采取 的 访问 模式 。 上 其 体 为 下 列 参 数 之 一 : 
POSIX_FADV_NORMAL 

进程 对 访问 模式 并 无 特别 建议 。 如 果 没 有 建议 ， 这 就 是 默认 行为 。 在 Linux 中 ， 该 操作 将 
文件 预 读 窗 口 大 小 置 为 默认 值 (128KB). 
POSIX_FADV_SEQUENTIAL 

进程 预计 会 从 低 偏 移 量 到 高 偏 移 量 顺序 读 取 数据 。 在 Linux P, 该 操作 将 文件 预 读 窗口 大 
小 置 为 默认 值 的 两 倍 。 
POSIX_FADV_RANDOM 

进程 预计 以 随机 顺序 访问 数据 。 在 Linux 中 ， 该 选项 会 禁用 文件 预 读 。 
POSIX_FADV_WILLNEED 

进程 预计 会 在 不 久 的 将 来 访问 指定 的 文件 区 域 。 内 核 将 由 offset 和 len 指定 区 域 的 文件 数 
据 预 先 填充 到 缓冲 区 高 速 缓存 中 。 后 续 对 该 文件 的 readO VEA EHE RAE O, Hus AZ 
冲 区 高 速 绥 存 中 抓 取 数 据 即 可 。 对 于 从 文件 读 取 的 数据 在 绥 冲 区 高 速 绥 存 中 能 保留 多 长 时 间 ， 
内 核 并 无 保证 。 如 果 其 他 进程 或 内 核 的 活动 对 内 存 存 在 强劲 需求 ， 那 么 最 终 会 重用 到 这 些 页 
面 。 换 言 之 ， 如 果 内 存 压 力 蜗 ， 程 序 员 束 应 该 确保 posix_fadviseO0 调 用 和 后 续 read() 调 用 间 的 
总 运行 时 长 较 短 。(Linux 特有 的 系统 调用 readahead0 提 供 了 与 POSIX FADV. WILLNEED 操 
作 等 效 的 功能 。) 
POSIX_FADV_DONTNEED 

进程 预计 在 不 久 的 将 来 将 不 会 访问 指定 的 文件 区 域 。 这 一 操作 给 内 核 的 建议 是 释放 相关 的 
高 速 缓存 页 面 〈 如 果 存 在 的 话 )。 在 Linux 中 ， 该 操作 将 分 两 步 执 行 。 首 先 ， 如 果 底 层 设备 目前 
没有 挤 满 一 系列 排队 的 写 操作 请 求 ， 那 么 内 核 会 对 指定 区 域 中 已 修改 的 页 面 进行 刷新 。 之 后 ， 
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内 核 会 尝试 释放 该 区 域 的 高 速 缓存 页 面 。 仅 当 该 区 域 中 已 修 改 的 页 面 在 第 一 步 中 成 功 写 入 底层 
设备 时 ， 第 二 步 才 可 能 操作 成 功 ， 也 了 驶 是 说 ， 在 该 设备 的 写 入 操作 请 求 没有 发 生 拥 塞 的 情况 下 。 
因为 应 用 程序 无 法 控制 设备 的 拥塞 〈congestion)， 所 以 要 确保 释放 高 速 缓存 页 面 ， 变 通 的 方法 
之 一 是 在 POSIX_ FADV_DONTNEED 操作 之 前 对 指定 的 参数 fd 调用 sync0 或 fdatasync(). 
POSIX FADV NOREUSE 

进程 预计 会 一 次 性 地 访问 指定 文件 区 域 ， 不 再 复 用 。 这 等 于 提示 内 核对 指定 区 域 访 问 一 
次 后 即 可 释放 页 面 。 在 Linux 中 ， 该 操作 目前 不 起 作用 。 

对 posix_fadviseO 的 规范 是 SUSv3 中 的 狐 增 内 容 ， 并 非 所 有 UNIX 实现 都 文 持 该 接口 。 
Linux 内 核 从 2.6 版 本 开始 提供 posix fadvise()。 















































13.6 ZEZAT: 直接 |/O 


始 于 内 核 2.4，Linux 允许 应 用 程序 在 执行 磁盘 VO 时 绕 过 绥 冲 区 高 速 绥 存 ， 从 用 户 空间 直 
接 将 数据 传递 到 文件 或 磁盘 设备 。 有 时 也 称 此 为 直接 WO (direct IO) 或 者 裸 OUaw LO)。 


此 处 的 描述 细节 为 Linux 所 特有 ，SUSv3 并 未 对 其 进行 规范 。 尽 管 如 此 ， 大 多 数 UNIX 
实现 均 对 设备 和 文件 提供 了 某 种 形式 的 直接 IO 访问 。 











有 时 会 将 直接 IO 误 认 为 获取 快速 IO 性 能 的 一 种 手段 。 然 而 ， 对 于 大 多 数 应 用 而 言 ， 
使 用 直接 LO 可 能 会 大 大 降低 性 能 。 这 是 因为 为 了 提高 VO 性 能 ， 内 核 针 对 绥 冲 区 高 速 缓存 
做 了 不 少 优化 ， 其 中 包括 : TRY NGOBUO ERE Cclusters) 人 厂 盘 块 上 执行 WO， 人 允许 访问 
同一 文件 的 多 个 进程 共享 高 速 缓存 的 缓冲 区 。 应 用 如 使 用 了 直接 VO 将 无 法 受益 于 这 些 优化 
举措 。 直 接 IO 只 适用 于 有 特定 IO 需求 的 应 用 。 例 如 数据 库 系 统 ， 其 高 速 缓存 和 IO 优化 
机 制 均 自 成 一 体 ， 无 需 内 核 消耗 CPU 时 间 和 内 存 去 完成 相同 任务 。 

可 针对 一 个 单独 文件 或 块 设备 《〈 比 如， 一 块 磁盘 ) 执行 直接 WO。 要 做 到 这 点 ， 需 要 在 调 
用 open0 打 开 文 件 或 设备 时 指定 O_DIRECT 标志 。 

O DIRECT 标志 目 内 核 2.4.10 开始 有 效 ， 并 非 所 有 Linux 文件 系统 和 内 核 版 本 都 文 持 该 
标志 。 绝 大 多 数 原生 (Cnative) 文件 系统 都 文 持 O_DIRECT， 但 许多 非 UNIX 文件 系统 (比如 
VFAT) 则 不 文 持 。 对 于 所 关注 的 文件 系统 ， 有 必要 进行 相关 测试 “大 文件 系统 不 文 持 
O DIRECT, M open0 将 失败 并 返回 错误 号 EINVAL) 或 是 阅读 内 核 源 码 ， 以 此 来 加 以 验证 。 



































若 一 进程 以 O_DIRECT 标志 打开 某 文件 ， 而 另 一 进程 以 普通 方式 〈 即 使 用 了 高 速 缓存 
缓冲 区 ) 打开 同一 文件 ， 则 由 直接 VO 所 读 写 的 数据 与 缓冲 区 高 速 缓存 中 内 容 之 间 不 存在 
一 致 性 。 应 尽量 避免 这 一 场景 。 

raw(8) 手 册页 描述 了 一 个 获取 对 磁盘 设备 进行 原始 访问 的 老 技术 〈 现 在 已 过 时 )。 


直接 I/O 的 对 齐 限 制 

因为 直接 WO 针对 磁盘 设备 和 文件 ) 涉及 对 磁盘 的 直接 访问 ， 所 以 在 执行 WO 时 ， 必 须 
用 和 守 一 些 限制 。 

。 用 村 传递 数据 的 绥 剖 区， 其 内 存 边 界 必 须 对 齐 为 块 大 小 的 整数 倍 。 

。 数据 传输 的 开始 点 ， 亦 即 文 件 和 设备 的 仿 移 量 ， 必 须 是 块 大 小 的 整数 倍 。 

o 竺 传递 数据 的 长 度 必 须 是 块 大 小 的 整数 倍 。 
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不 这 守 上 述 任 一 限制 均 将 导致 EINVAL 错误 。 在 上 述 列表 中 ， 块 大 小 (block size) 指 设 
A BUMIREUCA^N GBA 512 F). 


当 执 行 直 接 IO B, Linux 2.4 E Linux 2.6 限制 更 为 严格 : 对 齐 、 长 度 及 偏 移 量 必须 
是 底层 文件 系统 逻辑 块 大 小 的 整数 倍 。( 典 型 文件 系统 的 逻辑 块 大 小 为 1024、2048 或 4096 
字 节 。) 





示例 程序 

程序 清单 13-1 提供 了 一 个 使 用 O_DIRECT 标记 打开 一 个 文件 读 取 数据 的 便 单 例子 。 该 程 
序 可 指定 多 达 4 个 命令 行 参数 ， 依 次 为 要 读 取 的 文件 、 要 从 文件 中 读 取 的 子 节 数 、 读 之 前 在 
文件 中 定位 (seek〉 的 仿 移 量 和 传递 给 read0) 的 数据 缓冲 区 对 章 。 最 后 丙 个 为 可 选 参 数 ， 献 认 
值 分 别 为 0 字 节 和 4096 字 节 。 下 面 是 运行 该 程序 的 一 些 示 例 ; 














$ ./direct read /test/x 512 Read 512 bytes at offset O 

Read 512 bytes Succeeds 

$ ./direct read /test/x 256 

ERROR [EINVAL Invalid argument] read Length is not a multiple of 512 

$ ./direct read /test/x 512 1 

ERROR [EINVAL Invalid argument] read Offset is not a multiple of 512 

$ ./direct read /test/x 4096 8192 512 

Read 4096 bytes Succeeds 

$ ./direct read /test/x 4096 512 256 

ERROR [EINVAL Invalid argument] read Alignment is not a multiple of 512 





程序 请 单 13-1 中 程序 使 用 memalignOPR250K 27 RÉ— ERA ép, RCALEEE S TS P SU 
整数 倍 对 齐 。7.1.4 TX] memalignO PS ZA Brito. 


程序 清单 13-1: 4H O DIRECT 跳 过 缓冲 区 高 速 缓存 
M filebuff/direct read.c 
#define GNU SOURCE /* Obtain O DIRECT definition from «fcntl.h» */ 
include «fcntl.h» 
include «malloc.h» 
include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


int fd; 

ssize t numRead; 

size t length, alignment; 
off t offset; 

void *buf; 


if (argc < 3 || stremp(argv[1], "--help") == 0) 
usageErr("%s file length [offset [alignment]]Wn", argv[0]); 
length = getLong(argv[2], GN ANY BASE, "length"); 
offset = (argc > 3) ? getLong(argv[3], GN ANY BASE, "offset") : 0; 
alignment = (argc > 4) ? getLong(argv[4], GN ANY BASE, "alignment") : 4096; 


fd = open(argv[1], O RDONLY | O DIRECT); 


if (fd == -1) 
errExit("open"); 
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/* memalign() allocates a block of memory aligned on an address that 
is a multiple of its first argument. The following expression 
ensures that 'buf' is aligned on a non-power-of-two multiple of 
"alignment'. We do this to ensure that if, for example, we ask 
for a 256-byte aligned buffer, then we don't accidentally get 
a buffer that is also aligned on a 512-byte boundary. 


The '(char *)' cast is needed to allow pointer arithmetic (which 
is not possible on the 'void *' returned by memalign()). */ 


buf = (char *) memalign(alignment * 2, length + alignment) + alignment; 
if (buf == NULL) 


errExit("memalign"); 


if (lseek(fd, offset, SEEK SET) == -1) 
errExit("lseek"); 


numRead = read(fd, buf, length); 
if (numRead -- -1) 
errExit("read"); 
printf("Read %ld bytes Wn", (long) numRead); 
exit(EXIT SUCCESS); 


filebuff/direct read.c 


13.7 ”混合 使 用 库 函 数 和 系统 调用 进行 文件 MO 


在 同一 文件 上 执行 VO 操作 时 , 还 可 以 将 系统 调用 和 标准 C 语言 库 函 数 混 合 使 用 。 filenoO 
和 fdopen() 函 数 有 助 于 完成 这 一 工作 。 





#include «stdio.h» 


int fileno(FILE *stream); 
Returns file descriptor on success, or -1 on error 


FILE *fdopen(int fd, const char *mode); 


Returns (new) file pointer on success, or NULL on error 








给 定 一 个 (文件 ) 流 ，fileno0 函 数 将 返回 相应 的 文件 描述 符 〈 即 stdio 库 在 该 流 上 已 经 打 
开 的 文件 描述 符 )。 随 即 可 以 在 诸如 read0、write0、dupO0 和 fentl0 之 类 的 VO 系统 调用 中 正常 
使 用 该 文件 描述 符 。 

fdopen()rÉ 25; 人 leno0 函 数 的 功能 相反 。 给 定 一 个 文件 描述 符 ， 访 函数 将 创建 了 一 个 使 用 
该 摘 述 符 进 行文 件 VO 的 相应 流 。mode 参数 与 fopen( 〇 函数 中 mode 参数 含义 相同 。 例 如 ，T 
为 读 ，w 为 写 ，a ^B. ES): FRF fd 的 访问 模式 不 一 致 ， 则 对 faopenO 的 调用 
将 失败 。 

fdopenO 函 数 对 非常 规 文件 描述 符 特 别 有 用 。 正 如 后 续 章 节 将 提 及 的 ， 创 建 套 接 字 和 管道 
的 系统 调用 总 是 返回 文件 描述 符 。 为 了 在 这 些 文件 类 型 上 使 用 stdio 库 函 数 , 必须 使 用 fdopen() 
函数 来 创建 相应 文件 流 。 

当 使 用 stdio 库 函 数 ， 并 结合 系统 IO 调用 来 实现 对 人 磁盘 文件 的 VO 操作 时 ， 必 须 将 组 证 
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问题 牢记 于 心 。LIO 系统 调用 会 直接 将 数据 传递 到 内 核 绥 冲 区 局 速 绥 存 ， 而 stdio 库 函 数 会 等 
到 用 户 空 间 的 流 缓冲 区 项 满 ， 再 调用 writeO 将 其 传递 到 内 核 缓冲 区 融 速 绥 存 。 请 考虑 如 下 辣 
标准 输出 写 入 的 代码 : 


printf("To man the world is twofold, "); 
write(STDOUT FILENO, "in accordance with his twofold attitude.Nn", 41); 


通 币 情 况 下 ，printfO 函 数 的 输出 往往 在 write0 函 数 的 得 出 之 后 出 现 。 因 此 ， 代 但 产生 如 下 
输出 : 


in accordance with his twofold attitude. 
To man the world is twofold, 


将 IO 系统 调用 和 stdio 函数 混合 使 用 时 ， 使 用 包 ush0 来 规避 这 一 问题 ， 是 明智 乙 举 。 也 
可 以 使 用 setvbufO 或 setbufO 使 缓冲 区 失效 ， 但 这 样 做 可 能 会 影 啊 应 用 的 VO 性 能 ， 因 为 每 个 
得 出 操作 将 引起 一 次 write SUR o 














要 将 IO 系统 调用 和 stdio 函数 混合 使 用 ，SUSv3 针对 此 类 应 用 的 要 求 有 所 规范 。 详 情 
参见 系统 接口 卷 (System Interfaces (XSH)) “通用 信息 ”一 章 中 “文件 描述 符 和 标准 IO 流 ” 


N 


E 
o 


A 


1 3.8 iz 


输入 输出 数据 的 缓冲 由 内 核 和 stdio 库 完 成 。 有 时 可 能 希望 阻止 绥 冲 ， 但 这 需要 了 解 其 对 
应 用 程序 性 能 的 影响 。 可 以 使 用 各 种 系统 调用 和 库 函 数 来 控制 内 核 和 stdio 缓冲 ， 并 执行 一 次 
性 的 绥 冲 区 刷新 。 

进程 使 用 posix_fadvise() 疯 数 ， 可 就 进程 对 特定 文件 可 能 采取 的 数据 访问 模式 回 内 核 提 出 
建议 。 内 核 可 籍 此 来 优化 对 缓冲 区 高 速 缓存 的 应 用 ， 进 而 提高 VO 性 能 。 

在 Linux 环境 下 ，open() 所 特有 的 O DIRECT 标识 允许 特定 应 用 跳 过 绥 冲 区 高 速 绥 存 。 

在 对 同一 个 文件 执行 VO 操作 时 , fileno0 和 fdopen0 有 助 于 系统 调用 和 标准 C 语言 库 函 数 
的 混合 使 用 。 给 定 一 个 流 ， 人 feno0 将 返回 相应 的 文件 摘 述 符 ，fdaopenO 则 反 其 道 而 行 之 ， 针 对 
指定 的 打开 文件 描述 符 创 建 一 个 新 的 流 。 
补充 信息 

[Bach，1986] 摘 述 了 System V 中 绥 冲 区 高 速 绥 存 的 实现 和 优势 。[Goodheart & Cox, 1994] 


和 [Vahalia，1996] 也 描述 了 System V 绥 冲 区 高 速 绥 存 的 基本 原理 和 实现 。 更 多 关于 Linux $^ 
境 下 的 相关 信息 参见 [Bovet & Cesati, 2005] 和 [Love, 2010]. 






































13.9 ”练习 


13-1. 使 用 shell Pj EXHI] time 命令 ， 测 算 程序 清单 4-1(copy.c) 在 当前 环境 下 的 用 时 。 
a) 使 用 不 同 的 文件 和 缓冲 区 大 小 进行 试验 。 编 译 应 用 程序 时 使 用 
-DBUF SIZE-nbytes 选项 可 设置 缓冲 区 大 小 。 
b) 对 open0 的 系统 调用 加 入 O_SYNC 标识 ， 针 对 不 同 大 小 的 缓冲 区 ,速度 存在 多 
RR 
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13-2. 


13-3. 


c) 在 一 系列 文件 系统 (比如 ，ext3、XFS、Btrfs 和 JFS) 中 执行 这 些 计时 测试 。 
结束 相似 吗 ? 当 缓 冲 区 大 小 从 小 变 大 时 ， 用 时 趋势 相同 吗 ? 

测定 febuff/write_bytes.c 随 本 书 发 行 版 提供 源码 ) 程序 在 不 同 的 缓冲 区 大 小 以 及 

文件 系统 下 的 用 时 。 

如 下 语句 的 执行 效 来 是 什么 ? 

fflush(fp); 

fsync(fileno(fp)); 

试 解释 取决 于 将 标准 输出 重 定 问 到 终 疹 还 是 磁盘 文件 , 为 什么 如 下 代码 的 输出 结 

不 同 。 


printf("If I had more time, \n"); 
write(STDOUT FILENO, "I would have written you a shorter letter.\n", 43); 


tail [ -n num ] file 命令 打印 名 为 file 文件 的 最 后 num. 行 ( 默 认为 10 行 )。 使 用 IO 
系统 调用 〈lseekO0、read0、write0 等 ) 来 实现 该 命令 。 牢 记 本 章 所 描述 的 缓冲 问题 ， 
力求 实现 的 高 效 性 。 
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.14. 








本 书 第 4 章 、 第 5 章 及 第 13 ANAT VO, JULI TEAM AR) 文件 。 本 章 和 
后 续 几 章 则 会 深入 探讨 与 文件 相关 的 一 系列 主题 。 
。 本 章 会 介绍 文件 系统 。 
。 第 15 草 将 会 讨论 与 文件 相关 的 各 种 属性 ， 其 中 包括 时 间 崔 、 所 有 权 以 及 权限 。 
e 第 16 章 和 第 17 章 则 会 关注 Linux 2.6 的 两 个 狐 特 性 :扩展 属性 和 访问 控制 列表 (ACL )。 
扩展 属性 可 将 任意 元 数据 与 一 文件 进行 关联 ， 而 ACL 则 是 对 传统 UNIX. 文件 权限 模 
型 的 扩展 。 
e 第 18 章 将 讨论 目录 和 链接 。 
文件 系统 是 对 文件 和 目录 的 组 织 集合 ， 本 章 的 绝 大 多 数 内 容 都 与 文件 系统 相关 。 本 章 会 
解释 一 系列 与 文件 系统 有 关 的 概念 ， 举 例 时 将 采用 传统 的 Linux ext2 文件 系统 。 此 外 ,本章 还 
会 简要 介绍 一 些 Linux 支持 的 日 志文 件 系统 。 
在 本 章 结 尾 ， 将 会 讨论 用 于 挂 载 (mount) MER (unmount) 文件 系统 的 系统 调用 ， 以 
及 用 来 获取 已 挂 载 文件 系统 信息 的 库 函 数 。 


14.1 设备 专用 文件 (设备 文件 ) 


本 章 会 经 常 提 到 磁 杞 设备 ， 因 此 这 里 先 人 简要 介绍 一 下 设备 文件 的 概念 。 

设备 专用 文件 与 系统 的 某 个 设备 相对 应 。 在 内 核 中 ， 每 种 设备 类 型 都 有 与 之 相对 应 的 设 
备 驱 动 程序 ， 用 来 处 理 设备 的 所 有 UO ick. 设备 驱 动 程序 属 内 核 代 码 单 元 ,可 执行 一 系列 操 
E, CATO 与 相关 便 件 的 输入 /输出 动作 相对 应 。 由 设备 驱动 程序 提供 的 API 是 固定 的 ， 包含 
的 操作 对 应 于 系统 调用 openO. closeO. readO. write). mmapOELA € ioctl0。 每 个 设备 驱动 程 
序 所 提供 的 接口 一 致 , 这 隐藏 了 每 个 设备 在 操作 方面 的 差异 , 从 而 满足 了 LO 操作 的 通用 性 (请 
参见 4.2 节 )。 

某 些 设备 是 实际 存在 的 ， 比 如 鼠标 、 破 盘 和 做 带 设 备 。 而 另 一 些 设 备 则 是 虚拟 的 ， 尔 即 
并 不 存在 相应 便 件 ， 但 内 核 会 〈 通 过 设备 驱动 程序 ) 提供 一 种 抽象 设备 ， 其 所 携 禹 的 API 与 
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可 将 设备 划分 为 以 下 两 种 类 型 。 

e 了 字符 型 设备 基于 每 个 字符 来 处 理 数 据 。 终 站 和 键盘 都 属于 字符 型 设备 。 

。 块 设备 则 每 次 处 理 一 其 数据 。 其 的 大 小 取决 于 设备 类 型 ， 但 通 种 为 512 子 市 的 倍数 。 

磁盘 和 磁带 设备 都 属于 块 设备 。 

与 其 他 类 型 的 文件 一 样 ， 设 备 文件 忠 会 出 现在 文件 系统 中 ， 通 党 位 于 /dev 目录 下 。 超 级 
用 户 可 使 用 mknod 命令 创建 设备 文件 ， 特 权 级 程序 “CAP_MKNOD) 执行 mknodO 系 统 调用 
处 可 完成 相同 任务 。 











本 书 不 会 对 mknod() (make file-system i-node 创建 ， 文 件 系统 1 节点) 系统 调用 做 详细 
介绍 ， 因 为 该 系统 调用 的 用 法 一 目 了 然 ， 而 且 如 今 仅 用 于 创建 设备 文件 ， 一 般 应 用 程序 鲜 
有 问津 。 当 然 ， 也 可 以 使 用 mknod0 创 建 FIFO (参见 44.7 节 )， 但 最 好 使 用 mkfifoO) 函 数 来 
完成 该 任务 。 早 先 ， 某 些 UNIX 实现 会 使 用 mknod0 来 创建 目录 ， 但 如 今 已 为 mkdir0 系 统 
调用 所 取代 。 然 而 ， 还 有 一 些 UNIX 实现 (Linux 不 在 此 列 )， 为 了 保持 向 后 兼容 性 ， 仍 然 
在 mknod0 中 保留 了 这 一 能 力 ， 详 情 请 见 mknod(2) 手 册页 。 


在 Linux 的 早期 版 本 中 ，/dev 包含 了 系统 中 所 有 可 能 设备 的 条 目 ， 即 使 条 些 设 备 实际 并 霖 
与 系统 连接 。 这 意味 看 /dev 会 包含 数 以 干 计 的 未 用 设备 项 ， 从 而 导致 了 两 个 缺点 : 其 一 ， 对 于 
需要 扫描 该 目录 内 容 的 应 用 而 言 ， 降 低 了 程序 的 执行 速度 ;其 二 ， 根 据 该 目录 下 的 内 容 无 法 发 
现 系统 中 实际 存在 哪些 设备 。Linux2.6 运用 udev 程序 解决 了 上 述 问 题 。 该 程序 所 依赖 的 sysfs 
文件 系统 ， 是 疤 载 于 /sys 下 的 伪 文 件 系统 ， 将 设备 和 其 他 内 核对 象 的 相关 信息 导出 全 用 户 空间 。 









































[Kroah-Hartman，2003] 一 书简 要 介绍 了 udev， 并 概述 了 该 程序 较 之 于 devfs 的 优势 ， 
后 者 是 Linux2.4 内 核对 此 类 问题 的 解决 方案 。 与 sysfs 文件 系统 有 关 的 内 容 可 见 诸 于 Linux 
2.6 内 核 源码 文件 Documentation/filesystems/sysfs.txt 和 [Mochel，2005] 一 书 。 





ix t$ ID 

每 个 设备 文件 都 有 主 、 辅 了 DP 号 各 一 。 主 ID 号 标识 一 般 的 设备 等 级 ， 内 核 会 使 用 主 ID 号 
得 找 与 该 类 设备 相应 的 驱动 程序 。 辅 了 D 号 能 够 在 一 般 等 级 中 唯一 标识 特定 设备 。 命 令 ls -l 
可 显示 出 设备 文件 的 主 、 辅 ID。 

设备 文件 的 i 节点 中 记录 了 设备 文件 的 主 、 辅 JD〈( 本 章 第 4 和 将 介绍 让 节点 )。 每 个 设备 
驱动 程序 都 会 将 上 自己 与 特定 主 设备 号 的 关联 关系 问 内 核 注 册 ， 藉 此 建立 设备 专用 文件 和 设备 
驱动 程序 之 间 的 关系 。 内 核 是 不 会 使 用 设备 文件 名 来 查找 驱动 程序 的 。 

在 Linux 2.4 以 及 更 旱 的 版 本 中 ， 系 统 的 设备 总 数 受 限于 这 一 事实 : 设备 的 主 、 辅 ID 只 
能 用 8 位 数 来 表示 。 加 之 主 设 备 ID 固定 不 变 ， 且 为 统一 分 配 (由 Linux 命名 和 编号 机 构 分 配 ， 
请 见 http:/www.lanana.org)， 使 得 上 述 问题 更 为 严重 。Linux 2.6 采用 了 更 多 位 数 来 存放 主 、 辅 
ID 分别 为 12 位 和 20 位 )， 从 而 缓解 了 这 一 问题 。 




















14.2 磁盘 和 分 区 
常规 文件 和 目录 通常 都 存放 在 人 硬盘 设备 里 。( 其 他 设备 也 能 存放 文件 和 上 目录， 比如， 
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CD-ROM, flash 内 存 卡 以 及 虚拟 磁盘 等 ， 但 这 里 主要 关注 的 是 使 盘 设 备 。) 下 面 儿 节 会 介绍 了 磁 
盘 的 组 织 方 式 ， 以 及 如 何 对 其 分 区 。 


磁盘 驱动 器 

硬盘 驱动 器 是 一 种 机 械 装 置 ， 由 一 个 或 多 个 高 速 旋转 (每 分 钟 旋转 数 以 千 计 ) 的 盘 片 组 
成 。 通 过 在 磁盘 上 快速 移动 的 读 / 写 磁头 ， 便 可 获取 /修改 做 盘 表 面 的 磁性 编码 信息 。 人 厂 盘 表面 
言 息 物理 上 存储 于 称 为 磁道 〈track) -AROA REGERE SCORES GS SERAIS 
扇 区 则 包含 一 系列 物理 块 。 物 理 块 的 容量 一 般 为 512 字 节 (或 512 的 倍数 )， 代 表 了 驱动 器 可 
读 / 写 的 最 小 信息 单元 。 

尽管 现代 磁盘 速度 很 快 ， 但 读 写 人 役 盘 信息 耗 时 依然 不 菲 。 首 先 ， 了 磁头 要 移动 到 相应 磁道 
(CHEWED; 然后 ， 在 相应 面 区 旋转 到 倍 头 下 之 前 ， 旨 动 器 必须 一 直 等 竺 (旋转 延迟 ); 最 后 ， 
还 要 从 所 请 求 的 块 上 传输 数据 〈 传 输 时 间 )。 执 行 上 述 操作 所 耗费 的 时 间 总 量 通常 以 毫秒 为 单 
位 。 相 形 之 下 ， 同 样 的 时 间 可 供 现代 CPU 执行 数 百 万 条 指令 。 


磁盘 分 区 
可 将 每 块 伺 各 划 分 为 一 个 或 多 个 (不 重 羞 的) 分 区 。 内 核 则 将 每 个 分 区 视 为 位 于 /dev 路 
径 下 的 单独 设备 。 


系统 管理 员 可 使 用 fdisk 命令 来 决定 磁盘 分 区 的 编号 、 大 小 和 类 型 。 命 令 fdisk -1 会 列 
出 磁盘 上 的 所 有 分 区 。Linux 专 有 文件 /proc/partitions 记录 了 系统 中 每 个 磁盘 分 区 的 主 辅 设 
备 编写 、 大 小 和 名 称 。 


人 厂 盘 分 区 可 容纳 任何 类 型 的 信息 ， 但 通 问 只 会 包含 以 下 之 一 。 

e (文件 系统 : 用 来 存放 常规 文件 ， 请 参阅 本 章 第 3 节 。 

e | 数据 区 域 : 可 做 为 裸 设备 对 其 进行 访问 ,请 参阅 13.6 节 (一 些 数 据 库 管理 系统 会 使 用 

该 技术 )。 

e | 交换 区 域 : 供 内 核 的 内 存 管理 之 用 。 

可 通过 mkswap(8) 命 令 来 创建 交换 区 域 。 特权 级 进程 (CAP_SYS_ADMIN) 可 利用 swaponO 
系统 调用 向 内 核 报告 将 磁盘 分 区 用 作 交 换 区 域 .swapofftO 系 统 调用 则 会 执行 反 向 功能 一 一 告 之 
内 核 ， 停 止 将 磁盘 分 区 用 作 交 换 区 域 。 尽 管 SUSv3 并 未 对 上 述 系统 调用 进行 规范 ， 但 它们 却 
获得 了 许多 UNIX 实现 的 文 持 。 其 他 信息 请 参考 swapon(2)、Swapon(8) 手 册页 。 










































































可 使 用 Linux 专 有 文件 /proc/swaps 来 得 看 系统 中 当前 已 激活 交换 区 域 的 信息 。 其 中 包 
括 每 个 交换 区 域 的 大 小 ， 以 及 在 用 交换 区 域 的 个 数 。 


143 ”文件 系统 


文件 系统 是 对 常规 文件 和 目录 的 组 织 集合 。 用 于 创建 文件 系统 的 命令 是 mkfs。 

Linux 的 强项 之 一 便 是 文 持 种 类 繁多 的 文件 系统 ， 如 下 所 示 。 

e 传统 的 ext2 文件 系统 。 

e 各 种 原生 (native UNIX 文件 系统 ， 比 如 ，Minix、System V 以 及 BSD 文件 系统 。 
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。 微软 的 FAT, FAT32 以 及 NTFS 文件 系统 。 

e ISO 9660 CD-ROM 文件 系统 。 

e Apple Macintosh 的 HFS. 

。 一 系列 网 络 文件 系统 ， 包 括 广 为 使 用 的 SUN NFS (Linux 对 NFS 的 实现 信息 请 参见 
http://nfs.sourceforge.net/), IBM 和 微软 的 SMB、Novell NCP 以 及 Carnegie Mellon 大 
学 开发 的 Coda 文件 系统 。 

e 一 系列 日 志文 件 系统 ， 包 括 ext3、ext4、Reiserfs、JES、XFS 以 及 Btrfs 。 

从 Linux 的 专 有 文件 /proc/filesystems 中 可 以 伍 看 当前 为 内 核 所 知 的 文件 系统 类 型 。 


Linux 2.6.14 中 ， 添 加 了 FUSE 用户 空 间 文件 系统 ) 工具 。 采 用 这 一 机 制 ， 可 为 内 核 
添加 挂 钓 (hook)， 以 便 以 用 户 空间 程序 来 完整 实现 文件 系统 ， 而 无 需 对 内 核 进行 修补 或 重 
Pmi. FEAE A J http://fuse.sourceforge.net/。 


ext2 文件 系统 


多 年 来 , ext2 (扩展 文件 系统 二 世 ) 是 Linux. 上 使 用 最 为 广泛 的 文件 系统 , 也 是 原始 Linux 
文件 系统 一 一 ext 的 继任 者 。 近来 , 随 看 各 种 日 志文 件 系 统 的 兴起 , 对 ext2 的 使 用 也 日 趋 减 少 。 
有 了 时， 在 介绍 通用 文件 系统 概念 时 ， 以 一 球 特 定 的 文件 系统 实现 为 例会 容易 一 些 ， 出 于 这 一 
目的 ， 本 章 将 以 ext2 为 例 来 介绍 文件 系统 。 


























ext2 文件 系统 由 Remy Card 编写 。ext2 的 源码 篇 幅 不 大 ( 约 5000 行 C 语言 代码 )， 是 其 他 
儿 种 文件 系统 实现 的 原型 。ext2 文件 系统 的 主页 为 http://e2fsprogs. sourceforge.net/ext2.html. 1% 
站 点 上 有 一 篇 概括 ext2 实现 的 优秀 论文 。 JG), David Rusling MERER PBS “The Linux kernel" 
(可 从 http:// www.tdp.org/ 下 载 ) 对 ext2 也 有 摘 述 。 








文件 系统 结构 

在 文件 系统 中 ， 用 来 分 配 空间 的 基本 单位 是 逻辑 块 ， 亦 即 文件 系统 所 在 磁盘 设备 上 若干 
连续 的 物理 块 。 例 如 ， (使 用 
mkfs(8) 命 令 创建 文件 系统 时 ， 可 指定 逻辑 块 的 大 小 作为 命令 行 参数 。) 











特权 级 程序 (CAP_SYS_RAWIO) 可 利用 iocduO 的 FIBMAP 操作 ， 来 判定 文件 指定 逻 
辑 块 的 物理 位 置 。 该 调用 的 第 三 个 参数 是 整 型 值 ， 同 时 用 于 返回 结果 。 调 用 之 前 ， 应 将 该 
参数 设置 为 逻辑 块 编号 〈 第 一 个 逻辑 块 编号 为 0); 调用 之 后 ， 其 中 返回 的 为 存储 该 逻辑 块 
的 起 始 物理 块 编号 。 


图 14-1 所 示 为 磁盘 分 区 和 文件 系统 之 间 的 关系 ， 以 及 一 般 文 件 系统 的 组 成 。 
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文件 系统 由 以 下 几 部 分 组 成 。 











引导 其: 总 是 作为 文件 系统 的 省 块 。 引 叶 块 不 为 文件 系统 所 用 ， 只 是 包含 用 来 引导 操 
作 系 统 的 信息 。 操 作 系 统 昌 然 只 需 一 个 引号 块 ， 但 所 有 文件 系统 部 设 有 3 引 叶 块 (其 中 
的 绝 大 多 数 部 未 使 用 )。 

ERR: 案 随 引导 块 之 后 的 一 个 独立 块 , 包含 与 文件 系统 有 关 的 参数 信息 ， 其 中 包括 : 
-i 市 反 表 容量 ; 

- 文件 系统 中 逻辑 块 的 大 小 ; 

-以 逻辑 块 计 ， 文 件 系 统 的 大 小 ; 














驻 留 于 同一 物理 设备 上 的 不 同文 件 系 统 ， 其 类 型 、 大 小 以 及 参数 设置 比如， 块 大 小 ) 





部 可 以 有 所 不 同 。 这 也 是 将 一 块 磁盘 划分 为 多 个 分 区 的 原因 之 一 。 

i 节点 表 : 文件 系统 中 的 每 个 文件 或 目录 在 i 市 点 表 中 都 对 应 着 唯一 一 条 记录 。 这 条 记 
杂 登 记 了 关乎 文件 的 各 种 信息 。 下 一 市 会 深入 讨论 1 厄 尽 6 有 时 也 将 i1 市 点 表 称 为 ilist。 
数据 块 :文件 系统 的 大 部 分 空间 痢 用 于 存放 数据 ， 以 构成 驻 留 于 文件 系统 之 上 的 文件 
和 目录 。 


























束 ext2 文件 系统 而 言 ， 情 况 要 比 正 文中 的 描述 稍微 复杂 一 点 。 在 起 始 的 引导 块 之 后 ， 
ext2 文件 系统 被 划分 为 一 系列 大 小 相等 的 块 组 (block group)。 每 个 块 组 都 包含 了 一 份 超级 
块 的 拷贝 、 与 块 组 有 关 的 参数 信息 ， 以 及 该 块 组 的 i 节点 表 和 数据 块 。ext2 文件 系统 会 尽量 
在 同一 块 组 内 存储 一 个 文件 的 所 有 块 ， 以 期 在 对 文件 线性 访问 时 缩短 寻 道 时 间 。 更 多 评 情 ， 
请 参考 Linux 源码 Documentation/filesystems/ext2.txt、dumpe2fs 程序 的 源 代码 (作为 e2fsprogs 
软件 包 的 一 部 分 发 布 )， 以 及 [Bovet & Cesati, 2005]. 


14.4 





IT ER 





针对 驻 留 于 文件 系统 上 的 每 个 文件 ， 文 件 系统 的 i 节点 表 会 包含 一 个 i 节点 (索引 节点 的 





简称 )。 








对 i 市 点 的 标识 ， 采用 的 是 i 节点 表 中 的 顺 续 位 置 ， 以 数字 表示 。 文 件 的 i 市 点 写 (或 











何 称 为 1 号 ) 是 1 下 命 令 所 显示 的 第 一 列 。 i 节操 所 维护 的 信息 如 下 所 示 。 


文件 类 型 (比如 ， 常 规 文件 、 目 录 、 符 写 链 接 ， 以 及 字符 设备 等 )。 

文件 属 主 ( 亦 称 用 户 ID 或 UID)。 

文件 属 组 〈 亦 称 为 组 ID 或 GID)。 

3 贡 用 户 的 访问 权限 : 属 主 (有 时 也 称 为 用 户 )、 属 组 以 及 其 他 用 户 ( 属 主 和 属 组 用 户 
之 外 的 用 户 )。 详 情 请 见 15.4 节 。 

3 个 时 间 戳 : 对 文件 的 最 后 访问 时 间 (ds -lu 所 显示 的 时 间 )、 对 文件 的 最 后 修改 时 间 
(也 是 1s 一 所 默认 显示 的 时 间 )， 以 及 文件 状态 的 最 后 改变 时 间 (ls -lc 所 显示 的 最 后 
改变 1 市 点 信息 的 时 间 )。 值 得 注意 的 是 ， 与 其 他 UNIX 实现 一 样 ， 大 多 数 Linux 文件 
系统 不 会 记录 文件 的 创建 时 间 。 

指向 文件 的 硬 链接 数量 。 

SE 

实际 分 配给 文件 的 岂 数 量 ， 以 512 字 节 块 为 单位 。 这 一 数字 可 能 不 会 简单 等 同 于 文件 
的 字 节 大 小 ， 因 为 考虑 文件 中 包含 空洞 (请 参见 4.7 节 ) 的 情形 ， 分 配给 文件 的 块 数 
可 能 会 低 于 根据 文件 正常 大 小 (以 字 市 为 单位 〉 所 计算 出 的 块 数 。 
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e 指 问 文件 数据 块 的 指针 。 


ext2 中 的 1 太 挟 和 数据 块 指针 

类 似 于 大 多 数 UNIX 文件 系统 ，ext2 文件 系统 在 存储 文件 时 ， 数 据 块 不 一 定 连 续 ， 其 
至 不 一 定 按 顺 序 存放 (尽管 ext2 会 尝试 将 数据 块 彼此 靠近 存储 )。 为 了 定位 文件 数据 块 ， 
内 核 在 i 节点 内 维护 有 一 组 指针 。 图 14-2 所 示 为 在 ext2 文件 系统 上 完成 上 述 任务 的 情况 。 








i 节点 项 
图 例 说 明 
其 他 文件 信息 一 一 一 DB = 数据 块 
IPB = 间接 指针 块 
2IPB = 双重 IPB 
93IPB = 三 重 IPB 
EN 注意 ;并非 显示 所 有 





B 


- 
Ox 


指向 文件 块 的 
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图 14-2: ext2 文件 系统 中 文件 的 文件 块 结构 











无 需 连 续 存 储 文件 块 ， 使 得 文件 系统 对 人 磁盘 空间 的 利用 更 为 高 效 。 特 别 是 ， 还 能 降低 
空闲 磁 损 空间 的 碎片 化 程度 ， 即 因 众 多 不 连续 空 用 磁盘 健 片 ( 因 其 空间 太 小 而 无 法 使 用 ) 
而 导致 的 磁盘 空间 当 费 。 换 言 之 ， 对 空闲 磁盘 空间 的 高 效 利 用 ， 是 以 已 分 配 磁盘 空间 中 文 
件 的 碎片 化 为 代价 的 。 


在 ext2 中 ， 每 个 i 市 皮包 含 15 个 指针 。 其 中 的 前 12 个 指针 图 14-2 中 编号 为 0 一 11 的 
指针 ) 指向 文件 前 12 个 块 在 文件 系统 中 的 位 置 。 接 下 来 ， 是 一 个 指向 指针 块 的 指针 ， 提 供 了 
文件 的 第 13 个 以 及 后 续 数 据 块 的 位 置 。 指 针 块 中 指针 的 数量 取决 于 文件 系统 中 其 的 大 小 。 每 
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个 指针 需 占 用 4 学 节 ， 因 此 指针 的 数量 可 能 在 236〈 块 容量 为 1024 F) —1024 RREA 
4096 FE) 之 间 。 这 样 束 考虑 了 大 型 文件 的 情况 。 即 便 是 对 于 巨型 文件 ， 第 14 个 指针 (图 中 
编写 为 13) 是 一 个 双重 间接 指针 一 一 指 问 指 针 块 ， 其 块 中 指针 进而 指 问 指针 块 ， 此 块 中 指针 
最 终 才 指 回 文 件 的 数据 块 。 只 要 有 体 量 巨大 的 文件 ， 就 会 随 之 产生 更 深 一 层 的 递 进 : 图 中 i 
节点 的 最 后 一 个 指针 属于 三 重 间 接 指 针 。 

这 一 貌似 复杂 的 系统 ， 其 设计 意图 是 为 了 满足 多 重 和 需求。 首先 ， 该 系统 在 维持 i 市 点 结构 
大 小 固定 的 同时 ， 文 持 任意 大 小 的 文件 。 其 次 ， 文 件 系统 既 可 以 以 不 连续 方式 来 存储 文件 块 ， 
又 可 通过 lseekO 随 机 访问 文件 ， 而 内 核 上 只 需 计 算 所 要 遵循 的 指针 。 最 后 ， 对 于 在 大 多 数 系统 
中 占 绝对 多 数 的 小 文件 而 言 ， 这 种 设计 满足 了 对 文件 数据 块 的 快速 访问 : 通过 i 市 点 的 直接 指 
针 访 问 ， 一 击 必 中 。 


试 举 一 例 ， 笔 者 对 一 个 包含 约 150000 个 文件 的 系统 进行 了 上 度量。 其 中 30% 多 的 文件 
大 小 在 1000 字 节 以 下 ，80% 的 文件 占用 了 10 000 字 节 或 者 更 少 的 空间 。 假 定 块 的 大 小 为 
1024 Zi, 只 要 使 用 12 个 直接 指针 便 能 引用 大 小 为 10000 字 节 及 以 下 的 文件 , 可 访问 总 计 
12288 字 节 的 块 。 若 块 大 小 为 4096 字 节 ， 则 该 上 限 可 达 49152 字 节 (系统 中 95% 的 文件 大 
小 都 处 于 该 容量 限制 之 下 )。 















































上 述 设 计 同 样 考虑 了 巨型 文件 的 处 理 ， 对 于 大 小 为 4096 字 节 的 块 而 言 ， 理 论 上 ， 文 件 大 
小 可 略 高 于 1024x1024x1024x4096 字 节 ， 或 4TB (40906 GB). (Z FAH “KAT”, 是 因为 
指针 指 回 块 的 方式 可 以 为 笛 接 、 间 接 或 双重 间接 。 与 三 重 间 接 指 针 所 指 问 的 范围 相 比 ， 多 出 
来 的 那些 空间 实在 是 微不足道 。) 

该 设计 的 另 一 优点 在 于 文件 可 以 有 黑洞 (如 4.7 节 所 述 )。 文 件 系统 只 需 将 i 节点 和 间接 
针 块 中 的 相应 指针 打上 标记 〈( 值 0)， 表 明 这 些 指针 并 未 指 同 实际 的 磁盘 块 即 可 ， 而 无 需 为 
文件 黑洞 分 配 衬 字 节 数据 块 。 


























14.5 ”虚拟 文件 系统 (VFS) 


Linux 所 文 持 的 各 种 文件 系统 ， 其 实现 细 市 均 不 相同 。 淮 例 来 说 ， 这 些 锚 寞 包括 文件 块 的 
分 配方 式 ， 以 及 目录 的 组 织 方式 。 如 来 每 个 与 文件 打交道 的 程序 部 需要 理解 各 种 文件 系统 的 
具体 细节 ， 那 么 编写 与 各 类 文件 系统 交互 的 程序 将 近乎 于 不 可 能 完成 的 任务 。 虚 拟 文件 系统 
CYFS， 有 时 也 称 为 虚拟 文件 交换 ) 是 一 种 内 核 特 性 ， 通 过 为 文件 系统 操作 创建 抽象 层 来 解决 
上 述 问题 (参见 图 14-3)。VFS 背后 的 原理 其 实 很 下 日 。 

















应 用 程序 








虚拟 文件 系统 (VFS) 


Reiserts | [ VEAT 
14-3: 虚拟 文件 系统 
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。 VFS 针对 文件 系统 定义 了 一 套 通 用 接口 。 所 有 与 文件 交互 的 程序 都 会 按照 这 一 接口 来 
进行 操作 。 
。 每 种 文件 系统 部会 提供 VFS 接口 的 实现 。 
这 样 一 来 ， 程 序 上 只 需 理解 VFS 接口 ， 而 无 需 过 问 具 体 文 件 系统 的 实现 细节 。 
VFS 接口 的 操作 与 涉及 文件 系统 和 目录 的 所 有 第 规 系 统 调用 相对 应 ， 这 些 系统 调用 有 
open(Q, read(), write(), IseekO. close), truncate)、 stat(), mount, umount(), mmap(), mkdir(). 
JinkO、unlinkO、symlinkO 以 及 rename. 





VFS 的 抽象 层 建 模 精 确 仿照 传统 的 UNIX 文件 系统 模型 。 当 然 ， 还 有 一 些 文件 系统 ， 尤 其 
Æ JE UNIX 文件 系统 , 并 不 文 持 所 有 的 VES 操作。( 比 如 ,微软 的 VFAT 整个 文 持 使 用 symlinkO 
创建 的 符号 链接 概念 。) 对 于 这 种 情况 ， 确 层 文 件 系 统 会 将 错误 代码 传 回 VFS 层 ， 表 明 不 文 持 
相应 操作 ， 而 VES 随 之 会 将 错误 代码 传递 给 应 用 程序 。 


14.6 日 志文 件 系统 


ext2 文件 系统 是 传统 UNIX 文件 系统 的 优秀 典范 ， 目 然 也 受制 于 其 短 板 : 系统 朋 湾 之 后 ， 
为 确 体 文 件 系统 的 完整 性 ， 重 司 时 必须 对 文件 系统 的 一 致 性 进行 检查 〈fcsk)。 由 于 系统 每 次 
朋 浊 时， 对 文件 的 更 新 可 能 只 完成 了 一 部 分 ， 而 文件 系统 元 数据 《目录 项 、i 节 氮 信息 以 及 文 
件数 据 块 指针 ) 也 将 处 于 不 一 致 状态 ， 一 旦 这 一 问题 得 不 到 人 和 修复， 那么 文件 系统 会 遭 到 进 一 
步 破 坏 ， 因 此 上 述 举 措 实 属 必要 。 如 有 可 能 ， 束 必须 进行 修复 ， 耕 则 ， 将 会 丢弃 那些 无 法 获 
取 的 信息 《可 能 会 包含 文件 数据 )。 

问题 在 于 ， 一 致 性 检查 需要 允 历 整个 文件 系统 。 如 果 文 件 系 统 较 小 ， 只 需 几 秒 或 几 分 钟 
便 可 完成 。 而 在 大 型 文件 系统 上 ， 上 述 操作 可 能 会 历时 数 小 时 ， 这 对 于 需要 保持 局 可 用 性 的 
系统 来 说 《〈 比 如， 网络 服务 融 )， 人 情况 网 非常 严重 。 

采用 日 志文 件 系 统 ， 则 无 需 在 系统 有 衣 尝 后 对 文件 进行 漫长 的 一 任性 检 人 三 。 在 实际 更 新 元 
数据 之 前 ， 日 志文 件 系统 会 将 这 些 更 新 操作 记录 于 专用 的 磁盘 日 六 文件 中 。 对 元 数据 更 新 的 
记录 是 按 其 相关 性 分 组 (以 事务 的 方式 记录 ) 进行 的 。 在 事务 处 理 过 程 中 ,一旦 系统 月 淡 ， 
系统 重 局 时 便 可 利用 日 志 重 做 (redo) 任何 不 完整 的 更 独 ， 同 时 为 文件 系统 恢复 一 任性 状态 。 
(信用 数据 库 的 说 法 ， 日 志文 件 系 统 能 够 确 你 忌 是 将 文件 元 数据 事务 作为 一 个 完整 单元 来 近 
Xo) 系统 朋 演 之 后 ， 即 便 古 超大 型 的 日 志文 件 系统 ， 通 津 也 会 在 儿 秒 之 内 复原 ， 因 而 对 于 有 
高 可 用 性 需求 的 系统 极 具 吸 引力 。 

日 志文 件 系 统 最 为 昭 闭 的 内 名 在 于 增加 了 文件 更 新 的 时 间 ， 当 然 ， 民 好 的 设计 可 以 降低 
这 方面 的 开销 。 



















































































茶 些 日 志文 件 系 统 只 会 确保 文件 元 数据 的 一 致 性 。 由 于 不 记录 文件 数据 ， 因 此 一 旦 系 
统 朋 省， 可 能 会 造成 数据 丢失 。ext3、ext4 和 Reiserfs 文件 系统 提供 了 记录 数据 更 新 的 选项 ， 
但 否 记 录 的 东西 过 多 ， 则 会 降低 文件 VO 的 性 能 。 





以 下 列 出 了 Linux 所 文 持 的 日 志文 件 系 统 。 

e Reiserfs 是 首 个 被 集成 进 内 核 〈 厂 本 号 为 2.4.1) 的 日 志文 件 系 统 。Reiserfs 提供 了 一 种 
名 为 tail packing (或 tail merging) 的 特性 : 可 将 小 文件 (以 及 较 大 文件 的 最 后 一 厂 ) 与 
文件 元 数据 闭 入 相同 的 磁盘 块 。 而 许多 系统 都 拥有 《或 由 应 用 程序 创建 了 ) 众多 小 文 
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件 ， 因 此 这 会 节省 大 量 的 磁盘 空间 。 

e ext3 文件 系统 ， 源 于 一 个 旨 在 以 最 小 改动 为 ext2 退 加 日 志 功 能 的 项 目 。 从 ext2 升级 
到 ext3 非常 简单 (无 需 备份 和 恢复 操作 )， 还 支持 反 向 降级 。 内 核 版 本 2.4.15 集成 了 
ext3。 

。 JFS 由 IBM 开发 ， 内 核 版 本 2.4.20 对 其 进行 了 集成 。 

e XFS (http://oss.sgi.com/projects/xfs/) 最 初 是 由 SGI (Silicon Graphics) 于 20 世纪 90 年 
代 初 期 开发 , 所 针对 的 是 目 己 的 私有 UNIX 实现 : Irix。2001 年 , XFS WHS] f. Linux 
平台 ， 并 成 为 自由 软件 项 目 。2.4.24 内 核对 其 进行 了 集成 。 

配置 内 核 时 ， 可 在 “File systems” 菜 单 下 激活 对 不 同文 件 系 统 文 持 的 内 核 设置 选项 。 

写作 本 书 之 际 ， 还 有 两 种 提供 了 日 志 功 能 ， 且 文 持 多 种 其 他 高 级 特性 的 文件 系统 尚 在 开 

Az UB. 

e ext4 文件 系统 Chttp;//ext4.wiki.kernel.org/) 是 ext3 文件 系统 的 “接班 人 ”。Linux2.6.19 
将 其 首 个 实现 并 入 ， 内 核 的 后 续 版 本 中 又 陆续 添加 了 各 种 特性 。ext4 的 规划 (或 
己 实 现 的 ) 特性 包括 extents《〈 预 留连 续 存 储 块 )、 旨 在 降低 文件 雁 帮 化 的 其 他 分 配 
特性 、 在 线 文件 系统 的 磁盘 碎 上 请 整理 、 更 为 快捷 的 文件 系统 检查 以 及 对 纳 秒 级 时 
REX EP] SC SE o 

e Btrfs (B- 树 FS, —JAixfE "butter FS", http://btrfs.wiki.kernelorg/) 是 一 种 目下 而 上 
进行 设计 的 新 型 文件 系统 ， 意 在 提供 一 系列 现代 化 特性 ， 其 中 包括 extens, TSR 
(等 价 于 对 元 数据 和 数据 的 日 忘 功能)、 对 数据 和 元 数据 的 校 验 和 、 在 线 文件 系统 检 醋 、 
在 线 文 件 系 统 的 磁盘 健 片 整理 、 融 效 利用 空间 的 小 文件 打包 存放 和 可 检索 目录 。 内 核 
版 本 2.6.29 中 集成 了 该 文件 系统 。 


























14.7  &£1R EGK IR SIR TE BU a 


与 其 他 UNIX 系统 一 样 ，Linux EWA CFA SEP BIOCPE SIME T EUR H KA Ps BARDE 
根 目录 “/”。 基 他 的 文件 系统 都 挂 载 在 根 目 录 之 下 ， 被 视 为 整个 目录 层级 的 子 树 (subtree)。 
超级 用 户 可 使 用 如 下 命令 来 挂 载 文件 系统 : 

$ mount device directory 

这 条 命令 会 将 名 为 device 的 文件 系统 挂 接 到 目录 层级 中 由 directory 所 指定 的 目录 ， 即 文 


件 系统 的 挂 载 点 。 可 使 用 unmount 命令 名 载 文件 系统 ， 然 后 在 万 一 个 挂 载 点 再 次 挂 载 文件 系 
统 ， 从 而 改变 文件 系统 的 挂 载 点 。 























A Linux 版 本 2.4.19 以 后 ， 情 况 变 得 更 为 复杂 。 如 今 ， 内 核 文 持 针 对 每 个 进程 的 挂 载 
命名 空间 (mount namespace )。 这 意味 着 每 个 进程 都 可 能 拥有 属于 目 己 的 一 组 文件 系统 挂 载 
点 ， 因 此 进程 视角 下 的 单 根 目录 层级 彼此 会 有 所 不 同 。 本 书 将 在 282.1 市 介绍 
CLONE NEWNS 标记 时 ， 对 上 述 内 容 做 深入 讨论 。 





























不 带 任何 参数 来 执行 mount 命令 ， 可 以 列 出 当前 已 挂 载 的 文件 系统 ， 如 下 例 所 示 与 实 
际 输出 相 比 ， 略 有 删 减 ): 
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$ mount 

/dev/sda6 on / type ext4 (rw) 

proc on /proc type proc (rw) 

sysfs on /sys type sysfs (rw) 

devpts on /dev/pts type devpts (rw,mode-0620,gid-5) 
/dev/sda8 on /home type ext3 (rw,acl,user xattr) 


/dev/sdai1 on /windows/C type vfat (rw,noexec,nosuid,nodev) 
/dev/sda9 on /home/mtk/test type reiserfs (rw) 


图 14-4 Drzs BA Hox ROCTEA EIE A THAT EXS mount i41] 28556. VEREOR T T4 
22786 EA BUE PI H KRITIS o 











NU Ta X 
"d 
Fi ge 


/ sda6 文件 系统 
| " i -—— —— 挂 载 点 ——ih- : ^ 





[ees] Dri) | Cem) Gt 








i | 
k | 
| 1 『 i N | 
| 1 y b | 
| | | LI LI : 
| A test Ex. | | britta windows 
| F- i N | | 
E / ^ | | 
^N | 上 ) | | | | 
| A 1 | 1 | : | 
A | d COpy.c bd | | explorer.exe | | | 
1 | i | | ^ 上 | 
目录 | | | DONE ; | | x Y. zx da F | 
| | | sda9 文 件 系统 | « sdal 文件 系统 07 0j 
1 1 b Fi | -— "nd , 
i À E zm "E E | — - —— y 
常规 文件 b / 4 
MN sda5 文 件 系统 A Ep" 


14-4: 演示 文件 系统 挂 载 点 的 目录 层级 示例 


14.8 文件 系统 的 挂 载 和 郝 载 


系统 调用 mount() 和 umountO 运 行 特权 级 进程 (CAP_ SYS. ADMIN) EJ FEZ 8V EN ZA C fr 2 


。 大 多 数 UNIX 实现 都 提供 了 这 两 个 系统 调用 。 不 过 ，SUSYv3 并 未 对 其 进行 规范 ， 因 此 其 
操作 也 随 UNIX 实现 和 文件 系统 的 不 同 而 不 同 。 


统 














在 讨论 这 两 个 系统 调用 之 前 ， 需 要 先 了 解 以 下 3 个 文件 ， 其 中 包含 了 当前 已 挂 载 或 可 挂 
载 的 文件 系统 信息 。 


。 3X Linux 和 有 的 虚拟 文 作 人 poomounag， 可 但 看 当前 已 挂 载 文件 系统 的 列表 。 
/proc/mounts 是 内 核 数 据 结构 的 接口 ， 因 此 总 是 包含 已 挂 载 文件 系统 的 精 傅 信息 。 





随 看 引入 了 前 述 的 每 进程 挂 载 命名 空间 特性 ， 如 今 ， 每 个 进程 都 拥有 一 个 /proc/PID/ 
mounts 文件 ， 其 中 会 列 出 组 成 进程 挂 载 空间 的 挂 载 点 ， 而 /proc/mounts 只 是 指 问 
/proc/self/mounts 的 符号 链接 。 


e mount(8) 和 umount(8) M S S H 
口 


ft 动 维护 /etc/mtab c fF, iz X fF Jr E S HB) fei ds 5 
/proc/mounts 的 内 容 相 类 似 ， 


是 略微 详细 一 些 。 特 别 是 ，etc/mtab 包含 了 传递 给 
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mount(8) 的 文件 系统 专 有 选项 ， 这 并 未 在 /proc/mounts 中 出 现 。 但 是 ， 因 为 系统 调用 
mountO 和 umountO 并 不 更 新 /etc/mtab， 如 果菜 些 挂 载 或 外 载 了 设备 的 应 用 程序 没有 更 
新 该 文件 ， 那 么 /etc/mtab 可 能 会 变 得 不 准确 。 
e /etc/fstap〈 由 系统 管理 员 手 工 维护 ) 包含 了 对 系统 文 持 的 所 有 文件 系统 的 摘 述 ， 该 文 
件 可 供 mount(8)、umount(8) 以 及 fsck(8) 所 用 。 
/proc/mounts、/etc/mtab 和 /etc/fstab 的 格式 相同 ， 请 参考 fstab(5) 手 册页 。 以 下 示例 摘 目 
/proc/mounts 中 的 一 条 记录 一行): 








/dev/sda9 /boot ext3 rw 0 0 
这 条 记录 包含 了 6 个 字段 。 
已 挂 载 设备 名 。 
设备 的 挂 载 点 。 
文件 系统 类 型 。 
挂 载 标 忘 。 上 例 的 rw 表示 以 可 读 写 方式 挂 载 文件 系统 。 
一 个 数字 ，dump(8) 会 使 用 其 来 控制 对 文件 系统 的 备份 操作 。 只 有 /etc/fstab 文件 才 会 用 到 
该 字段 和 第 6 个 字段 ， 在 /proc/mounts 和 /etc/mtab 中 ， 该 字段 总 是 为 0。 
6. 一 个 数字 ， 在 系统 引导 时 ， 用 于 控制 fsck(8) 对 文件 系统 的 检查 顺序 。 
getfsent(3) 和 getmntent(3) 手 册页 记录 了 用 于 从 上 述 文件 中 读 取 记录 的 函数 。 


14.8.4 挂 载 文件 系统 : mount() 
mount() 系 统 调用 将 由 source 指定 设备 所 包含 的 文件 系统 , 挂 载 到 由 target 指定 的 目录 下 。 


Uv A U N E 

















#include <sys/mount.h> 


int mount(const char *source, const char *target, const char *fstype, 
unsigned long mountflags, const void *data); 


Returns 0 on success, or -1 on error 








头 两 个 参数 分 别 命 名 为 source 和 target， 其 原因 在 于 ， 除 了 将 人 磁盘 文件 系统 挂 载 到 一 目录 
下 之 外 ，mount0) 还 可 以 执行 其 他 任务 。 

参数 fstype 是 一 字符 串 ， 用 来 标识 设备 所 含 文件 系统 的 类 型 ， 比 如 ，ext4 或 btrfs。 

参数 mountflags 为 一 位 措 码 ， 通 过 对 表 14-1 中 所 示 的 0 个 或 多 个 标志 进行 或 (OR) 操作 
而 得 出 ， 稍 后 将 做 详细 介绍 。 

表 14-1: 供 mount() 使 用 的 mountflags 值 





MS_BIND 建立 绑 定 挂 载 ( 始 于 Linux 2.4) 
MS_DIRSYNC 同步 更 新 路 径 〈 始 于 Linux 2.6) 


MS_MANDLOCK 允许 强制 锁定 文件 

MS MOVE 以 原子 操作 将 挂 载 点 移 到 新 位 置 
MS_NOATIME 不 更 新 文件 的 最 后 访问 时 间 

MS NODEV 不 允许 访问 设备 





第 14 章 ”系统 编程 概念 217 


异步 社区 会 员 flyman150(2410757683@qq.com) EF 尊重 版 权 





MS NODIRATIME 不 更 新 目录 的 最 后 访问 时 间 
MS_NOEXEC 不 允许 程序 执行 

MS_NOSUID 禁用 set-user-ID 和 set-group-ID 程序 
MS_RDONLY 以 只 读 方 式 挂 载 ， 不 能 修改 或 创建 文件 


MS_REC 递归 挂 载 ( 始 于 Linux 2.6.20) 











只 有 当 最 后 访问 时 间 早 于 最 后 修改 时 间或 最 后 状态 变更 时 间 时 ， 才 对 
前 者 进行 更 新 〈 始 于 Linux 2.4.11) 

MS_REMOUNT 使 用 新 的 mountflags 和 data 重新 挂 载 

MS_STRICTATIME 总 是 更 新 最 后 访问 时 间 《〈 始 于 Linux 2.6.30) 


MS_SYNCHRONOUS 使 得 所 有 文件 和 目录 同步 更 新 


mount() 的 最 后 一 个 参数 data 是 一 个 指 癌 信息 缓冲 区 的 指针 ， 对 其 信息 的 解释 则 取决 于 文 
件 系统 。 束 大 多 数 文 件 系统 而 言 ， 该 参数 是 一 字符 串 ， 包 含 了 以 逗号 分 隔 的 选项 设置 。 在 
mount(8) 手 册页 中 ， 有 这 些 选 项 的 完整 列表 。 若 未 见 之 于 mount(8) 手 册页 ， 请 查找 相关 文件 系 
统 的 文档 。 

mountflags 参数 是 标志 的 位 掩 码 ， 用 来 修改 mountOTETE. Æ mountflags 中 ， 可 以 指定 0 
到 多 个 如 下 标志 : 
MS BIND ( 始 于 Linux 2.4) 

用 来 建立 绑 定 挂 载 。14.9.4 节 将 描述 这 一 特性 。 如 果 指 定 了 该 标志 ， 那 么 mountO 会 忽略 
fstype, data 参数 ， 以 及 mountflags FER MS REC 之 外 的 标志 〔( 见 后 续 描 述 )。 
MS DIRSYNC ( 始 于 Linux 2.6) 

用 来 同步 更 新 路 径 。 该 标志 的 效果 类 似 于 open0 的 O. SYNC 标志 (参见 13.3 节 )， 但 只 针 
对 路 径 。 后 面 介绍 的 MS_SYNCHRONOUS 提供 了 MS DIRSYNC 功能 的 超 集 ， 可 同时 同步 更 
新 文件 和 目录 。 采 用 MS_DIRSYNC 标志 的 应 用 程序 在 确保 同步 更 新 目录 (比如 , open(pathname， 
O_CREAT)、rename0、linkO、unlinkO、symlinkO 以 及 mkdirQ) 的 同时 ， 还 无 需 消耗 同步 更 新 
文件 所 市 来 的 成 本 。FS_DIRSYNC_FL 标志 的 用 途 与 之 相近 ， 其 区 别 在 于 可 将 MS_DIRSYNC 
应 用 于 单个 目录 。 此 外 ， 在 Linux 上 ， 人 针对 指 代目 录 的 文件 描述 符 调 用 fsyncO0， 可 对 目标 目录 
进行 更 新 。(SUSv3 并 未 对 fsyncO 的 这 一 Linux 专 有 行为 加 以 规范 。) 
MS MANDLOCK 

允许 对 该 文件 系统 中 的 文件 强行 锁定 记录 。 第 55 章 将 描述 记录 锁定 。 
MS MOVE 

将 由 source 指定 的 现 有 挂 载 点 移 到 由 target 指定 的 新 位 置 ， 整个 动作 为 一 原子 操作 , 不 可 
分 割 。 这 与 mount(8) 命 令 的 --move 选项 相对 应 。 实 际 上 ， 这 等 同 于 卸载 子 树 ， 并 将 其 重新 装 
载 到 另 一 位 置 ， 只 是 卸载 子 树 的 时 点 并 无 意义 。source 参数 为 一 字符 串 ， 其 内 容 应 与 前 一 个 
mountO 调 用 中 的 target 相同 。 一 旦 使 用 了 这 一 标志 ， 那 么 mountO 将 忽略 fstype, data 参数 ， 





MS_RELATIME 








































































































1 ŽRE: 因为 是 原子 操作 。 
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以 及 mountflags 中 的 其 他 标志 。 


MS NOATIME 

针对 该 文件 系统 中 的 文件 , 不 更 独 其 最 后 访问 时 间 。 与 下 和 面 将 要 介绍 的 MS_NODIRATIME 标 
六 一 样 ， 使 用 该 标志 意 在 消除 额外 的 磁盘 访问 ， 避 免 在 每 次 访问 文件 时 都 去 更 新 文件 1 节点。 
对 某 些 应 用 程序 来 说 ， 维 护 这 一 时 间 惟 意义 不 大 ， 而 放弃 这 一 做 法 还 能 显著 提升 性 能 。 
MS NOATIME 标志 与 FS_NOATIME_FL 标志 ( 见 15.5 $) HAJI, Kal EFK 
FS NOATIME FL 标志 应 用 于 单个 文件 ,此 外 ,Linux 还 可 以 运用 open0 的 O_NOATIME 标志 ， 
来 提供 类 似 功 能 ， 可 以 针对 打开 的 单个 文件 来 选择 这 一 行为 (参见 4.3.1 市 )。 
MS NODEV 

不 允许 访问 此 文件 系统 上 的 块 设备 和 字符 设备 。 设 计 这 一 特性 的 目的 是 为 了 保障 系统 安 
人 全， 规避 如 下 情况 : 假设 用 户 插入 了 可 移动 磁盘 ， 而 磁盘 中 又 包含 了 可 随意 访问 系统 的 设备 
专 有 了 文件。 
MS_NODIRATIME 

不 更 狐 此 文件 系统 中 目录 的 最 后 访问 时 间 ( 该 标志 提供 了 MS_NOATIME 标志 的 部 分 功 
能 ，MS_NOATIME 标志 不 会 对 所 有 文件 类 型 的 最 后 访问 时 间 进 行 更 新 )。 
MS_NOEXEC 

不 允许 在 此 文件 系统 上 执行 程序 (或 脚本 )。 该 标志 用 于 文件 系统 包含 非 Linux 可 执行 文 
件 的 场景 。 


MS_NOSUID 


禁用 此 文件 系统 上 的 set-user-ID 和 set-group-ID 程序 。 这 属于 安全 特性 ， 意 在 防止 用 户 从 
可 移动 伐 盘 上 运行 set-user-ID 和 set-group-ID 程序 。 
































MS_RDONLY 

以 只 读 方式 挂 载 文件 系统 ， 在 此 文件 系统 上 既 不 能 创建 文件 ， 也 不 能 修改 现 有 文件 。 
MS REC ( 始 于 Linux 2.4.11) 

该 标志 与 其 他 标志 (比如 ，MS_BIND) 结合 使 用 ， 以 递归 方式 将 挂 载 动 作 施 之 于 子 树 下 
的 所 有 挂 载 。 

MS, RELATIME ( 始 于 Linux 2.6.20) 

在 此 文件 系统 中 ， 只 有 当 文 件 最 后 访问 时 间 戳 的 当前 值 小 于 或 等 于 最 后 一 次 修改 或 状态 
变更 的 时 间 惟 时 ， 才 对 其 进行 更 新 。 这 不 但 吸取 了 MS NOATIME 性 能 上 的 一 些 优 点 ， 而 且 
还 可 应 用 于 如 下 场景 : 程序 能 了 解 到 ， 自 上 次 更 新 以 来 ， 有 无 读 取 过 文件 。 自 Linux 2.6.30 以 
来 ， 系 统 会 默认 提供 MS_RELATIME 的 行为 《除非 明确 指定 了 MS NOATIME 标志 )， 要 获取 
传统 行为 ， 必 须 使 用 MS STRICTATIME 标志 。 此 外 ， 只 要 文件 最 后 访问 时 间 戳 距 今 超 过 24 
小 时 ， 即 便 其 大 于 最 近 修 改 和 状态 改变 时 间 惟 ， 系 统 仍 会 更 新 该 文件 的 最 后 访问 时 间 惟 。( 该 
标志 对 于 监控 目录 的 系统 程序 来 说 极为 有 用 ， 可 以 了 解 最 近 有 无 对 文件 进行 过 访问 。) 
MS_REMOUNT 

针对 已 挂 载 的 文件 系统 ， 改 变 其 mountflag (装备 标记 ) 和 data. 数据 )。( 例 如 ， 令 只 读 





















































1 详 者 注 : 即 上 次 更 新 的 时 间 。 
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文件 系统 可 写 。) 使 用 该 标志 时 ，source 和 target 参数 应 该 与 最 初 用 于 mountO 系 统 调 用 的 参数 
相同 ， 而 对 fstype 参数 则 予以 忽略 。 使 用 该 标志 可 以 避免 对 人 磁盘 进行 外 载 和 重新 挂 载 ， 在 某 
些 场 合 中 ， 这 是 不 可 能 做 到 的 。 比 方 说 ， 如 果 有 进程 打开 了 文件 系统 上 的 文件 ， 或 进程 的 当 
前 工作 目录 位 于 文件 系统 之 内 (对 root 文件 系统 来 说 ， 情 况 总 是 如 此 )， 束 无 法 卸载 相应 的 文 
件 系统 。 使 用 MS REMOUNT 的 另 一 场景 是 tmpfs 〈 基 于 内 存 的 ) 文件 系统 ， 一 旦 印 载 了 这 
一 文件 系统 , 其 内 容 便 会 丢失 。 并 非 所 有 的 mountflag 都 是 可 修改 的 , 具体 信息 请 参考 mountQ) 
手册 页 。 
MS, STRICTATIME ( 始 于 Linux 2.6.30) 

Hey oct ARES ERISCPE, 3d e SEGBTOCTERI SUR UI ER, Linux 2.6.30 之 前 ， 
这 是 系统 的 默认 行为 。 只 要 定义 了 MS STRICTATIME, ， 即 使 在 mountflag 中 定义 了 
MS NOATIME 和 MS_RELATIME， 也 会 将 其 忽略 。 




















MS_SYNCHRONOUS 
对 文件 系统 上 的 所 有 文件 和 目录 保持 同步 更 狐 。(〈 对 文件 来 次 ， 束 如 同 总 是 以 O_SYNC 
标记 调用 open0 来 打开 文件 一 样 。) 











从 内 核 2.6.15 起 ， 为 文 持 共享 子 树 Cshared subtree) 的 概念 ，Linux 提供 了 4 个 新 的 挂 
载 标志 ， 分 别 是 MS_PRIVAIE、MS SHARED, MS SLAVE, MS UNBINDABLE。 这 些 标 
iH] 5j MS REC 结合 使 用 ， 从 而 将 其 效果 传播 至 一 挂 载 子 树 (mount subtree) 下 的 所 有 子 
挂 载 (submount)。 设 计 共 享 子 树 的 目的 ， 是 为 了 文 持 茶 些 高 级 文件 系统 特性 ， 比 如 ， 每 进 
程 挂 载 命名 空间 (请 参见 28.2.1 —B*| CLONE NEWNS 的 描述 )， 以 及 用 户 空 间 的 文件 系 
Zi (FUSE) 工具 。 共 享 子 树 机 制 允 许 以 一 种 受 控 方 式 在 挂 载 命 名 空间 之 则 传播 文件 系统 的 
挂 载 。 关 于 共享 子 树 的 详细 信息 ， 可 答 阅 内 核 源 人 码 文 件 Documentation/filesystems/ 
sharedsubtree.txt 和 [Viro & Pai, 2006]— E. 





程序 示例 


程序 清单 14-1 提供 了 对 mount(2) 系 统 调用 的 命令 行 级 接口 。 其 实 ， 也 是 mount(8) 命 令 的 
简化 版 。 以 下 shell 会 话 日 志 演 示 了 对 该 程序 的 运用 。 首 先 创 建 一 个 目录 作为 挂 载 点 ， 并 挂 载 
文件 系统 。 


$ su Need privilege to mount a file system 
Password: 

# mkdir /testfs 

# ./t mount -t ext2 -0 bsdgroups /dev/sda12 /testfs 

# cat /proc/mounts | grep sda12 Verify the setup 

/dev/sda12 /testfs ext3 rw 0 0 Doesn't show bsdgroups 

# grep sda12 /etc/mtab 


这 里 可 以 发 现 ， 上 面 的 grep 命令 并 未 产生 任何 输出 ， 因 为 该 程序 并 未 更 新 /etc/mtab。 现 
继续 以 只 读 方 式 重新 挂 载 文件 系统 : 
# ./t mount -f Rr /dev/sda12 /testfs 


# cat /proc/mounts | grep sda12 Verify change 
/dev/sda12 /testfs ext3 ro 0 0 
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从 /proc/mounts 输出 的 字 串 “ro” 表 明 这 是 一 次 只 读 方 式 的 挂 载 。 








最 后 ， 再 将 挂 载 点 移动 全 目录 层级 内 的 新 位 置 : 


# mkdir /demo 

# ./t mount -f m /testfs /demo 

# cat /proc/mounts | grep sda12 Verify change 
/dev/sda12 /demo ext3 ro O 


程序 清单 14-1: 使 用 mount() 


#include «sys/mount.h» 
#include "tlpi hdr.h" 


static void 
usageError(const char *progName, const char *msg) 


if (msg !- NULL) 
fprintf(stderr, "Xs", msg); 


filesys/t mount.c 


fprintf(stderr, "Usage: Xs [options] source target Wn", progName); 


fprintf(stderr, "Available options: in"); 


#define fpe(str) fprintf(stderr, " " str) /* Shorter! */ 
fpe("-t fstype [e.g., 'ext2' or 'reiserfs']An"); 
fpe("-o data [file system-dependent options, Nn"); 
fpe(" e.g., 'bsdgroups' for ext2] Wn"); 
fpe("-f mountflags can include any of:NÀn"); 

#define fpe2(str) fprintf(stderr, " " str) 
fpe2("b - MS BIND create a bind mount in"); 
fpe2("d - MS DIRSYNC synchronous directory updates Wn"); 
fpe2("l - MS MANDLOCK permit mandatory locking in"); 
fpe2("m - MS MOVE atomically move subtree Wn"); 
fpe2("A - MS NOATIME don't update atime (last access time)Wn"); 
fpe2("V - MS NODEV don't permit device accessWn"); 
fpe2("D - MS NODIRATIME don't update atime on directoriesWn"); 
fpe2("E - MS NOEXEC don't allow executables Wn"); 
fpe2("S - MS NOSUID disable set-user/group-ID programs Wn"); 
fpe2("r - MS RDONLY read-only mount in"); 
fpe2("c - MS REC recursive mount\n"); 
fpe2("R - MS REMOUNT remount n"); 


fpe2("s - MS SYNCHRONOUS make writes synchronous Wn"); 
exit(EXIT FAILURE); 


j 
int 
main(int argc, char *argv[]) 


unsigned long flags; 
char *data, *fstype; 


int j, opt; 
flags = 0; 
data - NULL; 


fstype - NULL; 


while ((opt = getopt(argc, argv, "o:t:f:")) != -1) { 
switch (opt) 1 
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case 0 : 
data = optarg; 
break; 


case 't': 
fstype - optarg; 
break; 


'f': 
for (j = 0; j < strlen(optarg); j++) { 


case 


switch (optarg[j]) { 


case 'b': flags |= MS_BIND; break; 
case 'd': flags |= MS_DIRSYNC; break; 
case 'l': flags |= MS_MANDLOCK; break; 
case 'm': flags |= MS_MOVE; break; 
case 'A': flags |= MS NOATIME; break; 
case 'V': flags |- MS NODEV; break; 
case 'D': flags |= MS NODIRATIME; break; 
case 'E': flags |- MS NOEXEC; break; 
case 'S': flags |- MS NOSUID; break; 
case 'r': flags |= MS RDONLY; break; 
case 'c': flags |- MS REC; break; 
case 'R': flags |= MS REMOUNT; break; 
case 's': flags |- MS SYNCHRONOUS; break; 
default: usageError(argv[0], NULL); 
} 

} 

break; 

default: 


usageError(argv[0], NULL); 


j 


if (argc !- optind + 2) 
usageError(argv[O], "Wrong number of arguments Nn"); 


if (mount(argv[optind], argv[optind + 1], fstype, flags, data) == -1) 
errExit("mount"); 


exit(EXIT SUCCESS); 


filesys/t mount.c 


14.8.2 HRX: umount(0 和 umount2() 
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umount) £& £i Ui H] H]-3- 38025 C EESRUI SC REC e 





include «sys/mount.h» 


int umount(const char */arget); 


Returns 0 on success, or - 1 on error 








target 参数 指定 行凶 载 文 件 系 统 的 挂 载 点。 
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对 于 内 核 版 本 为 2.2 KEER Linux 系统 来 说 ， 存 在 两 种 方法 来 标识 文件 系统 : 其 一 ， 
通过 挂 载 态 ， 其 二 ， 通 过 包含 文件 系统 的 设备 名 。 目 内 核 版 本 2.4 2 JH. Linux 不 再 允许 使 
用 第 二 种 方法 ， 其 原因 是 如 今 可 以 在 多 个 位 管 挂 载 单个 文件 系统 ， 以 第 二 种 方式 为 target 
指定 文件 系统 网 会 混 消 不 清 。 本 书 的 14.9.1 节 将 详细 介绍 这 一 点 。 











Jo RE XE BE HI RI. (busy) 文件 系统 ， 意 即 这 一 文件 系统 上 有 文件 被 打开 ， 或 者 进程 
的 当前 工作 目录 驻 留 在 此 文件 系统 下 。 人 针对 使 用 中 的 文件 系统 调用 umount0， 系 统 会 返回 
EBUSY 错误 。 

系统 调用 umount20 是 umountO 的 扩展 版 。 通 过 flags ZZ, umount20 n Xd EH ER TE Ji LJ. 
更 精密 的 控制 。 








#include <sys/mount.h> 


int umount2 (const char */arget, int flags); 


Returns 0 on success, or -1 on error 











这 一 标志 位 掩 码 参数 由 下 列 0 个 或 多 个 值 相 或 CORO. 而 成 。 


MNT DETACH ( 始 于 Linux 2.4.11) 

执行 lazy TI. XTERRA EA bid. — 23 H RT CAEH Y EESTI ERE D SEGETES], 
FR] SE 2 LE FERE RDERSONE HE USAGE UI I. IA PUO XEREASBESEHTVI BI SSH. RARE 
载 相应 的 文件 系统 。 

MNT. EXPIRE (4AF Linux 2.6.8) 

将 挂 载 点 标记 为 到 期 “expired)。 右 首次 调用 umount20 时 指定 了 该 标志， 且 挂 载 扣 处 于 
空闲 状态 ， 则 该 调用 将 以 失败 告终 ， 并 返回 EAGAIN 错误 ， 同 时 将 挂 载 点 标记 为 到 期 。( 如 果 
挂 和 载 点 处 于 在 用 状态 , 那么 调用 也 将 失败 ,并 返回 EBUSY ER, 但 不 会 将 挂 载 点 标记 为 到 期 。) 
只 要 无 任何 后 续 进 程 发 起 对 挂 载 点 的 访问 ， 该 挂 载 点 便 会 一 直 保 持 到 期 状态 。 再 度 调用 
umount20 时 ， 如 指定 MNT EXPIRE 标志， 将 邮 载 到 期 的 挂 载 点 。 这 束 提 供 了 一 种 机 制 ， 以 
邮 载 在 条 段 时 间 内 未 用 的 文件 系统 。 该 标记 不 能 与 MNT_DETACH 或 MNT_FORCE 标记 一 并 
使 用 。 


MNT FORCE 

即便 文件 系统 (只 对 NFS 挂 载 有 效 ) BET EHPUGS S WARRI EE. KH IC AIN 
可 能 会 造成 数据 丢失 。 
UMOUNT_NOFOLLOW( 始 于 Linux 2.6.34) 

Fi target 为 从 写 链 接 ， 则 不 对 其 进行 解 引 用 。 该 标记 专 为 菜 些 set-user-ID-root 程序 而 设 
计 一 一 些 类 程序 允许 非特 权 级 用 户 执行 凶 载 操作 ， 意 在 避免 安全 性 问题 的 发 生 ( 例 如， 名 target 
为 从 写 链 接 ， 且 被 改变 以 指 问 为 外 的 位 置 )。 


14.9 ”高 级 挂 载 特性 


本 而 会 介绍 挂 载 文件 系统 时 可 采用 的 在 干 高 级 特性 。 这 里 会 使 用 mount(8) 命 令 来 演示 其 
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中 的 大 多 数 特性 ， 在 程序 中 调用 mount(2) 也 能 起 到 相同 效果 。 


14.9.1 在 多 个 挂 载 点 挂 载 文 件 系统 

内 核 版 本 2.4 之 前 ， 一 个 文件 系统 只 能 挂 载 于 单个 挂 载 点 。 从 内 核 版 本 2.4 开始 ， 可 以 将 一 
个 文件 系统 挂 载 于 文件 系统 内 的 多 个 位 置 。 由 于 每 个 挂 载 点 下 的 目录 子 树 内 容 都 相同 ， 在 一 个 
挂 载 点 下 对 目录 子 树 所 做 的 改变 ， 同 样 可 见 诸 于 其 他 挂 载 点 ， 如 下 列 shell 会 话 所 示 ; 


























$ su Privilege is required to use mount(6) 
Password: 

# mkdir /testfs Create two directories for mount points 
# mkdir /demo 

it mount /dev/sda12 /testfs Mount file system at one mount point 

# mount /dev/sda12 /demo Mount file system at second mount point 
# mount | grep sda12 Verify the setup 


/dev/sda12 on /testfs type ext3 (rw) 

/dev/sda12 on /demo type ext3 (rw) 

it touch /testfs/myfile Make a change via first mount point 
# ls /demo View files at second mount point 
lostrfound myfile 


U ls f By rz. ETER — Utestfs) POST H TATJA, TEHER (demo) 
下 完全 可 见 。 
14.9.4 区 在 介绍 绑 定 挂 载 时 ， 将 举例 说 明 多 点 挂 载 文件 系统 的 用 处 所 在 。 


将 设备 作为 其 入 参 。 


14.9. ”多 次 挂 载 同 一 挂 载 点 

在 内 核 版 本 2.4 之 前 ， 一 个 挂 载 点 只 能 使 用 一 次 。 从 内 核 2.4 开始 ，Linux 允许 针对 同一 
挂 裁 点 执行 多 次 挂 载 。 每 次 新 挂 裁 都 会 隐藏 之 前 可 见于 挂 载 点 下 的 目录 子 树 。 仓 载 最 后 一 次 
挂 载 时 ， 挂 载 点 下 上 次 挂 载 的 内 容 会 再 次 显示 ， 请 参考 以 下 shel 会 话 : 


























$ su Privilege is required to use mount(6) 
Password: 

# mount /dev/sda12 /testfs Create first mount on /testfs 

# touch /testfs/myfile Make a file in this subtree 

# mount /dev/sda13 /testfs Stack a second mount on /testfs 

# mount | grep testfs Verify the setup 


/dev/sda12 on /testfs type ext3 (rw) 
/dev/sda13 on /testfs type reiserfs (rw) 


it touch /testfs/newfile Create a file in this subtree 
# ls /testfs View files in this subtree 
newfile 

# umount /testfs Pop a mount from the stack 


# mount | grep testfs 

/dev/sda12 on /testfs type ext3 (rw) Now only one mount on /testfs 
# ls /testfs Previous mount is now visible 
lostefound myfile 


EMA HAERJBIBEESRC ES EHTI I ER RGB TE KERHANE S. AARAA 
描述 符 的 进程 、 建 立 chroot 监禁 区 Gail) 的 进程 ， 以 及 工作 目录 位 于 老 挂 载 点 之 下 的 进程 将 
继续 在 旧 有 挂 载 下 运行 , 而 针对 挂 载 点 发 起 新 访问 的 进程 将 使 用 新 挂 载 。 结 合 MNT. DETACH 
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标志 下 的 unmount 操作 ， 则 无 需 将 文件 系统 置 为 单 用 户 模式 ， 即 可 为 其 提供 平滑 迁移 。14.10 
节 在 讨论 tmpfs 时 会 举例 说 明 堆 刁 挂 载 的 另 一 用 法 。 


14.9.3. ”基于 每 次 挂 载 的 挂 载 标志 


在 内 核 2.4 版 本 以 前 ， 文 件 系 统 和 挂 载 点 之 间 是 一 一 对 应 的 关系 。 由 于 从 Linux 2.4 开始 ， 
一 特征 不 再 适用 ， 故 而 14.8.1 节 所 述 的 某 些 mountflag 标志 值 可 以 基于 每 次 挂 载 来 设置 。 这 
包括 MS NOATIME ( 始 于 Linux 2.6.16), MS. NODEV,MS NODIRATIME ( 始 于 Linux 2.6.16)、 
MS_NOEXEC、MS_NOSUID、MS_RDONLY ( 始 于 Linux 2.6.26)， 以 及 MS_RELATIME。 以 
下 shell 会 话 污 示 了 使 用 MS NOEXEC 标志 的 效果 : 


$ su 

Password: 

# mount /dev/sda12 /testfs 

# mount -o noexec /dev/sda12 /demo 

# cat /proc/mounts | grep sda12 

/dev/sda12 /testfs ext3 rw 0 0 

/dev/sda12 /demo ext3 rw,noexec O O 

# cp /bin/echo /testfs 

# /testfs/echo "Art is something which is well done" 
Art is something which is well done 

# /demo/echo "Art is something which is well done" 
bash: /demo/echo: Permission denied 

















14.9.4 HEJER 


始 于 内 核 版 本 2.4, Linux 文 持 了 创建 绑 定 挂 载 。 绑 定 挂 载 〈“ 由 使 用 MS_BIND 标志 的 mounto 
调用 来 创建 ) 是 指 在 文件 系统 目录 层级 的 另 一 处 挂 载 目 录 或 文件 。 这 将 导致 文件 或 目录 在 两 
处 同时 可 见 。 比 定 挂 载 有 些 类 似 于 便 链 接 ， 但 存在 两 个 方面 的 差异 。 

e 绑 定 挂 载 可 以 跨越 多 个 文件 系统 挂 载 点 ， 其 到 不拘 于 chroot 监禁 区 (jail). 

e 可 针对 目录 执行 绑 定 挂 载 。 

可 使 用 mount(8) 的 bind 选项 ， 在 shell 中 创建 绑 定 挂 载 ， 如 下 面 几 个 例子 所 示 。 

第 一 个 例子 在 另 一 处 绑 定 挂 载 了 一 个 目录 ， 并 展示 了 在 一 处 目录 中 所 创建 的 文件 ， 对 夯 
一 处 目录 同样 可 见 。 








$ su Privilege is required to use mount(6) 
Password: 

# pwd 

/testfs 

# mkdir d1 Create directory to be bound at another location 
# touch d1/x Create file in the directory 

# mkdir d2 Create mount point to which d1 will be bound 
# mount --bind d1 d2 Create bind mount: d1 visible via d2 

# ls d2 Verify that we can see contents of d1 via d2 

X 

it touch d2/y Create second file in directory d2 

it ls di Verify that this change is visible via d1 

A 


5h —^4 PT AEÀO AE EHE. EROS T EAER P. "DEDE IAE 
对 文件 所 做 的 改变 。 
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# cat » f1 Create file to be bound to another location 
Chance is always powerful. Let your hook be always cast. 


Type Control-D 

it touch f2 This is the new mount point 
# mount --bind f1 f2 Bind f1 as f2 

# mount | egrep '(d1|f1)' See how mount points look 


/testfs/d1 on /testfs/d2 type none (rw,bind) 
/testfs/f1 on /testfs/f2 type none (rw,bind) 


# cat »» f2 Change f2 
In the pool where you least expect it, will be a fish. 
# cat f1 The change is visible via original file f1 


Chance is always powerful. Let your hook be always cast. 
In the pool where you least expect it, will be a fish. 


# rm f2 Can't do this because it is a mount point 
rm: cannot unlink ^f2': Device or resource busy 

# umount f2 So unmount 

# rm f2 Now we can remove f2 





绑 定 挂 载 的 应 用 场景 乙 一 是 创建 chroot EEX Gail) (参见 18.12 市 )。 在 监 蔡 区 下 ,无 
需 将 各 种 标准 目录 《〈 庶 如 /lib) 复制 过 来 ， 为 这 些 路 径 创 建 绑 定 挂 载 〈“ 可 能 是 以 上 只 读 方式 ) 即 
可 轻而易举 地 解决 问题 。 


14.9.5 Él ETEEX 


默认 情况 下 , 如 果 使 用 MS_BIND 为 某 个 目录 创建 了 绑 定 挂 载 , 那么 只 会 将 该 目录 挂 载 到 
新 位 置 。 假 设 源 目录 下 还 存在 子 挂 载 (submount)， 则 不 会 将 这 些 子 挂 载 复 制 到 挂 载 target 之 
Fo Linux 2.4.11 添加 了 MS. REC fios, 4:5 MS. BIND 相 或 CORO 并 作为 标志 参数 的 一 部 
分 传 入 mountO0， 则 会 将 子 挂 载 复 制 到 挂 载 目标 下 ， 此 之 谓 递 归 绑 定 挂 载 。 采 用 mount(8) 命 令 
所 提供 的 --rbind 选项 ， 可 在 shell 中 完成 相同 任务 ， 参 见 如 下 shell 会 话 。 

首先 创建 了 一 个 目录 树 (srcl)， 并 将 其 挂 载 在 top 之 下 。top 目录 树 下 Ctp/sub), &f& T 

-个子 挂 载 (src2)。 


$ su 

Password: 

# mkdir top This is our top-level mount point 
mkdir srci We'll mount this under top 

touch src1/aaa 

mount --bind src1 top Create a normal bind mount 

mkdir top/sub Create directory for a submount under top 
mkdir src2 We'll mount this under top/sub 
touch src2/bbb 

mount --bind src2 top/sub Create a normal bind mount 

# find top Verify contents under top mount tree 
top 

top/aaa 

top/sub This is the submount 

top/sub/bbb 


现在 以 top 作为 源 目录 ， 另 行 创建 绑 定 挂 载 (dirD)。 由 于 属于 非 递归 操作 ， 新 挂 载 不 会 复 
制 子 挂 载 。 

# mkdir diri 

# mount --bind top diri Here we use a normal bind mount 

# find diri 

diri 

dir1/aaa 

diri/sub 


























+ + H H H 
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输出 中 并 未 发 现 dirl/sub/bbb， 这 表明 并 未 复制 子 挂 载 top/sub。 
再 以 top 作为 源 目 录 来 创建 递归 绑 定 挂 载 。 

# mkdir dir2 

# mount --rbind top dir2 

4 find dir2 

dir2 

dir2/aaa 

dir2/sub 

dir2/sub/bbb 


从 输出 中 可 以 发 现 dir2/sub/bbb， 这 表明 已 然 复 制 了 子 挂 载 top/sub。 


14.10 ”虚拟 内 存 文 件 系 统 : tmpfs 


到 目前 为 止 ， 本 革 已 论 及 的 所 有 文件 系统 均 驻 留 在 磁盘 之 上 。 然 而 , Limux 同样 支持 驻 留 
村 内 存 申 的 虚拟 文件 系统 对 应 用 程序 来 说 ， 此 类 文件 系统 看 起 来 与 任何 其 他 文件 系统 别 无 
二 致 一 一 可 施 以 相同 操作 〈openO、read0、writeO0、linkO、mkdir0 等 )。 不 过 ， 二 者 之 间 还 是 
存在 一 个 重要 差别 : 由 于 不 涉及 磁盘 访问 ， 虚 拟 文 件 系 统 的 文件 操作 速度 极 快 。 

在 Linux E, 已 经 开发 出 了 林林总总 基于 内 存 的 文件 系统 。 运 今 为 止 , 其 中 最 为 复 洒 的 则 
JE tmpfs 文件 系统 瑞 属 ， 访 系统 在 Linux 2.4 中 肯 度 出 现 。 较 之 于 其 他 基于 内 存 的 文件 系统 ， 
其 独特 之 处 在 于 它 属于 虚拟 内 存 文件 系统 。 这 总 味 看 ， 访 文件 系统 不 但 使 用 RAM， 而 且 在 
RAM 耗 尽 的 情况 下 ， 还 会 利用 交换 空间 。( 有 虽然 此 处 描述 的 tmpfs 文件 系统 为 Linux MRA, 
但 大 多 数 UNIX 实现 都 提供 东 种 形 却 的 基于 内 存 的 文件 系统 。) 
































tmpfs 文件 系统 是 一 个 Linux 内 核 的 可 选 组 件 , 通过 CONFIG. TMPFS 选项 加 以 配置 。 


要 创建 tmpfs 文件 系统 ， 请 使 用 如 下 形式 的 命令 : 
# mount -t tmpfs source target 


其 中 “source” 可 以 是 任意 名 称 ， 其 唯一 的 意义 是 在 /proc/mounts 中 “ 抛 头 露面 >” 并 通过 
mount 和 df 命令 显示 出 来 。 与 往常 一 样 ，tarsget 是 该 文件 系统 的 挂 载 点 。 请 注意 ,三 需 熏 用) 
mkfs 预先 创建 一 个 文件 系统 ， 内 核 会 将 此 视 为 mountO 系 统 调 用 的 一 部 分 自动 加 以 执行 。 

作为 使 用 tmpfs 的 例子 乙 一 ， 可 采用 堆 和 倒挂 载 〈 无 需 顾忌 /tmp 目录 目前 是 否 处 于 在 用 状 
态 )， 创 建 一 tmpfs 文件 系统 并 将 其 挂 载 全 /tmp， 如 下 所 示 : 


# mount -t tmpfs newtmp /tmp 
# cat /proc/mounts | grep tmp 
newtmp /tmp tmpfs rw 0 0 


有 时， 会 使 用 如 上 命令 (或 /etc/fstab 中 的 等 价 条 目 〉 来 改善 应 用 程序 〈 比 如， 编译 器 ) 
的 性 能 ， 此 类 应 用 程序 因 创 建 临时 性 文件 而 频繁 使 用 /tmp 目录 。 

默认 情况 下 ， 但 在 创建 文件 系统 
或 之 后 重新 挂 载 时 , n] fH] mount 的 size=nbytes 选项 为 该 文件 系统 的 大 小 设置 不 同 的 上 上 限 值 。 
(tmpfs 文件 系统 仅 会 根据 其 当前 所 持 有 的 文件 来 消耗 内 存 和 交换 空间 。) 

— H ENZ tmpfs 文件 系统 ， 或 者 得 遇 系统 朋 涡 ， 那 么 该 文件 系统 中 的 所 有 数据 都 将 丢失 ， 
“tmpfs” 正 是 得 名 于 此 。 

从 了 用 于 用 户 应 用 程序 以 外 ，tmpfs 文件 系统 还 有 以 下 两 个 特殊 用 途 。 
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。 由 内 核 内 部 挂 载 的 隐形 tmpfs 文件 系统 ， 用 于 实现 System V 共享 内 存 ( 第 48 章 ) 和 
Jt BA VERAS CTS 49 38). 
。 挂 载 于 /dev/shm 的 tmpfs 文件 系统 ,为 glibc 用 以 实现 POSIX 共享 内 存 和 了 POSIX 信号 量 。 











14.11 获得 与 文件 系统 有 天 的 信息 : statvfs() 


statvfsO 和 fstatvfsO 库 函数 能 够 多 得 与 已 挂 载 文件 系统 有 关 的 信息 。 





#include «sys/statvfs.h» 


int statvfs(const char *pathname, struct statvfs *statufsbuf); 
int fstatvfs(int fd, struct statvfs *stlatufsbuf); 


Both return 0 on success, or -1 on error 








两 者 之 间 唯 一 的 区 别 在 于 其 标识 文件 系统 的 方式 。statvfs0 需 使 用 pathname 来 指定 文件 系 
统 中 任 一 文件 的 名 称 。 而 fstatvfsO 则 需 使 用 打开 文件 描述 符 f， 来 指 代 文件 系统 中 的 任 一 文 
件 。 二 者 均 返 回 一 个 statvfs 结构 ， 属 于 由 statvfsbuf 所 指 站 的 绥 冲 区 ， 其 中 包含 了 关乎 文件 系 
统 的 信息 。statvfs 结构 的 形式 如 下 : 
struct statvfs { 
unsigned long f bsize; /* File-system block size (in bytes) */ 
unsigned long f frsize; /* Fundamental file-system block size 
(in bytes) */ 
fsblkcnt t f blocks; /* Total number of blocks in file 
system (in units of 'f frsize') */ 
fsblkcnt t f bfree; /* Total number of free blocks */ 
fsblkcnt t f bavail; /* Number of free blocks available to 
unprivileged process */ 
fsfilcnt t f files; /* Total number of i-nodes */ 





fsfilcnt t f ffree; /* Total number of free i-nodes */ 

fsfilcnt t f favail; /* Number of i-nodes available to unprivileged 
process (set to 'f ffree' on Linux) */ 

unsigned long f fsid; /* File-system ID */ 

unsigned long f flag; /* Mount flags */ 


unsigned long f namemax; /* Maximum length of filenames on 
this file system */ 





I 
EXSHERE GAS MER statvfs 结构 中 大 多 数字 段 的 用 途 。 对 其 中 一 些 字 段 ， 这 里 还 
要 深入 交代 几 句 。 


e fsblkcntt 和 fsfilcnt t 数据 类 型 是 由 SUSv3 所 定义 的 整 型 。 

。 对 绝 大 多 数 Linux 文件 系统 而 言 ，f_bsize 和 f frsize 的 取 值 是 相同 的 。 然 而 ， 某 些 文 
件 系统 文 持 块 上 请 段 的 概念 ， 在 无 需 使 用 完整 数据 块 的 情况 下 ， 可 在 文件 尾部 分 配 较 小 
的 存储 单元 ， 从 而 避免 因 分 配 完 整 块 而 导致 的 空间 良 费 。 在 此 类 文件 系统 上 ，f_frsize 
4 f£ bsize 分 别 为 块 片 段 和 整个 块 的 大 小 。( 据 [McKusick et al.，1984] 所 述 ，UNIX X 
件 系 统 的 块 片段 概念 首 现 于 20 世纪 80 年 代 初 期 的 4.2BSD 快速 文件 系统 。) 

。 许多 原生 UNIX 和 Linux 文件 系统 ， 都 文 持 为 超级 用 户 预 留 一 部 分 文件 系统 块 ， 如 
此 一 来 ， 即 便 在 文件 系统 空间 耗 尽 的 情况 下 ， 超 级 用 户 仍 可 以 登录 系统 解决 故障 。 
如 果 文 件 系统 中 确 有 了 预 留 块 ， 那 么 statvfs 结构 中 f. bfree 和 f_bavail 字段 间 的 差 值 则 
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为 预 留 块 数 。 

e fflag 学 段 是 一 个 位 掩 人 码 标志 ， 用 于 挂 载 文 件 系 统 。 也 就 是 说 ， 该 字段 所 包含 的 信息 
类 似 于 传 入 mount(2) 的 mountflags 参数 。 然 而 ， 放 字 段 所 使 用 的 标志 位 在 命名 时 均 完 
以 ST_， 这 不 同 于 mountflags PEELA MS_ 的 命名 手法 。SUSv3 仅 规范 了 ST RDONLY 
和 ST NOSUID 常量 ， 而 glibc 实现 则 支持 与 MS_ 系 列 (参见 mountO 中 对 mountflags 
参数 的 描述 ) 相 对 应 的 全 系列 常量 。 

o JUS UNIX 实现 会 使 用 f_fsid 宇 段 来 返回 文件 系统 的 唯一 标识 符 ， 比 方 说 ， 根 据 文件 

系统 所 驻 留 设备 的 标识 人 符 来 取 值 。 对 大 多 数 UNIX 实现 来 说 ， 该 子 段 为 0。 

SUSv3 规范 了 statvfsO0 和 fstatvfsO0。 对 于 Linux (其 他 几 种 UNIX 实现 也 一 样 )， 二 者 均 位 
于 与 其 颇 为 相似 的 statts0 和 fstatfs() 系 统 调 用 之 上 。( 有 些 UNIX 实现 只 提供 statfsO 系 统 调用 ， 
而 不 提供 statvfsO0。) 以 下 列 出 函数 与 系统 调用 间 的 主要 区 列 《 除 去 字段 命名 甜 开 以 外 )。 

e StatvfsO 和 fstatvfsO PR 24105] 3& [u] f flag FE, 内 含 天 于 文件 系统 的 挂 载 标 志 信 筷 。(glibc 

实现 通过 扫描 /proc/mounts 或 /etc/mtab 来 获取 上 述 信 息 。) 

e statfsO 和 fstatfsO 系 统 调用 返回 f_type FF, 内 含 文件 系统 类 型 (比如 ,人 返回 值 为 0xef53 

则 表示 文件 系统 类 型 为 ext2)。 




















随 本 书 发 布 源 码 的 filesys 子 目 录 中 包含 了 t_statvfs.c 和 t statfs.c 文件 ， 用 来 演示 对 
statvfs() 和 和 statfsO 的 运用 。 


14.42 AZ 


设备 都 由 /dev 下 的 文件 来 表示 。 每 个 设备 都 有 相应 的 设备 驱动 程序 ， 用 以 执行 一 套 标准 
的 操作 ， 与 之 对 应 的 系统 调用 包括 open0、read0、write0 和 close0。 设 备 既 可 以 是 实际 存在 
的 ， 也 可 以 是 虚拟 的 ， 这 分 别 表 明了 硬件 设备 的 存在 与 否 。 无 论 如 何 ， 内 核 都 会 提供 一 种 设 
备 驱 动 程序 ， 并 实现 与 真实 设备 相同 的 API。 

可 将 硬盘 划分 为 一 个 或 多 个 分 区 ， 伍 条 区 二 全 绾 ， 文件 系统 是 对 第 规 
文件 和 目录 的 组 织 集合 。Linux 实现 的 文件 系统 多 种 多 样 , 其 中 包括 传统 的 ext2 文件 系统 。ext2 
文件 系统 在 概念 上 类 似 于 早期 的 UNIX 文件 系统 ， 由 引导 块 、 超 级 块 、i 市 点 表 和 包含 文件 数 
据 块 的 数据 区 域 组 成 。 每 个 文件 在 文件 系统 i 节点 表 中 都 有 一 条 对 应 记录 ,记录 了 与 文件 相关 
的 各 种 信息 ， 其 中 包括 文件 类 型 、 大 小 、 链 接 数 、 所 有 权 、 权 限 、 时 间 枚 ， 以 及 指 问 文 件数 
据 块 的 指针 。 

Linux 还 提供 了 若干 日 志文 件 系 统 ， 其 中 包括 Reiserfs. ext3, ext4, XFS, JFS 以 及 Btrfs 。 
在 实际 更 新 文件 之 前 ， 日 志文 件 系 统 会 记录 元 数据 更 独 〈 还 可 有 选择 地 记录 数据 更 狐 和 文件 
系统 更 新 )。 这 也 意味 看 ， 一 旦 系统 朋 渍 ， 系 统 可 以 重 放 eplay) 日 志文 件 ， 并 迅速 将 文件 
系统 恢复 到 一 人 致 状态。 日 志文 件 系 统 的 最 大 优点 在 于 系统 骨 沉 后 ， 无 需 像 常 规 UNIX 文件 系 
统 那 样 对 文件 系统 进行 漫长 的 一 致 性 检 得 。 

Linux 系统 上 的 所 有 文件 系统 都 被 挂 载 于 单 根 目录 树 之 下 ， 其 树 根 为 目 有 “/”。 目 录 树 中 
挂 载 文件 系统 的 位 置 被 称 为 文件 系统 挂 载 点 。 

特权 级 进程 可 使 用 mount0O 和 umount) RAH RER MALRA. HEH statvfsO 
来 获取 与 已 挂 载 文件 系统 有 关 的 信息 。 
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进 阶 阅读 

与 设备 和 设备 驱动 程序 有 关 的 详细 信息 请 参阅 [Bovet & Cesati，2005] 和 [Corbet et al., 
2005]， 尤 其 是 后 者 。 内 核 源码 文件 Documentation/devices.txt 中 ， 也 能 找到 一 些 与 设备 相关 的 
有 用 信息 。 

以 下 几 本 敌 作 都 提供 了 关于 文件 系统 的 深度 信息 。[Tanenbaum，2007] 对 文件 系统 的 结构 
和 实现 做 了 一 般 性 介绍 。[Bach，1986] 介 绍 了 UNIX 文件 系统 的 实现 ， 主 要 针对 System V. 
[Vahalia，1996] 和 [Goodheart & Cox，1994] 也 描述 了 System V 文件 系统 。[Love，2010] 和 [Bovet 
& Cesati，2005] 则 讨论 了 Linux VFS 的 实现 。 

在 内 核 源码 子 目 录 Documentation/filesystems 下 ， 可 以 找到 关于 各 种 文件 系统 的 文档 。 针 
对 Linux 所 支持 的 大 多 数 文件 系统 实现 ， 不 少 WEB 站 点 也 有 论述 。 




















14.13 J 


14-1. 编写 一 程序 ， 试 对 在 单 目 录 下 创建 和 删除 大 量 1 学 节 文 件 所 需 的 时 间 进 行 度量 。 该 
程序 应 以 XNNNNNN 命名 格式 来 创建 文件 , 其 中 NNNNNN 为 随机 的 6 位 数字 。 文 
件 的 创建 顺序 与 生成 文件 名 相同 ， 为 随机 方式 ， 删除 文件 则 按 数 字 升 序 操作 (删除 
与 创建 的 顺序 不 同 )。 文 件 的 数量 FN) 和 文件 所 在 目录 应 由 命令 行 指 定 。 针 对 不 
IJ NF W Cki, Œ 1000 和 20000 之 间 取 值 ) 和 不 同 的 文件 系统 〈 比 如 ext2、 
ext3 和 XFS ) 来 测量 时 间 。 随 着 NF 的 递增 , 每 个 文件 系统 下 耗 时 的 变化 模式 如 何 ? 
不 同文 件 系统 之 间 ， 人 情况 又 是 如 何 呢 ? 如 果 按 数字 升序 来 创建 文件 〈x000001、 
x000001. x0000002 等 )， 然 后 以 相同 顺序 加 以 删除 ， 结 果 会 改变 吗 ? WRS, JR 
因 何 在 ? 此外， 上 述 结果 会 随 文 件 系统 类 型 的 不 同 而 改变 吗 ? 
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文件 属性 








本 章 将 探讨 文件 的 各 种 属性 (文件 元 数据 )。 首 先 介绍 的 是 系统 调用 stato, 可 利用 其 返回 
一 个 包含 多 种 文件 属性 包括 文件 时 间 稚 、 文 件 所 有 权 以 及 文件 权限 〉 的 结构 。 然 后 ， 将 插 
述 用 来 改变 文件 属性 的 各 种 系统 调用 。( 对 文件 权限 的 探讨 会 在 第 17 章 继 续 进行 ， 讲 述 访问 
控制 列表 。 本 章 将 在 结尾 处 讨论 i 市 点 标志 〈 也 称 为 ext2 扩展 文件 属性 )， 可 利用 其 控制 内 
核对 文件 处 理 的 方方面面 。 





15.1 获取 文件 信息 : stat() 


利用 系统 调用 statO、1lstatO 以 及 fstat0， 可 获取 与 文件 有 关 的 信息 ， 其 中 大 部 分 提取 目 文 
fF idm. 








#include «sys/stat.h» 


int stat(const char *pathname, struct stat *siatbuf); 
int lstat(const char *pathname, struct stat *statbuf); 
int fstat(int fd, struct stat *statbuf); 


All return 0 on success, or -1 on error 




















以 上 3 个 系统 调用 之 间 仅 有 的 区 别 在 于 对 文件 的 描述 方式 不 同 。 

。 stat0 会 返回 所 命名 文件 的 相关 信息 。 

。 lstatO 与 statO 关 似 ， 区 列 在 于 如 于 文件 属于 符 所 链接， 那么 所 返回 的 信息 针对 的 是 符 

号 链接 自身 《而 非 符 号 链接 所 指 回 的 文件 )。 

。 fstatO 则 会 返回 由 菏 个 打开 文件 描述 符 所 指 代 文件 的 相关 信息 。 

系统 调用 stat0 和 lstat0 无 需 对 其 所 操作 的 文件 本 身 拥 有 任何 权限 ， 但 针对 指定 
pathname 的 父 目录 要 有 执行 (搜索 ) 权限 。 而 只 要 供 之 以 有 效 的 文件 插 述 从 ，fstat0 系 统 调 用 
总 征 成 功 。 
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EPRA RSEUSE SE ERIX HH iR 4 FH statbuf 指向 的 stat 结构 ， 其 格式 如 下 : 
struct stat ( 


dev t st dev; /* IDs of device on which file resides */ 
ino t st ino; /* I-node number of file */ 

mode t st mode; /* File type and permissions */ 

nlink t st nlink; /* Number of (hard) links to file */ 

uid t st uid; /* User ID of file owner */ 

gid t st gid; /* Group ID of file owner */ 

dev t st rdev; /* IDs for device special files */ 

off t st size; /* Total file size (bytes) */ 

blksize t st blksize; /* Optimal block size for I/O (bytes) */ 
blkcnt t st blocks; /* Number of (512B) blocks allocated */ 
time t st atime; /* Time of last file access */ 

time t st mtime; /* Time of last file modification */ 
time t st ctime; /* Time of last status change */ 


Js 
在 SUSv3 中 ， 明 确定 义 了 供 stat 结构 各 字段 使 用 的 不 同 数 据 类 型 。 更 多 与 这 些 数据 类 型 
有 关 的 信息 ， 请 参考 3.6.2 市 。 


根据 SUSv3， 将 lstat0 应 用 于 符号 链接 时 ， 只 需 在 st size 字段 和 插 述 文件 类 型 的 
st mode 字段 〈 稍 后 介绍 ) 返回 有 效 信息 ， 并 不 要 求 所 返回 的 其 他 字段 〈 比 如 ，time 字段 ) 
言 有 有效。 如 此 一 来 ， 出 于 效率 的 原因 ， 系 统 实现 可 选择 不 维护 此 类 字段 。 说 透彻 一 点 ， 
早期 UNIX 标准 的 意图 在 于 把 从 号 链接 要 么 实现 为 1 节操， 要 么 实现 为 目录 中 的 一 条 记录 。 
如 条 是 后 一 种 实现 方式 ， 在 实现 中 顾及 stat 结构 的 所 有 字段 是 不 现实 的 《在 所 有 当代 主流 
的 UNIX 实现 中 ， 符 写 链 接 都 是 以 i 市 点 的 方式 来 实现 的 ,) 在 Linux 上 ,将 lstatO0 应 用 于 符 
号 链接 时 ， 会 返回 所 有 stat 字段 的 信息 。 


接 下 来 ， 会 对 stat 结构 的 茶 些 字段 做 重点 介绍 。 最 后 ， 还 会 给 出 展示 完整 stat 结构 的 程序 示例 。 

















设备 ID 和 i 节点 号 


st dev 字段 标识 文件 所 驻 留 的 设备 。st_ino 字段 则 包含 了 文件 的 i 节点 写 。 利 用 以 上 两 者 ， 
可 在 所 有 文件 系统 中 唯一 标识 某 个 文件 。dev t 类 型 记录 了 设备 的 主 、 辅 ID CH 14.1 节 )。 

如 果 是 针对 设备 的 i 节点 ， 那 么 st_rdev 字段 则 包含 设备 的 主 、 辅 ID。 

利用 宏 major0 和 minor0, 可 提取 dev. t HWE H ID. 获取 对 两 个 宏 声 明 的 头 文件 则 随 UNIX 
实现 而 各 异 。 在 Linux 系统 上 ， 帮 定义 了 BSD SOURCE 宏 ， 则 两 个 宏 定义 于 <sys/types.hb> 中 。 

由 major0 和 minorO 所 返回 的 整形 值 大 小 也 随 UNIX 实现 的 不 同 而 各 不 相同 。 为 保证 可 移 
植 性 ， 打 印 时 应 总 是 将 返回 值 强 制 转换 为 lng《〈 见 3.6.2 17). 























文件 所 有 权 
st uid 和 st gid 字段 分 别 标识 文件 的 属 主 《〈 用 户 ID) MEH (A ID). 
链接 数 


st_nlink 学 段 包含 了 指向 文件 的 〈 便 ) 链接 数 。 本 书 第 18 章 将 详细 介绍 链接 。 


文件 类 型 及 权限 
st mode 字段 内 含有 位 掩 码 ， 起 标识 文件 类 型 和 指定 文件 权限 的 双重 作用 。 图 15-1 所 示 
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为 该 子 段 所 合 各 位 的 布局 情况 。 


-— 文件 类 型 一 











15-1: st mode 位 掩 码 的 布局 


与 常量 S_IFMT 相 与 (&&)， 可 从 该 字段 中 析 取 文件 类 型 。(Linux 使 用 了 st mode 字段 中 的 
4 位 来 标识 文件 类 型 位 。 但 由 于 SUSv3 并 未 对 文件 类 型 位 的 表示 方式 做 出 任何 规定 ， 故 而 其 具 
体 细节 随 各 实现 而 异 。) 将 计算 结果 与 一 系列 常量 进行 比较 ， 即 可 确定 文件 类 型 ， 如 下 所 示 : 


if ((statbuf.st mode & S IFMT) == S IFREG) 
printf("regular file\n"); 


鉴于 上 述 操作 属于 常见 操作 ， 因 此 可 利用 标准 宏 将 其 简化 为 : 


if (S ISREG(statbuf.st mode)) 
printf("regular file\n"); 


ze 15-1 所 列 为 全 套 文 件 类 型 宏 ( 定 义 于 <sys/stat.h>)。 这些 宏 均 由 SUSv3 定义 , 并 为 Linux 
所 文 持 。 一 些 其 他 的 UNIX 实现 还 定义 了 别 的 文件 类 型 (比如 ， 用 于 Solaris door files 的 
S_IFDOOR)。 因 为 调用 statO 时 会 循 符 号 链接 而 直抵 实际 文件 ， 所 以 只 有 在 调用 lstatO 时 才 有 
可 能 返回 类 型 S$_IFLNK。 






































想 从 <sys/stat.h> 中 获得 S IFSOCK 和 S ISSOCK0O 的 定义 , 必须 定义 BSD SOURCE 特 
性 测试 宏 , 或 是 将 XOPEN SOURCE 定义 为 不 小 于 500 的 值 。( 有 具体 规则 随 glibc 版 本 而 异 。 
在 某 些 情况 下 ， 需 将 XOPEN SOURCE 的 值 定义 为 不 小 于 600.) 
最 初 的 POSIX.1 标准 并 未 定义 表 15-1 中 第 一 列 所 列 的 津 量 ， 尺 管 其 中 的 大 部 分 已 为 多 数 
UNIX 实现 所 支持 。 而 SUSv3 则 把 这 些 常量 纳入 规范 。 


表 15-1: 针对 stat 结构 中 的 st mode 来 检查 文件 类 型 的 宏 





S_IFREG 常规 文件 
S_IFDIR HK 
S_IFCHR 字符 设备 


S IFBLK B 块 设备 
S_IFIFO S ISFIFO() FIFO 或 管道 
S_IFSOCK S ISSOCK() 套 接 字 
S_IFLNK S ISLNK() 符号 链接 








st mode 字段 的 低 12 位 定义 了 文件 权限 ， 会 在 15.4 市 介绍 。 目 前 ， 只 要 知道 其 中 最 低 9 
位 分 别 用 来 表示 文件 属 主 、 属 组 以 及 其 他 用 户 的 谈 、 写 、 执 行 权限 。 


文件 大 小 、 已 分 配 块 以 及 最 优 VO 块 大 小 
对 于 第 规 文件 ，st_size 字段 表示 文件 的 字 市 数 。 对 于 人 符 写 链接 ， 则 表示 链接 所 指 路 竹 
A WH&BE. DAUECHOBSEASE. OLTRE MONEER CLER 54 章 )， 该 字段 则 表示 对 象 的 大 小 。 
st blocks 子 段 表示 分 配给 文件 的 总 块 数 ， 块 大 小 为 512 字 市 ， 其 中 包括 了 为 指针 块 所 分 配 的 
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空间 (参见 图 14-2)。 之 所 以 选择 512 字 节 大 小 的 块 作为 度量 单位 ， 有 其 历史 原因 一 一 对 于 
UNIX 所 实现 的 任何 文件 系统 而 言 ， 最 小 的 块 大 小 即 为 S12 F. ENMI UNIX 文件 系统 
则 使 用 更 大 尺寸 的 逻辑 块 。 例如， 对 于 ex 文件 系统 ， 取 决 于 其 逻辑 块 大 小 为 1024、2048 还 
是 4096 £, st blocks 的 取 值 将 总 是 2、4、8 的 倍数 。 


SUSv3 并 未 定义 度量 st blocks 时 所 使 用 的 单位 ， 故 而 UNIX 实现 可 以 不 使 用 512 字 节 
作为 其 单位 。 大 多 数 UNIX 实现 使 用 512 字 节 作为 st blocks 字段 的 单位 ， 但 HP-UX 11 所 
使 用 的 单位 则 视 文件 系统 而 定 ( 有 时 为 1024 F). 


st blocks 字段 记录 了 实际 分 配给 文件 的 磁盘 块 数量 。 如 果 文 件 内 含 空洞 〈 见 4.7 30, dX 
值 将 小 于 从 相应 文件 字 贡 数字 段 Cst size). 的 值 。( 执 行 显示 磁盘 使 用 情况 的 du -k file 命令 ， 
便 可 获悉 分 配给 文件 的 实际 空间 ， 单 位 为 KB。 亦 即 ， 得 自 对 文件 st blocks 值 ， 而 非 st size 
值 的 计算 结果 。) 

st blksize 字段 的 命名 多 少 有 些 令 人 费解 。 其 所 指 并 非 底 层 文件 系统 的 块 大 小 ， 而 是 针对 
文件 系统 上 文件 进行 VO 操作 时 的 最 优 块 大 小 (以 字 节 为 单位 )。 若 VO. 所 采用 的 块 大 小 小 于 
该 值 ， 则 被 视 为 低 效 (参阅 13.1 节 )。 一 般 而 言 ，st_blksize 的 返回 值 为 4096。 





















































X. fA S] [8] X 

st atime,. st mtime 和 st ctime 字段 ， 分 别 记 录 了 对 文件 的 上 次 访问 时 间 、 上 次 修改 时 间 ， 
以 及 文件 状态 发 后 改变 的 上 次 时 间 。 这 3 个 字段 的 类 型 均 属 time_t， 是 标准 的 UNIX 时 间 格 式 ， 
WK J H Epoch 以 来 的 秒 数 。15.2 TIEA IRA TAS e 








程序 示例 


程序 清单 15-1 所 列 程序 使 用 stat0 去 获取 文件 (文件 名 由 该 程序 的 命令 行 提供 ) 的 相关 信 
ds AU- 选项 执行 命令 , 程序 会 改 用 lstat()， 以 获取 与 符号 链接 (而 非 该 链接 所 指 代 的 文件 ) 
有 关 的 信息 。 该 程序 会 将 返回 stat 结构 的 所 有 子 段 一 一 打印 出 来 。( 全 于 程序 中 将 st size 和 
st blocks 字段 强制 转换 为 long long 类 型 的 原因 ,请 参考 5.10 市 。) 该 程序 所 调用 的 filePermStr() 
函数 源码 见 之 于 程序 清单 15-4。 

以 下 为 对 该 程序 的 执行 情况 。 

$ echo 'All operating systems provide services for programs they run' > apue 

$ chmod g+s apue T'urn on set-group-ID bit; affects last status change time 

$ cat apue Affects last file access time 

All operating systems provide services for programs they run 


$ ./t stat apue 
File type: 




















regular file 


Device containing i-node: major-3 | minor-11 

I-node number: 234363 

Mode: 102644 (rw-r--r-- 
special bits set: set-GID 

Number of (hard) links: 1 

Ownership: UID-1000 GID=100 

File size: 61 bytes 

Optimal I/O block size: 4096 bytes 

512B blocks allocated: 8 

Last file access: Mon Jun 8 09:40:07 2011 


Last file modification: 
Last status change: 


8 09:39:25 2011 
8 09:39:51 2011 


Mon Jun 
Mon Jun 
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程序 清单 15-1: 获取 并 解释 文件 的 stat 信息 
files/t stat.c 
itdefine BSD SOURCE /* Get major() and minor() from «sys/types.h» */ 
include <sys/types.h> 
include «sys/stat.h» 
include «time.h» 
include "file perms.h" 
include "tlpi hdr.h" 


static void 
displayStatInfo(const struct stat *sb) 
{ 


printf("File type: B 

switch (sb-»st mode & S IFMT) 1 

case S IFREG: printf("regular fileWn"); break; 
case S IFDIR: printf("directoryWn"); break; 
case S IFCHR: printf("character device\n"); break; 
case S IFBLK: printf("block device\n"); break; 
case S IFLNK: printf("symbolic (soft) linkWn"); break; 
case S IFIFO: printf("FIFO or pipeWn"); break; 
case S IFSOCK: printf("socket An"); break; 
default: printf("unknown file type?NÀn"); break; 
} 


printf("Device containing i-node: major=%ld minor=%ld\n", 
(long) major(sb-»st dev), (long) minor(sb-»st dev)); 


printf("I-node number: %ld\n", (long) sb-»st ino); 


printf("Mode: Alo (Xs)Nn", 
(unsigned long) sb-»st mode, filePermStr(sb-»st mode, 0)); 


if (sb-»st mode & (S ISUID | S ISGID | S ISVTX)) 


printf(" ^ special bits set: %s%s%s\n", 
(sb-»st mode & S ISUID) ? "set-UID " : "", 
(sb-»st mode & S ISGID) ? "set-GID " : "", 
(sb-»st mode & S ISVTX) ? "sticky " : ""); 


printf("Number of (hard) links: %ld\n", (long) sb-»st nlink); 


printf("Ownership: UID=%]d GID=%ld\n", 
(long) sb->st uid, (long) sb->st gid); 


if (S ISCHR(sb-»st mode) || S ISBLK(sb->st mode)) 
printf("Device number (st rdev): major-Xld; minor-XldWn", 
(long) major(sb-»st rdev), (long) minor(sb-»st rdev)); 


printf("File size: %lld bytesWn", (long long) sb-»st size); 
printf("Optimal I/O block size: %ld bytes\n", (long) sb-»st blksize); 
printf("512B blocks allocated: 4lldWn", (long long) sb-»st blocks); 


printf("Last file access: As", ctime(&sb-»st atime)); 
printf("Last file modification: Xs", ctime(&sb-»st mtime)); 
printf("Last status change: 4s", ctime(&sb-»st ctime)); 
} 
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int 
main(int argc, char *argv[]) 
struct stat sb; 


Boolean statLlink; /* True if "-1" specified (i.e., use Istat) */ 
int fname; /* Location of filename argument in argv[] */ 


statLink = (argc > 1) 8& strcmp(argv[1], "-1") -- 0; 
/* Simple parsing for "-l" */ 
fname = statLink ? 2 : 1; 


if (fname >= argc || (argc > 1 8& strcmp(argv[1], "--help") == 0)) 
usageErr("Xs [-1] fileW" 
È -l = use 1stat() instead of stat()\n", argv[0]); 


if (statLink) 1 
if (Ilstat(argv[fname], &sb) == -1) 
errExit("1stat"); 
} else { 
if (stat(argv[fname], &sb) == -1) 
errExit("stat"); 


j 
displayStatInfo(&sb); 


exit(EXIT SUCCESS); 


files/t stat.c 


15.2 SFRJ EEX 


stat 结构 的 st_atime, st mtime 和 st ctime FRETE 2g LIFTER, 233 o T OCTERJ 
上 次 访问 时 间 、 上 次 修改 时 间 ， 以 及 文件 状态 〈 即 文件 i 节点 内 信息 ) 上 次 发 生变 更 的 时 间 。 
对 时 间 惟 的 记录 形式 为 目 1970 年 1 月 1 日 《参见 10.1 580. 以 来 所 历经 的 秒 数 。 

大 多 数 原生 Linux 和 UNIX 文件 系统 都 文 持 上 述 所 有 的 时 间 惟 字段 ,但 东 些 非 UNIX 文件 
系统 则 未 必 如 此 。 

K 15-2 总 结 了 本 书 所 述 各 种 系统 调用 及 库 函 数 所 改变 的 相应 时 间 玲 字段 〈 有 时 则 是 指 父 
目录 的 类 似 字 段 )。 本 表 标 题 中 的 a、m 和 c 分 别 表 示 st atime, st mtime 和 st ctime FR. Æ 
大 多 数 情 况 下 ， 系 统 调用 会 将 相关 时 间 玲 置 为 当前 时 间 。 但 utime0O 及 关 似 调用 《〈 将 在 15.2.1 
和 15.2.2 节 讨 论 〉 则 不 在 此 列 ， 可 利用 这 些 系统 调用 显 式 将 对 文件 的 上 次 访问 时 间 和 上 次 修 
改 时 间 设 定 为 任意 值 。 

R 15-2: 各 种 消 数 对 文件 时 间 礁 的 影响 


l 文件 或 目录 父 目录 


ES. 
Le [mew we. 





























chmod() 与 fchmod() 相 同 

chown() 与 Ichown(O FE fchownO 相 同 
exec() 

link() 影响 第 二 个 参数 的 父 目 录 


236 Linux/UNIX 系统 编程 手册 ( 上 册 ) 
异步 社区 会 员 flyman150(2410757683@qq.com) 专 享 尊重 版 权 


文件 或 目录 | 


mkdir() 
mkfifo() 
mknod() 


mmap() 


msync() 


以 及 作用 于 竺 个 文件 的 标志 。 


4.3.] 节 中 介 


| QER | 


open(), creat() 
open(), creat() 
pipe() 

read() 
readdir() 
removexattr() 
rename() 
rmdir() 
sendfile() 
setxattr() 
symlink() 
truncate() 
unlink() 
utime() 

write() 


本 书 14.8.1 节 和 15.5 节 分 别 介绍 了 可 阻止 对 文件 上 次 访问 时 间 进 行 更 新 的 mount(2) 选 项 ， 


绍 的 open) O NOATIME 标志 





仅 当 对 具有 MAP_SHARED 属性 的 映射 进行 
更 新 时 ， 才 会 改变 st mtime 和 st ctime 


仅 当 修改 文件 时 ， 才 会 改变 时 间 改 
新 建文 件 时 
截断 现 有 文件 时 


与 readv()、pread(O) 和 preadvO 相 同 


readdir() 可 绥 冲 目录 条 目 ， 仪 当 读 取 目 录 时 ， 
才 会 更 新 各 时 间 玲 


与 fremovexattr() 和 removexattrO 相 同 


同时 影响 文件 (更 名 前 后 ) 的 父 目 录 。SUSv3 
并 未 强制 要 求 改变 文件 的 st_ctime， 只 是 顺 
带 指出 有 一 些 实现 是 照 此 办 理 的 


与 remove(directory) 相 同 

改变 了 输入 文件 的 时 间 戳 

与 fsetxattr() 和 Isetxattr() 相同 
设 症 链接 (而 非 日 标 文件 ) BST TRTTEX 


LH ftruncate()fH |F], 仅 当 文件 大 小 改变 时 ， 才 
会 改变 时 间 惟 


remove(file) 相 同 。 车 之 前 的 链接 计数 大 于 
1， 会 改变 文件 的 st_ctime 


与 utimes(). futimes(). futimens(). lutimes() 


和 utimensat() 相 同 
与 writev(). pwrite() ll pwritevO 相 同 























也 能 起 到 类 似 作 


用 。 由 于 米 用 此 标志 可 降低 对 磁 副 的 操作 次 数 ， 提 升 菜 些 应 用 的 文件 访问 性 能 ， 故 而 兢 上 其 实 


用 价值 。 





虽然 大 多 数 UNIX 系统 都 不 会 记录 文件 的 创建 时 间 ， 但 最 新 的 BSD 系统 会 使 用 名 为 
st birthtime 的 stat 字段 来 记录 这 一 时 间 。 





1 ŽRE: 对 整个 文件 系统 起 作用 。 
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对 于 stat 结构 所 含 的 3 个 时 间 戳 字段 ，Linux 从 2.6 版 本 将 其 精度 提升 至 纳 秒 级 。 纳 秒 级 
分 辨 率 将 提高 某 些 程序 的 精度 ， 因 为 此 类 程序 需要 根据 文件 时 间 惟 的 先后 顺序 来 作 决 定 《〈 比 
lll, make(1)). 

SUSv3 并 未 强制 要 求 stat 结构 对 纳 秒 级 时 间 戳 的 文 持 ， 但 SUSvA 对 此 则 有 明文 规定 。 

并 非 所 有 文件 系统 都 文 持 纳 秒 级 精度 的 时 间 惟 。JES、XFS、ext4， 以 及 Btrfs 文件 系统 都 
文 持 ， 但 ext2, ext3 以 及 Reiserfs 文件 系统 则 不 然 。 

glibc API《〈 目 版 本 2.3 起 ) 将 每 个 时 间 惟 字段 都 定义 为 timespec 结构 〈 本 贡 稍 后 在 介绍 
utimensatO 时 将 会 讲解 该 结构 )， 此 结构 是 以 秒 和 纳 秒 为 单位 来 表示 时 间 的 一 种 组 件 。 使 用 恰当 
的 宏 定 义 ， 该 组 件 的 秒 级 部 分 可 见 诸 于 传统 字段 (st_atime、st_mtime， 以 及 st_ctime) 中 。 而 
对 其 纳 秒 级 部 分 的 访问 则 会 采用 如 下 手法 : 通过 诸如 st_atim.tv_nsec 之 类 的 字段 名 来 获取 文 
件 上 次 访问 时 间 的 纳 秒 级 部 分 。 


15.2.1 使 用 utime() 和 utimes() 来 改变 文件 时 间 截 


使 用 utime0O 或 与 之 相关 的 系统 调用 集 之 一 ， 可 显 式 改变 存储 于 文件 i 市 扣 中 的 文件 上 次 
访问 时 间 稚 和 上 次 修改 时 间 惟 。 解压 文件 时 ,tar(1) 和 unzip(1) 之 类 的 程序 会 使 用 这 些 系 统 调用 
去 重 置 文件 的 时 间 戳 。 





















































dinclude «utime.h» 


int utime(const char *pathname, const struct utimbuf *buf); 


Returns 0 on success, or -1 on error 











参数 pathname 用 来 标识 欲 修 改 时 间 的 文件 。 吞 该 参数 为 符 与 链接, 则 会 进一步 解除 引用 。 
参数 buf 既 可 为 NULL， 也 可 为 指向 utimbuf 结构 的 指针 。 
struct utimbuf { 
time t actime; /* Access time */ 
time t modtime; /* Modification time */ 
n 
该 结构 中 的 字段 记录 了 自 Epoch CJ, 10.1 节 ) 以 来 的 秒 数 。 
utimeO 的 运作 方式 则 视 以 下 两 种 不 同情 况 而 定 。 
。 如 果 buf 为 NULL， 那 么 会 将 文件 的 上 次 访问 和 修改 时 间 同 时 置 为 当前 时 间 。 这 时 ， 
进程 要 么 具有 特权 级 别 (CCAP FOWNER 或 CAP DAC OVERRIDE)， 要 么 其 有 效用 
P ID 与 该 文件 的 用 户 ID. GEE) 相 匹 配 ， 且 对 文件 有 写 权 限 〈 逮 辑 上 ， 对 文件 拥 有 
写 权 限 的 进程 在 调用 其 他 系统 调用 时 , 可 能 会 于 无 意 间 改变 这 些 时 间 戳 )。( 准 确 地 说 ， 
如 9.5 WITIR, 在 Linux 系统 中 ,用 来 与 文件 用 己 ID 做 比 对 的 是 进程 的 文件 系统 用 户 
ID， 而 非 其 有 效用 户 ID。) 
。 FK buf 指定 为 指 问 utimbuf 结构 的 指针 ， 则 会 使 用 该 结构 的 相应 字段 去 更 新 文件 的 
上 次 访问 和 修改 时 间 。 此 时 ， 要 么 调用 程序 具有 特权 级 别 〈CAP_FOWNER)， 要 么 进 
程 的 有 效用 户 ID 必需 匹配 文件 的 用 户 ID “〈 仅 对 文件 拥有 写 权 限 是 不 够 的 )。 
为 更 改 文件 时 间 戳 中 的 一 项 ， 可 以 先 利 用 stat0 来 获取 两 个 时 间 ， 并 使 用 其 中 之 一 来 初始 
化 utimbuf 结构 ， 然 后 再 将 另 一 时 间 置 为 期 望 值 。 下 列 代码 狂 示 了 这 一 操作 ， 将 文件 的 上 次 修 
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改 时 间 改 为 与 上 次 访问 时 间 相 同 。 


struct stat sb; 
struct utimbuf utb; 


if (stat(pathname, &sb) == -1) 
errExit("stat"); 
utb.actime - sb.st atime; /* Leave access time unchanged */ 
utb.modtime - sb.st atime; 
if (utime(pathname, &utb) == -1) 
errExit("utime"); 


只 要 调用 utime0 成 功 ， 总 会 将 文件 的 上 次 状态 更 改 时 间 置 为 当前 时 间 。 
Linux 还 提供 了 源 于 BSD 的 utimesO 系 统 调用 ， 其 功用 类 似 于 utime(。 

















#include «sys/time.h» 


int utimes(const char *pathname, const struct timeval (v[2[); 


Returns 0 on success, or - 1 on error 











utime(). Ej utimesO 之 间 最 显著 的 差别 在 于 后 者 可 以 以 微 秒 级 精度 来 指定 时 间 值 Ctimeval 
结构 请 见 10.1 7). Linux 2.6 为 文件 时 间 惟 提供 了 纳 秒 级 的 精度 文 持 ,在 这 里 也 部 分 得 以 体现 。 
新 的 文件 访问 时 间 在 tv[0] 中 指定 ， 新 的 文件 修改 时 间 在 tv[1] 中 指定 。 
utimes() 的 使 用 例子 请 参考 随 本 书 一 同 发 行 的 源码 中 的 files/t utimes.c 文件 。 
futimes() 和 lutimesO 库 函数 的 功能 与 utimes(O) 大 同 小 寞 。 前 两 者 与 后 者 之 则 的 错 异 在 于 ， 
用 来 指定 要 更 改 时 间 惟 文件 的 参数 不 同 。 



































#include «sys/time.h» 


int futimes(int fd, const struct timeval tw/2)); 
int lutimes(const char *pathname, const struct timeval tv[2]); 


Both return 0 on success, or -1 on error 








调用 futimesO 时 ， 使 用 打开 文件 描述 符 fd 来 指定 文件 。 

调用 lutimesO 时 ， 使 用 路 径 名 来 指定 文件 ， 有 曾 于 调用 utimesO 的 是 : 对 于 lutimes0, + 
路 径 名 指 回 一 符 扎 链接 ， 则 调用 不 会 对 该 链接 进行 解 引 用 ， 而 是 更 改 链接 目 身 的 时 间 惟 。 

glibc H 2.3 版 本 开始 支持 futimesQrRZI, H 2.6 版 本 开始 文 持 lutimes() A Z. 


15.2.2 ”使 用 utimensat() 和 futimens() 改 变 文件 时 间 截 


utimensat() 系 统 调用 (内 核 目 2.6.22 版 本 开始 文 持 ) 和 futimensOPE ER Zt Cglibe 目 版 本 2.6 
开始 文 持 ) 为 设置 对 文件 的 上 次 访问 和 修改 时 间 惟 提供 了 扩展 功能 。 以 下 对 这 两 个 编程 接口 
的 优点 列举 一 二 。 

e 可 按 纳 秒 级 精度 设置 时 间 鹤 。 相 对 于 提供 微 秒 级 精度 的 uimes(0， 这 和 是 重大 改进 。 

e 可 独立 设置 某 一 时 间 鹤 (一 次 只 设置 其 一 )。 如 前 所 述 ， 要 使 用 旧 编 程 接口 去 改变 时 间 
BAG» hate oU statO0 获 取 另 一 时 间 惟 的 什 。 然 后 再 将 获取 值 与 打算 变更 的 时 间 
惟一 同 指定 。( 寿 另 一 进程 在 这 两 步 之 间 执 行 了 更 新 时 间 惟 的 操作 , 将 会 导致 范 争 状态 。) 

e 可 独立 将 任 一 时 间 玲 置 为 当前 时 间 。 要 使 用 旧 编 程 接口 将 一 个 时 间 惟 改 为 当前 时 间 ， 
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需要 调用 stat0 去 获取 那些 你 持 不 变 的 时 间 惟 的 设置 情况 ， 并 调用 gettimeofdayO 以 获 
得 当前 时 间 。 

在 SUSv3 中 并 未 定义 以 上 两 个 接口 ， 但 SUSv4 将 其 纳入 规范 。 

utimensat() 系 统 调 用 会 把 由 pathname 指定 文件 的 时 间 惟 更 新 为 由 数组 times 指定 的 值 。 








#define XOPEN SOURCE 700 /* Or define POSIX C SOURCE >= 200809 */ 
#include «sys/stat.h» 


int utimensat(int d?ríd, const char *pathname, 
const struct timespec times/2], int flags); 


Returns 0 on success, or -1 on error 











Tf times 指定 为 NULL， 则 会 将 以 上 两 个 文件 时 间 恰 都 更 新 为 当前 时 间 。 寿 times 值 为 
非 NULL， 则 会 针对 指定 文件 在 times[0] 中 放置 狮 的 上 次 访问 时 间 ， 在 ttmes[1] 中 放置 新 的 上 
次 修改 时 间 。 数 组 times 所 合 的 每 一 元 素 都 是 如 下 格式 的 一 个 结构 : 


struct timespec { 
time t tv sec; /* Seconds ('time t' is an integer type) */ 
long tv nsec; /* Nanoseconds */ 








h 

结构 所 合 的 字段 分 别 指定 目 Epoch (10.1 市 ) 以 来 的 秒 数 和 纳 秒 数 。 

若 有 意 将 时 间 礁 之 一 置 为 当前 时 间 ， 则 可 将 相应 的 tv_nsec 字段 指定 为 特殊 值 
UTIME NOW 。 奋 布 望 某 一 时 间 鹤 保持 不 变 ， 则 震 把 相应 的 tv_nsec 字段 指定 为 特殊 值 
UTIME_OMIT。 无 论 是 上 述 哪 一 种 情况 ， 都 将 忽略 相应 tv sec 字段 中 的 值 。 

可 以 将 dirfd 参数 指定 为 AT_FDCWD， 此 时 对 pathname 参数 的 解读 与 utimes() 相 类 似 。 
或 者 ， 也 可 以 将 其 指定 为 指 代目 孙 的 文件 描述 符 ，18.11 市 将 描述 这 一 用 法 的 目的 所 在 。 

flags 参数 可 以 为 0， 或 者 AT SYMLINK NOFOLLOW， 意 即 当 pathname 为 符号 链接 时 ， 
不 会 对 其 解 引 用 【〈 也 束 是 说 ， 改 变 的 是 符号 链接 目 吴 的 时 间 戳 )。 相 形 之 下 ，utimes0 总 是 对 符 
写 链 接 进 行 解 引 用 。 

以 下 代码 片段 在 将 对 文件 的 上 次 访问 时 间 置 为 当前 时 间 的 同时 ， 上 次 修改 时 间 则 保持 不 变 。 


struct timespec times[2]; 


























times[0].tv sec = 0; 
times[0].tv nsec = UTIME NOW; 
times[1].tv sec = 0; 


times[1].tv nsec = UTIME OMIT; 
if (utimensat(AT FDCWD, "myfile", times, O) -- -1) 
errExit("utimensat"); 
利用 utimensat0( 和 futimens0) 改 变 时 间 戳 时 所 名 循 的 权限 规则 与 旧 有 API 函数 相 类 似 ， 
utimensat(2) 手 册页 对 此 有 话 细 讨论 。 
使 用 fatimensO0 库 函数 可 更 狐 打 开 文 件 拉 述 符 fd 押 指 代 文 件 的 各 个 文件 时 间 玲 。 














#include GNU SOURCE 
include «sys/stat.h» 


int futimens(int fd, const struct timespec times/2)]); 





Returns 0 on success, or -1 on error 
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Hp, times 参数 的 使 用 方法 与 utimensatO 相 同 。 


15.3 ”文件 属 主 


每 个 文件 都 有 一 个 与 之 关联 的 用 户 ID (UID) 和 组 ID (GID)， 籍 此 可 以 判定 文件 的 属 主 
和 属 组 。 


15.3.1 新 建文 件 的 属 主 


文件 创建 时 ， 其 用 户 ID“ 取 目 ” 进 程 的 有 效用 户 站。 而 新 建文 件 的 组 ID 则 “ 取 目 ” 进 
程 的 有 效 组 ID (HF System V 系统 的 默认 行为 )， 或 父 目 录 的 组 ID BSD 系统 的 行为 )。 
当 为 项 目 创 建 目录 时 ， 需 要 该 目录 下 的 所 有 文件 隶属 于 攻 一 特定 组 ， 并 且 可 为 该 组 所 有 成 员 
所 访问 。 这 时 ， 采 用 后 一 种 行为 束 非 常 实用 。 新 建文 件 的 组 ID 在 这 两 者 间 如 何 取舍 是 由 多 种 
因 系 决定 的 ， 狐 文件 所 在 文件 系统 的 类 型 束 是 其 中 之 一 。 这 里 完 介 绍 一 下 ext2 和 条 些 其 他 类 
型 文件 系统 所 加 循 的 规则 。 












































为 来 精确 ， 本 市 所 使 用 的 术语 有 效用 户 ID RH ID, 实际 是 指 文件 系统 用 户 ID 或 组 ID 
( 见 9.5 节 )。 


"EG ext2 文件 系统 时 , mount 命令 要 么 市 有 -o grpid 的 选项 (或 等 效 的 -o bsdgroups 选项 )， 
要 么 带 有 -o nogrpid 选项 (或 等 效 的 -o sysvgroups 选项 )。( 若 两 者 均 未 指定 ，mount 命令 的 默认 
选项 为 -o nogrpid。) FFIR T -o grpid 选项 ， 那 么 新 建文 件 总 是 继承 其 父 目 录 的 组 ID. AIRE 
了 -onogrpid 选项 ， 那 么 在 默认 情况 下 ， 新 建文 件 的 组 ID 则 “ 取 目 ”进程 的 有 效 组 ID 。 不 过 ， 
如 果 已 将 目录 的 set-group-ID 位 置 位 (通过 chmod gts 命令 )， 那 么 文件 的 组 ID 又 将 从 其 父 目 
录 处 继承 。 表 15-3 对 上 述 规 则 做 了 总 结 。 














正如 18.6 HITR, — ELA HKA set-group-ID 位 置 位 后 ， 该 目录 下 所 有 子 目 录 的 
set-group-ID 位 也 将 被 置 位 。 如 此 一 来 , 正文 中 所 描述 的 set-group-ID 行为 会 届 布 整个 目录 树 。 


表 15-3: 俏 定 新 建文 件 组 所 有 权 的 规则 
文件 系统 装配 选项 有 无 设置 父 目录 的 Set-group-ID 位 新 建文 件 的 组 所 有 权 取 自 何人 处 


(默认 ) 父 目 录 组 ID 
BERB, xF? grpid 和 nogrpid 装配 选项 的 文件 系统 仅 限 于 ext2、ext3、ext4 以 及 目 
Linux 2.6.14 出 现 的 XFS。 其 他 类 型 的 文件 系统 则 遵循 nogrpid 规则 。 
15.3.2 ”改变 文件 属 主 ，chown()、fchown() 和 Ichown() 


系统 调用 chown()、lchown() 和 fchown() 可 用 来 改变 文件 的 属 主 (用户 D) MRA A 
ID ) 。 
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itinclude <unistd.h> 
int chown(const char *pathname, uid t owner, gid t group); 


#define XOPEN SOURCE 500 /* Or: stdefine BSD SOURCE */ 
&include <unistd.h> 


int lchown(const char *pathname, uid t owner, gid t group); 
int fchown(int fd, uid t owner, gid t group); 


All return 0 on success, or -1 on error 








以 上 3 个 系统 调用 之 间 的 区 别 类 似 于 stat0 系 统 调用 一 族 。 
e chown) Æ H pathname 参数 命名 文件 的 所 有 权 。 
e lchown() 用 途 与 chownO 相 同 ， 不 同 乙 处 在 于 大 参数 pathname 为 一 从 写 链 接 ， 则 将 会 
改变 链接 文件 本 映 的 所 有 权 ， 而 与 该 链接 所 指 代 的 文件 无 干 。 
e fchown() 也 会 改变 文件 的 所 有 权 ， 只 是 文件 由 打开 文件 描述 符 fd 所 引用 。 
参数 owner 和 group 分 别 为 文件 指定 新 的 用 户 ID 和 组 ID。 大 只 打算 改变 其 中 之 一 ， 只 需 
将 为 一 参数 置 为 -1， 即 可 令 与 之 相关 的 ID 体 持 不 变 。 























Linux2.2 之 前 ，chown0O 不 对 符 写 链接 进行 解 引 用 。 从 Linux 22 开始 ，chown() 的 语义 
发 生 了 变化 ， 并 且 添 加 了 新 系统 调用 lchown()， 以 提供 老 系统 调用 chown() 的 行为 。 


只 有 特权 级 进程 (CAP_CHOWN) 才 能 使 用 chownO 改 变 文件 的 用 户 DD。 非 特权 级 进程 可 使 
用 chownO 将 目 己 所 拥有 文件 的 组 ID 改 为 其 所 从 属 的 任 一 属 组 的 ID， 前 提 是 进程 的 有 效用 户 
ID 与 文件 的 用 户 ID 相 匹 配 。 特 权 级 进程 则 可 将 文件 的 组 ID 修改 为 任意 值 。 


当 超 级 用 户 改 变 可 执行 文件 的 属 主 和 属 组 时 ， 是 否 应 当 屏 蔽 set-user-ID 和 set-group-ID 
位 ? SUSv3oS IER Bon] (8. Linux 2.0 确实 会 屏蔽 以 上 各 位 , [HORSE 2.2 版 本 (不 超过 2.2.12) 
的 早期 内 核 则 不 然 。 其 后 的 2.2 内 核 又 回归 了 2.0 内 核 的 行为 一 一 造成 变化 的 无 论 是 超级 用 
户 还 是 其 他 用 户 ,系统 在 处 理 时 都 将 一 视 同仁 。( 但 若 以 root 登录 后 执行 chown(1) 命 令 来 改 
变 文 件 的 所 有 权 ， 则 chown 命令 会 在 调用 chown(2) 之 后 利用 系统 调用 chmod0 来 重新 激活 
set-user-ID 和 set-group-ID 位 。) 


如 果 文 件 组 的 属 主 或 属 组 发 生 了 改变 , 那么 set-user-ID 和 set-group-ID 权限 位 也 会 随 之 关 
财 。 这 一 安全 举措 是 为 了 防止 如 下 行为 : 普通 用 户 奉 能 打开 某 一 可 执行 文件 的 set-user-ID 
(或 set-group-ID) 位 ， 然 后 再 设法 令 其 为 菜 些 特权 级 用 户 ( 或 组 ) 所 拥有 ， 束 能 在 执行 该 文 
件 时 获得 特权 用 户 喘 份 。 
改变 文件 的 属 主 和 属 组 时 ， 如 果 已 然 屏 敬 了 属 组 的 可 执行 权限 位 ， 或 者 要 改变 的 是 目录 
的 所 有 权时 ， 那 么 将 不 会 屏蔽 set-group-ID 权限 位 。 在 上 述 两 种 情况 下 ，set-group-ID 位 的 用 
途 并 非 是 去 创建 一 个 局 用 了 set-group-ID 的 程序 ， 因 此 将 该 位 屏蔽 并 不 可 取 。set-group-ID 的 
Jf Ha P Br. 
e 耕 屏 获 了 属 组 的 可 执行 权限 位 , 则 可 利用 set-group-ID 权限 位 来 启用 强制 文件 锁定 (请 
Zu554 Wu). 
e 当 作 用 于 目录 时 ， 可 利用 set-group-ID. 位 来 控制 在 该 目 孙 下 创建 文件 的 所 有 权 《〈 见 
15.3.1 节 )。 
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程序 清单 15-2 演示 了 chown() 的 用 法 , 该 程序 允许 用 户 改 变 任意 数量 文件 (由 命令 行 参数 
指定 ) 的 属 主 和 属 组 。( 该 程序 使 用 程序 清单 8-1 中 的 userIdFromName0 和 groupIdFromName() 
为 数 ， 将 用 户 名 和 组 名 转换 为 相应 的 数字 ID。) 








程序 清单 15-2: 改变 文件 的 属 主 和 属 组 
files/t chown.c 


include «pwd.h» 

include «grp.h» 

#include "ugid functions.h" /* Declarations of userIdFromName() 
and groupIdFromName() */ 

#include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


uid t uid; 
gid t gid; 

int j; 

Boolean errFnd; 


if (argc < 3 || stremp(argv[1], "--help") == 0) 
usageErr("Xs owner group [file...]Wn" 


owner or group can be '-', 
"meaning leave unchangedNin", argv[0]); 


if (stremp(argv[1], "-") == 0) { /* "-" zz» don't change owner */ 
uid - -1; 
} else { /* Turn user name into UID */ 
uid = userIdFromName(argv[1]); 
if (uid == -1) 
fatal("No such user (%s)", argv[1]); 
} 
if (strcmp(argv[2], "-") == 0) { /* "-" zz» don't change group */ 
gid - -1; 
] else { /* Turn group name into GID */ 
gid = groupIdFromName(argv[2]); 
if (gid -= -1) 
fatal("No group user (%s)", argv[1]); 
} 


/* Change ownership of all files named in remaining arguments */ 
errFnd = FALSE; 
for (j = 3; j < argc; j++) t 
if (chown(argv[j], uid, gid) == -1) { 
errMsg("chown: Xs", argv[j]); 
errFnd - TRUE; 


j 


exit(errFnd ? EXIT FAILURE : EXIT SUCCESS); 


files/t chown.c 
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15.4 ”文件 权限 


本 节 将 介绍 应 用 于 文件 和 目录 的 权限 方案 。 尽 管 此 处 所 讨论 的 权限 主要 是 针对 普通 文件 
和 目录 ， 但 其 规则 可 适用 于 所 有 文件 类 型 ， 包 括 设备 文件 、FIFO 以 及 UNIX 域 套 接 字 等 。 此 
外 ，System V 和 POSIX 进程 间 通 信和 对象 〈 共 圣 内 存 、 信 与 量 和 消 恩 队列 ) 也 上 其 有 权限 掩 人 码 ， 
而 适用 于 此 类 对 和 象 的 权限 规则 也 与 文件 的 权限 规则 相关 似 。 


15.4.1 普通 文件 的 权限 


如 15.1 市 所 述 ，stat 结构 中 st mod 字段 的 低 12 位 定义 了 文件 权限 。 其 中 的 前 3 位 为 专用 
位 ， 分 别 是 set-user-ID 位 、set-group-ID 位 和 sticky 位 《在 图 15-1 中 分 别 被 标注 为 U、G、T 
位 )， 将 在 15.4.5 市 中 详细 介绍 。 其 余 9 位 则 构成 了 定义 权限 的 扒 码 ， 分 别 授 予 访问 文件 的 各 
类 用 户 。 文 件 权限 掩 码 分 为 3 类 。 

。 Owner CINE user): 授予 文件 属 主 的 权限 。 











chmod(1) 之 类 的 命令 使 用 术语 user 的 缩写 u 来 指 代 该 类 权限 。 


e Group: 授予 文件 属 组 成 员 用 户 的 权限 。 

e Other: 授予 其 他 用 户 的 权限 。 

可 为 每 一 类 用 户 授予 的 权限 如 下 上 所 示 。 

e Read: 可 阅读 文件 的 内 容 。 

e Write: 可 更 改 文件 的 内 容 。 

èe Execute: 可 以 执行 文件 〈 亦 即 ， 文 件 是 程序 或 脚本 )。 要 执行 脚本 文件 〈 比 如 ， 一 个 
bash 脚本 )， 需 同时 具备 谈 权 限 和 执行 权限 。 

执行 ls-1 命 令 ， 可 但 看 文件 的 权限 和 所 有 权 ， 如 下 所 示 : 


$ ls -1 myscript.sh 
-YWXI-X--- 1 mtk users 1667 Jan 15 09:22 myscript.sh 











在 以 上 输出 中 ， 将 文件 权限 显示 为 “rwxr-x---”( 该 字符 串 起 始 处 的 连接 号 “-” 表 明 该 文 
件 属 于 普通 文件 )。 在 解释 该 字符 串 时 ， 需 将 其 一 前 为 三 ， 以 3 个 字符 为 一 组 ， 分 别 表示 恋 、 
写 、 可 执行 权限 具备 与 否 。 第 一 组 字符 用 来 表示 文件 属 主 的 权限 ， 在 本 例 中 ， 则 是 谈 、 与 、 
执行 权限 俱全 。 第 二 组 字符 用 来 表示 属 组 权限 ， 对 于 本 例 ， 组 内 用 户 具 有 读 和 可 执行 权限 ， 
但 不 具有 写 权 限 。 最 后 一 组 字符 用 来 表示 其 他 用 户 的 权限 ， 本 例 中 的 其 他 用 户 没 有 任何 权限 。 

头 文件 <sys/stath> 定 义 了 可 与 stat 结构 中 st mode 相 与 〈 人 区 ) 的 常量 ， 用 于 检查 特定 权限 
位 置 位 与 个。(<fcntl.h> 为 open0 系 统 调 用 提供 了 原型 ， 在 程序 中 包 仿 该 头 文件 也 可 定义 这 些 
THE.) K 15-4 列 出 了 这 些 常量 。 






















































































表 15-4: 用 来 表示 文件 权限 位 的 常 


wl 


o ISUID Set-user-ID 


o ISGID Set-group-ID 
o ISVTX Sticky 
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o IRUSR User-read 
o IWUSR User-write 
o IXUSR User-execute 
o IRGRP Group-read 


o IWGRP Group-write 


o IXGRP Group-execute 
o IROTH Other-read 
o IWOTH Other-write 
o IXOTH Other-execute 








RE 15-4 所 列 常量 以 外 ， 还 分 别 将 各 类 ( 属 主 、 属 组 及 其 他 ) 权限 掩 码 定义 为 常量 : 
S IRWXU (0700), S IRWXG (070) 和 S IRWXO (07). 
程序 清单 15-3 声明 的 函数 filePermStr(), EINE ZG XE I FN R fi 38 [8] — ^ 516 2 BT 
字符 串 ， 以 (MRH HIE Dez dE 


程序 清单 15-3: file perms.c 文件 的 头 文件 





files/file perms.h 


#ifndef FILE PERMS H 
ildefine FILE PERMS H 


include <sys/types.h> 


#define FP SPECIAL 1 /* Include set-user-ID, set-group-ID, and sticky 
bit information in returned string */ 


char *filePermStr(mode t perm, int flags); 


#endif 
files/file perms.h 
如 果 在 filePermStr0 的 flag 参数 中 设置 了 FP SPECIAL 标记， 那么 返回 的 子 行 囊 将 包括 
set-user-ID、set-group-ID， 以 及 sticky 位 的 设置 信息 ， 其 表现 形式 同样 会 治 效 1s(1) 的 风格 。 
程序 清单 15-4 展示 了 filePermStr() 函 数 的 实现 。 程 序 清单 15-1 中 的 程序 调用 了 该 函数 。 


程序 清单 15-4: 将 文件 权限 掩 码 转 换 为 字符 忠 

















files/file perms.c 


#include «sys/stat.h» 
#include «stdio.h» 
#include "file perms.h" /* Interface for this implementation */ 


#define STR SIZE sizeof("rwxrwxrwx" 


char * /* Return 1s(1)-style string for file permissions mask */ 
filePermStr(mode t perm, int flags) 
i 


static char str[STR SIZE]; 
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snprintf(str, STR SIZE, "%c%c%c%c%c%c%c%c%c", 
(perm & S IRUSR) ? 'r' : '-', (perm & S IWUSR) ? 'w' : '-', 
(perm & S IXUSR) ? 
(((perm & S ISUID) 8& (flags & FP SPECIAL)) ? 's' : 'x') : 
(((perm & S ISUID) 8& (flags & FP SPECIAL)) ? 'S' : '-'), 
(perm & S IRGRP) ? 'r' : '-', (perm & S INGRP) ? 'w' : '-', 
(perm & S IXGRP) ? 
(((perm & S ISGID) 8& (flags & FP SPECIAL)) ? 's' : 'x') : 
(((perm & S ISGID) 8& (flags & FP SPECIAL)) ? 'S' : '-'), 
(perm & S IROTH) ? 'r' : '-', (perm & S IWOTH) ? 'w' : '-', 
(perm & S IXOTH) ? 
(((perm & S ISVTX) 8& (flags & FP SPECIAL)) ? 't' : 'x') : 
(((perm & S ISVTX) 8& (flags & FP SPECIAL)) ? 'T' : '-")); 


return str; 
} 


files/file perms.c 


15.4. ”目录 权限 


目录 与 文件 拥有 相同 的 权限 方案 ， 只 是 对 3 种 权限 的 含义 态 有 所 指 。 
e im: 可 列 出 《比如 ， 通 过 ls 命令 ) 目录 之 下 的 内 容 《〈 即 目录 下 的 文件 名 )。 

















在 实验 验证 对 目录 读 权 限 位 的 操作 时 , 应 当 了 解 有 些 Linux ITWA Is 做 了 列 名 处 理 ， 
命令 所 携带 的 一 些 选项 (比如 ，-F) 需要 访问 目录 中 文件 的 i 市 扩 信 息 ， 而 这 叉 需 要 拥有 对 
目录 的 执行 权限 。 为 确保 使 用 的 是 ls 命令 本 吴 , 执行 时 要 给 出 命令 的 完整 路 径 名 Cbin/ls). 


























e GNR: 可 在 目录 内 创建 、 删 除 文 件 。 注意 ,要 删除 文件 ， 对 文件 本 身 无 需 有 任何 权限 。 
e 可 执行 权限 : 可 访问 目录 中 的 文件 。 因 此 , 有 时 也 将 对 目录 的 执行 权限 称 为 search GR 
R) 权限 。 

访问 文件 时 , 需要 拥有 对 路 径 名 所 列 所 有 目录 的 执行 权限 。 例 如 , 想 读 取 文件 /home/mtk/x， 
则 需 拥 有 对 目录 /、/home 以 及 /home/mtk 的 执行 权限 (还 要 有 对 文件 x BETIS. 5 
Bf IJ E E H 3& 2g /home/mtk/subl, dj] 4H XJ E 1$ 44 ../sub2/x HT, 551€ /home/mtk 和 
/home/mtk/sub2 这 两 个 目录 的 可 执行 权限 (不 必 有 对 /或 /home 的 执行 权限 )。 

拥有 对 目录 的 读 权 限 ， 用 户 只 是 能 查看 目录 中 的 文件 列表 。 要 想 访问 目录 内 文件 的 内 容 
或 是 这 些 文件 的 i 节点 信息 ， 还 需 握 有 对 目录 的 执行 权限 。 

有 反之， 奇 拥有 对 目录 的 可 执行 权限 ， 而 无 读 权 限 ， 只 要 知道 目录 内 文件 的 名 称 ， 仍 可 对 
其 进行 访问 ， 但 不 能 列 出 目录 下 的 内 容 ( 即 目录 所 含 的 其 他 文件 名 )。 在 控制 对 公共 目录 内 容 
的 访问 时 ， 这 是 一 种 常用 技术 ， 人 简单 而 且 实 用 。 

要 想 在 目录 中 添 加 或 删除 文件 ， 需 要 同时 拥有 对 该 目录 的 执行 和 写 权 限 。 


15.4.8 ”权限 检查 算法 

只 要 在 访问 文件 或 目录 的 系统 调用 中 指定 了 路 径 名 称 ， 内 核 就 会 检查 相应 文件 的 权限 。 
如 果 赋 予 系 统 调用 的 路 径 名 还 包含 目录 前 缀 时 ， 那 么 内 核 除去 会 检查 对 文件 本 身 所 需 的 权限 
以 外 ， 还 会 检查 前 级 所 含 每 个 目录 的 可 执行 权限 。 内 核 会 使 用 进程 的 有 效用 户 ID、 有 效 组 ID 
以 及 辅助 组 ID， 来 执行 权限 检查 。( 准 确 说 来 ，Linux 内 核 会 使 用 文件 系统 用 户 ID 和 组 ID, 
而 非 相应 的 有 效用 户 ID 和 组 ID， 来 进行 文件 权限 检查 ， 这 一 点 9.5 节 已 经 提 及 。) 
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一 旦 调用 open0 打 开 了 文件 ， 针 对 返回 描述 符 的 后 续 系 统 调 用 《〈 比 如 ，read0、writeO、 
fstat(), fentl), LÆ mmapO) 将 不 再 进行 任何 权限 检 醋 。 


检查 文件 权限 时 ， 内 核 所 遵循 的 规则 如 下 。 

1. 对 于 特权 级 进程 ， 授 予 其 万 有 访问 权限 。 

2. 奋进 程 的 有 效用 户 ID 与 文件 的 用 户 ID ORE) 相同 ， 内 核 会 根据 文件 的 属 主 权限 ， 授 予 
进程 相应 的 访问 权限 。 比 方 说 ， 硅 文件 权限 掩 人 码 中 的 属 主 读 权 限 Cowner-read permission) 
位 被 置 位 ， 则 授予 进程 谈 权 限 。 人 否则 ， 则 拒绝 进程 对 文件 的 谈 取 操作 。 

3. 奋进 程 的 有 效 组 ID. 或 任 一 附属 组 ID 与 文件 的 组 ID“〈 属 组 ) 相 匹 配 ， 内 核 会 根据 文件 的 
属 组 权限 ， 授 予 进程 对 文件 的 相应 访问 权限 。 

4， 知 以 上 三 点 篆 不 满足 ， 内 核 会 根据 文件 的 other( 其 他 ) 权 限 ， 授 予 进程 相应 权限 。 











其 实 ， 内 核 代 人 码 在 实现 上 述 检查 规则 时 ， 在 构造 上 也 丰 具 匠心 。 只 有 当 进 程 通 过 其 他 
训 试 未 能 获得 所 需要 的 权限 时 ， 才 去 检查 进程 是 个 属于 特权 级 进程 。 这 就 省 去 了 对 ASU 进 
程 记 账 标 意 的 设置 ， 该 标 意 用 于 标记 进程 是 含 曾 利用 过 超级 用 户 特权 《〈 见 28.1 T1. 





























内 核 会 依次 执行 针对 属 主 、 属 组 以 及 其 他 用 户 的 权限 检查 ， 只 要 匹配 上 述 检查 规则 之 一 ， 
便 会 堡 止 检查 。 这 样 得 出 的 结 末 可 能 会 在 意料 之 外 ， 比 方 说 ， 奉 组 权限 超过 了 属 主权 限 ， 那 
么 文件 属 主 所 拥有 的 权限 要 低 于 组 成 员 的 权限 ， 如 下 例 所 示 : 


$ echo 'Hello world' > a.txt 














$ ls -l a.txt 

-YW-I--Ir-- 1 mtk users 12 Jun 18 12:26 a.txt 

$ chmod u-rw a.txt Remove read and write permission from owner 
$ ls -l a.txt 

----Y--r-- 1 mtk users 12 Jun 18 12:26 a.txt 

$ cat a.txt 

Cat: a.txt: Permission denied Owner can no longer read file 

$ su avr Become someone else... 

Password: 

$ groups who is in the group owning the file... 
users staff teach cs 

$ cat a.txt and thus can read the file 


Hello world 


FN XCTE TS] JC RU JP 2 BOIS KT OCT ES HE BU 2H, ERER IRI REX o 

由 于 文件 的 权限 及 所 有 权 信 息 邦 维护 于 文件 的 i 市 点 之 内 ， 故 而 也 为 指 问 同一 1 市 反 的 所 
有 文件 名 链接 〉 所 共享 。 

Linux2.6 支持 访问 控制 列表 , 从 而 可 以 以 每 用 户 或 每 组 为 基础 来 定义 文件 权限 OCT 
一 ACL 挂 钓 ， 内 核 则 会 在 上 述 算法 的 基础 上 略 作 改动 。 本 书 第 17 革 将 会 介绍 ACL。 


检查 特权 级 别 进程 的 权限 

上 上 文 兽 握 及 ， 知 进程 为 特权 级 进程 ， 则 内 核 在 检查 权限 时 将 授予 进程 毛 有 的 访问 权限 。 
这 一 论述 成 立 ， 其 实 还 要 加 个 限制 条 件 。 对 于 非 目 录 文 件 ， 仅 当 该 文件 的 3 种 权限 类 型 (全 
少 ) 之 一 具有 可 执行 权限 时 ，Linux 才 会 将 该 权限 赋予 一 特权 级 进程 。 而 在 其 他 一 些 UNIX 的 
实行 中 ， 即 使 文件 的 任何 权限 类 型 部 不 共有 可 执行 权限 ， 特 权 级 进程 还 是 能 执行 该 文件 。 而 
当 访 问 目录 时 ， 特 权 级 进程 总 是 拥有 可 执行 《搜索 ) BUR. 
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就 两 种 Linux 进程 能 力 : CAP DAC READ SEARCH 和 CAP DAC OVERRIDE (参见 
39.2 节 ) 而 言 ， 有 必要 修改 之 前 对 特权 级 进程 的 描述 。 具备 CAP DAC READ SEARCH 能 
力 的 进程 对 任何 类 型 的 文件 都 拥有 读 权 限 ， 对 于 目录 则 总 是 具有 可 执行 和 写 权限 ( 即 总 能 
访问 目录 中 的 文件 ， 并 能 读 取 目录 中 的 文件 列表 )。 具 备 CAP DAC OVERRIDE 能 力 的 进 
程 对 任何 类 型 的 文件 都 拥有 读 、 写 权限 ， 对 于 目录 或 是 文件 在 权限 分 类 中 的 至 少 一 类 具有 
可 执行 权限 的 情况 下 ， 则 该 进程 对 其 还 拥有 可 执行 权限 。 








15.4.4 ”检查 对 文件 的 访问 权限 access) 


如 上 市 所 述 ， 当 进程 访问 文件 时 ， 系 统 会 以 其 effective( 有 效 ) 用 户 ID. effective f 2302H 
ID 以 及 附属 组 ID 来 确定 权限 。 当 然 ， 对 于 程序 (比如 ，set-user-ID 或 set-group-ID 程序 ) 来 
说 ， 根 据 进程 的 real《〈 真 实 ) 用 户 ID 和 组 ID 来 检查 对 文件 的 访问 权限 ， 也 并 非 没有 可 能。 

系统 调用 accessO 隐 是 根据 进程 的 芮 实用 户 ID 和 组 D (以 及 附属 组 ID)， 去 检查 对 
pathname 参数 所 指定 文件 的 访问 权限 。 








#include «unistd.h» 


int access(const char *pathname, int mode); 





Returns 0 if all permissions are granted, otherwise -1 








fr pathname 为 符号 链接 ，accessO 将 对 其 解 引 用 。 

参数 mode 是 由 表 15-5 中 常量 相 或 CD T EX rd. fidi pathname 所 指定 的 文件 具备 
mode 参数 包含 的 所 有 权限 , access() 将 返回 0; 只 要 有 一 项 权限 未 得 到 满足 (或 者 有 错误 发 生 )， 
accessO 则 返回 -1 。 


表 15-5: access() 的 mode 常量 


有 这 个 文件 吗 





对 该 文件 有 该 权限 吗 
对 该 文件 有 写 权 限 吗 
对 该 文件 有 执行 权限 吗 











由 于 对 某 一 文件 调用 accessO 与 对 同一 文件 的 后 续 操 作 之 间 存 在 时 间 差 ， 因 此 【不 论 间 陋 
多 么 短暂 ) 执行 后 续 操 作 时 ， 也 无 法 保证 在 对 文件 的 后 续 操 作 时 由 accessO 所 返回 的 信息 依然 
正确 。 在 某 些 应 用 程序 设计 中 ， 上 述 情形 可 能 会 导致 安全 漏洞 。 

比方 说 ,假设 有 一 set-user-ID-root 程序 ， 使 用 access() 来 检查 程序 的 真实 用 户 id 是 否 可 以 
访问 某 文 件 ， 如 果 可 以 访问 ， 束 对 其 执行 (open0 〇 或 exec0 之 类 的 ) 操 作 。 

问题 是 ， 若 输入 accessO 的 路 径 名 为 符号 链接 ， 而 恶意 用 户 可 抢 在 第 二 步 检 查 之 六 设法 更 
改 该 链接 ， 使 其 指 癌 另 一 文件 ， 则 最 终 会 导致 set-user-ID-root 去 操作 真实 用 户 ID 并 无 权限 的 
文件 。( 这 也 是 对 38.6 节 所 述 检查 时 间 与 调用 时 间 之 间 竞 争 条 件 的 例证 。) 正 因 如 此 ， 建 议 杜 
绝 使 用 accessO( 参 见 [Borisov，2005])。 对 于 前 文 所 举 示 例 ， 可 以 暂时 更 改 setruser-ID 进程 的 
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有 效 〈 或 文件 系统 ) HP ID 来 实施 Copen0zk exec0zZ RA) 文件 操作 ， 并 通过 对 返回 值 和 
errno 的 检查 来 判断 ， 操 作 失 败 是 否 应 归 答 于 权限 问题 。 





GNU C 库 提 供 了 一 个 功能 相似 的 非 标准 函数 euidaccess() (AILE X AZt eaccess())， 
该 函数 使 用 进程 的 有 效用 户 ID 来 检查 对 文件 的 访问 权限 。 





15.4.5 Set-User-ID, Set-Group-ID 和 Sticky 位 


除了 9 位 用 来 表明 属 主 、 属 组 和 其 他 用 户 的 权限 之 外 ， 文 件 权 限 掩 人 码 还 男 设 有 3 个 附加 
位 ， 分 别 为 set-user-ID (bit 04000), set-group-ID (bit 02000) 和 sticky (bit 01000) 位 。9.3 节 讨 论 
了 创建 特权 级 程序 时 对 set-user-ID 和 set-group-ID 权限 位 的 使 用 。set-group-ID 位 还 有 两 种 其 
他 用 途 : 对 于 在 以 nogrpid 选项 装配 的 目录 下 所 狐 建 的 文件 ， 控 制 其 群 组 从 属 关 系 ; 可 用 于 强 
制 锁定 文件 。 以 上 两 种 用 途 分 别 在 15.3.1 节 和 55.4 节 有 所 介绍 。 本 节 将 重点 讨论 sticky 位 的 
用 途 。 

在 老 的 UNIX 实现 中 , 提供 sticky 位 的 目的 在 于 让 常用 程序 的 运行 速度 更 快 。 TESI ERUIT 
文件 设置 了 sticky 位 ， 则 首次 执行 程序 时 ， 系 统 会 将 其 文本 拷贝 保存 于 交换 区 中 ， 即 “ 粘 ” 
(stick). 在 交换 区 内 ， 故 而 能 提高 后 续 执行 的 加 载 速 度 。 现 代 UNIX 实现 对 内 存 的 管理 更 为 精 
; 准 ， 故 而 也 将 权限 位 的 这 一 用 法 束之高阁 。 
































表 15-4 所 示 Sticky 权限 位 的 稼 量 名 称 一 SISVTX 源 于 对 sticky 位 的 别称 : saved-text 位 。 


在 现代 UNIX 实现 (包括 Linux) HP, sticky XR POETE HI ASTA SIBI T AER UNIX K 
现 。 作 用 于 目录 时 ，sticky 权限 位 起 限制 删除 位 的 作用 。 为 目录 设置 该 位 ， 则 表明 仅 当 非特 权 
进程 具有 对 目录 的 写 权 限 , 且 为 文件 或 目录 的 属 主 时 , 才能 对 目录 下 的 文件 进行 删除 CunlinkO、 
rmdir()) MEMZ (rename) ) HE. CHA CAP. FOWNER 能 力 的 进程 可 省 去 对 属 主 的 检查 。) 
可 厌 此 机 制 来 创建 为 多 个 用 户 共 旦 的 一 个 目录 ， 各 个 用 户 可 在 其 下 创建 或 删除 属于 目 己 的 文 
件 ， 但 不 能 删除 隶属 于 其 他 用 户 的 文件 。 为 /tmp 目录 设置 sticky 权限 位 ， 原 因 正 在 于 此 。 

可 通过 chmod 命令 (chmod +t file) 或 chmodO 系 统 调用 来 设置 文件 的 sticky 权限 位 。 若 对 
某 文 件 设 置 了 sticky 权限 位 ， 则 当 执 行 I- 命令 显示 该 文件 时 ,会 在 其 他 用 户 执 行 权限 学 段 
上 看 到 学 母 T， 其 大 小 号 则 要 取决 于 是 否 对 文件 开 司 了 其 他 用 户 执行 权限 位 ， 如 下 所 示 : 

$ touch tfile 

$ ls -1 tfile 

-IW-I--Y-- 1 mtk users 0 Jun 23 14:44 tfile 

$ chmod +t tfile 

$ ls -1 tfile 

-rw-r--r-T 1 mtk users 0 Jun 23 14:44 tfile 

$ chmod o+x tfile 


$ ls -1 tfile 
-rw-r--r-t 1 mtk users O Jun 23 14:44 tfile 


15.4.6 ”进程 的 文件 模式 创建 掩 码 : umask() 


本 市 将 针对 新 建文 件 或 目录 的 权限 设置 展开 深入 讨论 。 对 于 狐 建 文件 ， 内 核 会 使 用 openO 
或 creat() 中 mode 参数 所 指定 的 权限 。 对 于 新 建 目 录 ， 则 会 根据 mkdir() 的 mode 参数 来 设置 权 









































1 译 者 注 : 段 。 
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限 。 然 而 ， 文 件 模 式 创建 掩 码 〈 简 称 为 umask) 会 对 这 些 设 置 进 行 修 改 。umask 是 一 种 进程 属 
性 ， 当 进程 新 建文 件 或 目录 时 ， 访 属性 用 于 指明 应 屏蔽 哪些 权限 位 。 

进程 的 umask 通常 继承 自 其 父 shell， 其 结果 往往 正如 人 们 所 期 户 的 那样 : 用 户 可 以 使 用 
shell 的 内 置 命 令 umask 来 改变 shell 进程 的 umask， 从 而 控制 在 shell 下 运行 程序 的 umask. 

大 多 数 shell 的 初始 化 文件 会 将 umask 默认 置 为 八进制 值 022 (----w--w-)。 其 含义 为 对 于 
同 组 或 其 他 用 户 ， 应 总 是 屏蔽 写 权 限 。 因 此 ,假定 open0 调 用 中 的 mode 参数 为 0666〈 即 令 所 
有 用 户 享 有 读 、 写 权限 ， 通 常 如 此 )， 那 么 对 新 建文 件 来 说 ， 其 属 主 拥 有 读 、 写 权限 ， 所 有 其 
他 用 户 只 具有 读 权 限 〈( 针 对 文件 执行 I- 命令 ， 会 显示 “rw-r--r 一 ”)。 同 理 ， 假 定 将 mkdir( 
的 mode 参数 指定 为 0777( 即 所 有 用 户 召 有 所 有 权限 )， 那 么 对 于 狐 建 目录 来 襄 ， 其 属 主 享有 
所 有 权限 ， 同 组 和 其 他 用 户 则 只 拥有 读 取 和 执行 权限 ( 即 rwxr-xr-x)。 

系统 调用 umask() 将 进程 的 umask 改变 为 mask 参数 所 指定 的 值 。 












































#include «sys/stat.h» 


mode t umask(mode t mask); 


Always successfully returns the previous process umask 








可 以 以 八进制 数 或 是 表 15-4 中 所 列 常量 相 或 CD 来 指定 mask 参数 。 
对 umaskO 的 调用 总 会 成 功 ， 并 返回 进程 的 前 一 umask。 
程序 清单 15-5 演示 了 umask0 与 open0 和 mkdir0 的 相互 配合 。 运 行 该 程序 的 结果 如 下 : 





$ ./t umask 

Requested file perms: rw-rw---- This is what we asked for 
Process umask: ----WX-WX This is what we are denied 
Actual file perms: IW-I----- So this is what we end up with 


Requested dir. perms: rwXrwxrwx 
Process umask: ----WX-WX 
Actual dir. perms: IWXI--rI-- 


程序 清单 15-5 使 用 mkdir0 和 rmdirO 系 统 调用 来 创建 和 删除 目录 ， 使 用 unlinkO 系 统 调 
用 来 删除 文件 。 以 上 系统 调用 将 在 第 18 章 再 做 讲解 。 


程序 清单 15-5. 使 用 umask0 


files/t umask.c 
include «sys/stat.h» 
include «fcntl.h» 
include "file perms.h" 
#include "tlpi hdr.h" 


#define MYFILE "myfile" 

define MYDIR  "mydir" 

#define FILE PERMS (S IRUSR | S IWUSR | S IRGRP | S IWGRP) 
itdefine DIR PERMS (S IRWXU | S IRWXG | S IRWXO) 

itdefine UMASK SETTING (S IWGRP | S IXGRP | S IWOTH | S IXOTH) 


int 
main(int argc, char *argv[]) 
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int fd; 
struct stat sb; 
mode t u; 


umask(UMASK SETTING); 


fd - open(MYFILE, O RDWR | O CREAT | O EXCL, FILE PERMS); 


if (fd -- -1) 
errExit("open-Xs", MYFILE); 
if (mkdir(MYDIR, DIR PERMS) == -1) 
errExit("mkdir-/s", MYDIR); 
u - umask(0); /* Retrieves (and clears) umask value */ 
if (stat(MYFILE, &sb) == -1) 


errExit("stat-Zs", MYFILE); 
printf("Requested file perms: %s\n", filePermStr(FILE PERMS, 0)); 


printf("Process umask: %s\n", filePermStr(u, 0)); 
printf("Actual file perms: %s\n\n", filePermStr(sb.st mode, 0)); 
if (stat(MYDIR, &sb) == -1) 


errExit("stat-Xs", MYDIR); 
printf("Requested dir. perms: %s\n", filePermStr(DIR PERMS, 0)); 
printf("Process umask: %s\n", filePermStr(u, 0)); 
printf("Actual dir. perms: %s\n", filePermStr(sb.st mode, 0)); 


if (unlink(MYFILE) -- -1) 
errMsg("unlink-9s", MYFILE); 
if (rmdir(MYDIR) == -1) 
errMsg("rmdir-AXs", MYDIR); 
exit(EXIT SUCCESS); 


files/t umask.c 


15.4.7 更 改 文件 权限 : chmod() 和 fchmod() 
可 利用 系统 调用 chmod0 和 fchmod0 去 修改 文件 权限 。 





#include «sys/stat.h» 
int chmod(const char *pathname, mode t mode); 


#define XOPEN SOURCE 500 /* Or: #define BSD SOURCE */ 
#include «sys/stat.h» 


int fchmod(int fd, mode t mode); 


Both return 0 on success, or -1 on error 








系统 调用 chmodO0 更 改 由 pathname SAIRE PFR. PASAUTE NIT Sr BEBE 
调用 chmod0 会 改变 符号 链接 所 指 代 文 件 的 访问 权限 ， 而 非 对 符 写 链接 目 映 的 访问 权限 。( 符 
写 链 接 日 创建 起 ， 其 所 有 权限 便 为 所 有 用 户 共 至， 且 这 些 权限 也 不 得 更 改 。 对 符 写 链接 解 引 
用 时 ， 将 忽略 所 有 这 些 权限 。) 

系统 调用 fchmodO 更 改 由 打开 文件 描述 符 fd. 所 指 代 文件 的 权限 。 

参数 mode 用 于 描述 文件 的 新 权限 ， 可 以 采用 八进制 数字 形式 ， 外 或 是 由 表 15-4 所 列 权 
限 位 相 或 “|) 而 成 的 掩 码 。 要 想 更 改 文 件 权 限 ， 进 程 要 么 具有 特权 级 别 〈CAP_FOWNER )， 
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要 么 其 有 效用 户 ID 于 文件 的 用 户 ID. Og? WL. EMAR, XF Linux 系统 上 的 非特 
权 级 进程 ， 需 与 文件 用 户 ID 相 匹 配 的 是 进程 的 文件 系统 用 户 ID， 而 非 其 有 效用 户 ID， 如 9.5 
PR. ) 

BAFRA RR N BEBUH HP DURCH SOROR, AATA FRH: 

if (chmod("myfile", S IRUSR | S IRGRP | S IROTH) == -1) 

errExit(" chmod"); 

/* Or equivalently: chmod("myfile", 0444); */ 

要 修改 文件 的 特定 权限 位 ， 需 先 调用 stat0 来 获取 文件 的 现 有 权限 ， 调 整 想 修改 的 权限 位 ， 
然后 使 用 chmod() 去 更 新 权限 。 


struct stat sb; 
mode t mode; 











if (stat("myfile", &sb) == -1) 
errExit("stat"); 
mode = (sb.st mode | S IWUSR) & ~S IROTH; 
/* owner-write on, other-read off, remaining bits unchanged */ 
if (chmod("myfile", mode) -- -1) 
errExit("chmod"); 
执行 以 上 代码 ， 等 价 于 执行 如 下 shell 命令 : 
$ chmod u*w,o-r myfile 
153.1 HIER. 4 HoR3ERIL T UI - o bsdgroups 选项 疫 配 的 ext2 文件 系统 之 上 ， 或 是 
驻 留 于 以 - o sysvgroups EMRAH ext2 文件 系统 上 ， 并 且 开 局 了 该 目录 的 set-group-ID 权限 
位 ， 那 么 在 该 日 录 下 狐 建 的 文件 会 继承 其 父 日 录 〈 而 非 文 件 创建 进程 的 有 效 组 ID〉 的 组 所 有 
权 。 可 能 会 出 现 这 样 一 种 情况 ， 即 文件 的 组 ID 与 创建 文件 进程 的 任 一 组 ID 都 不 匹配 。 正 因 
如 此 ， 当 非特 权 级 〈 不 具备 CAP FSETID 能 力 的 ) 进程 调用 chmod() (或 fchmod0)) 时 ， 夯 文件 
的 组 ID 不 等 于 进程 的 有 效 组 ID 或 是 任 一 辅助 组 ID， 内 核 则 总 是 清除 文件 的 set-group-ID 权 
限 位 。 这 一 安全 举措 意 在 防止 用 户 为 其 不 隶属 的 组 创建 set-group-ID 程序 。 以 下 shell 命令 演 
示 了 上 述 安全 撞 施 所 堵 住 的 安全 漏洞 。 


























$ mount | grep test Hmmm, /test is mounted with -0 bsdgroups 
/dev/sda9 on /test type ext3 (rw,bsdgroups) 

$ ls -ld /test Directory has GID root, writable by anyone 
drwxrwxrwx 3 root root 4096 Jun 30 20:11 /test 

$ id I'm an ordinary user, not part of root group 
uid-1000(mtk) gid-100(users) groups-100(users),101(staff),104(teach) 

$ cd /test 

$ cp ^/myprog . Copy some mischievous program here 

$ ls -l myprog Hey! It’s in the root group! 

-IWXI-Xr-X 1 mtk root 19684 Jun 30 20:43 myprog 

$ chmod g+s myprog Can I make it set-group-ID to root? 

$ ls -l myprog Hmm, no... 


-IWXI-Xr-X 1 mtk root 19684 Jun 30 20:43 myprog 


15.5 i 节点 标志 (ext2 扩展 文件 属性 ) 


KE Linux 文件 系统 允许 为 文件 和 目录 设置 各 种 各 样 的 i-node flags(I RERE). ARPE 
古 一 种 非 标准 的 Linux 扩展 功能 。 
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现代 BSD 支持 类 似 于 I 市 把 标记 的 特性 ， 使 用 chflags(1) 81 chflags(2) 加 以 设置 。 


ext2 是 首 个 支持 i 节点 标志 的 Linux 文件 系统 ， 有 时 人 们 也 将 这 些 标志 称 为 ext2 扩展 文 
件 必 性。 随后， 其 他 文件 系统 ， 诸 如 Btrfs 、ext3、ext4、Reiserfs ( H Linux 2.4.19 起 )、XFS 
(É Linux 2.4.25 4 2.6 à) DA JFS C EI Linux 2.6.17 E), 也 纷纷 加 入 对 i 节点 标志 的 支持 。 


各 种 文件 系统 对 i 贡 点 标志 的 支持 犯 围 略 有 不 同 。 要 在 Reiserfs 文件 系统 上 使 用 I 市 点 
标志 ， 需 在 装配 文件 系统 时 禹 上 -0o attrs 选项 。 


在 shell 中 ， 可 通过 执行 chattr 和 Isattr 命令 来 设置 和 查看 i1 方 点 标志 ， 如 下 例 所 示 : 


$ lsattr myfile 

-------- myfile 

$ chattr +ai myfile Turn on Append Only and Immutable flags 

$ lsattr myfile 

----ia-- myfile 

在 程序 中 ， 可 利用 ioctl Z8 Zt VS FIOR GABORE DIT a AR A APER 

AENEA FER H RHA E i E KEA E e e DCLEXIL OCT TE BJ, UU P 
MIIR CREO 目录 使 用 。 表 15-6 对 于 所 文 持 的 i TRE TE S A, ER S ETH 
ioctl0 时 所 使 用 的 相应 标志 名 称 ( 定 义 于 <linux/fs.h> 中 ), 以 及 配合 chattr 命令 使 用 的 选项 学 母 。 


表 15-6: i 节点 标记 





























Chattr 选项 
FS APPEND FL 仅 能 在 尾部 退 加 《需要 特权 ) 
FS_COMPR_FL 启用 文件 压缩 〈 未 实现 ) 
FS DIRSYNC FL 目录 更 新 则 步 〈 自 Linux 2.6 起 ) 
FS IMMUTABLE FL i 不 可 变更 (需要 特权 )》 
FS JOURNAL DATA FL 针对 数据 启用 日 志 功 能 (需要 特权 ) 











FS NOATIME FL 不 更 新 文件 的 上 次 访问 时 间 

FS_NODUMP_FL 不 转 储 

FS_NOTAIL_FL 禁用 尾部 打包 
FS SECRM FL 安全 删除 〈 未 实现 ) 
FS SYNC FL 文件 《和 目录 ) 同步 更 新 

FS TOPDIR FL 以 Orlov 策略 来 处 理 顶 层 目录 ( 自 Linux 2.6 起 ) 
FS_UNRM_FL 可 恢复 已 删除 的 文件 (未 实现 ) 























Linux 2.6.19 之 前 ，<linux/fs.h> 尚 未 定义 表 15-6 所 列 的 FS 系列 常量 。 相 反 ， 针 对 各 
种 文件 系统 有 一 套 专 门 的 头 文 件 ， 将 相同 值 定 义 为 各 文件 系统 所 专 有 的 常量 名 。 因 此 ， 
同一 值 在 ext2 文件 系统 中 被 定义 为 <linux/ext2 fs.h> 内 的 EXT2 APPEND FL, 在 Reiserfs 
文件 系统 中 被 定义 为 <linux/reiser fs.h> 内 的 REISERFS APPEND FL， 其 他 文件 系统 以 此 
类 推 。 由 于 每 种 文件 系统 的 头 文件 将 相同 的 值 定义 为 相应 常量 , 因此 在 不 提供 <linux/fs.h> 
定义 的 老 系统 中 ， 可 以 包含 上 述 任 一 类 型 的 头 文 件 ， 并 使 用 各 文件 系统 所 专 有 的 名 称 。 
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FL 系列 变量 及 其 含义 如 下 所 未 
FS_APPEND_FL 
仅 当 指 定 O_APPEND 标记 时 ， 方 能 打开 文件 并 写 入 。( 因 而 迫使 所 有 对 文件 的 更 新 部 退 


加 到 文件 尾部 。) 例如 ， 可 以 用 该 标志 来 写 入 日 志文 件 。 只 有 特权 级 进程 (其 备 
CAP LINUX IMMUTABLE 能 力 ) 方 可 设置 该 标志 。 











FS COMPR FL 

文件 内 容 经 压缩 后 存储 于 磁盘 之 上 。 在 主流 的 纯 Linux 文件 系统 上 ，FS_COMPR FL 不 
属于 标 配 特性 。( 有 软件 包 针 为 ext2 和 ext3 文件 系统 实现 了 该 特性 。) 考虑 到 磁盘 存储 的 低廉 
Ws. ELACHSSRORUE HS RERA CPU 开销 ， 再 加 之 一 旦 将 文件 压缩 起 来 ， 对 其 内 容 的 随 
机 访问 也 不 会 像 原来 那么 随心 所 欲 〈 通 过 lseek0)， 故 而 许多 应 用 都 会 对 此 避 之 不 及 。 
FS_DIRSYNC_FL (B Linux 2.6 以 后 ) 

使 得 对 目录 的 更 新 〈 例 如 : open(pathname，O_CREAT)、link0、unlink0、mkdirO) 同 步 发 
生 。 这 类 似 于 13.3 下 所 述 的 文件 同步 更 新 机 制 。 同 样 ， 目 录 同 步 更 新 也 存在 性 能 问题 。 这 一 
设置 可 以 只 应 用 于 目录 。(14.8.1 PTRA MS DIRSYNC itir telk RUJ fe, MEE 
针对 每 个 装配 而 言 的 。) 
FS IMMUTABLE FL 

将 文件 设置 为 不 可 更 改 ， 既 不 能 更 新 文件 数据 〈writeO0 和 truncate0 )， 也 不 能 改变 文 
件 元 数据 (CBU chmodO. chown(). unlink(). link, rename), rmdir(), utime(). setxattr() 
和 removexattr()) 只 有 特权 级 进程 《具备 CAP. LINUX IMMUTABLE 能 力 的 进程 ) 可 为 文 
件 设置 这 一 标志 。 访 标志 一 旦 设 定 ， 即 便 是 特权 级 进程 也 无 法 改变 文件 的 内 容 或 元 数据 。 
FS JOURNAL DATA FL 

对 数据 局 用 日 志 功 能 。 只 有 ext3 和 ext4 文件 系统 才 文 持 该 标 关 。 这 些 文 件 系 统 提供 3 种 
层次 的 日 志 记 录 : journal CHE), ordered (HEF), DAK writeback《〈 回 写 )。 所 有 模式 都 会 记 
录 对 文件 元 数据 的 更 新 ， 而 journal (日 志 ) 模式 额外 还 记录 了 对 文件 数据 的 变更 。 而 在 以 排 
序 或 回 写 模式 运行 日 六 功 能 的 文件 系统 上 ， 特 权 级 〈 具 有 CAP. SYS RESOURCE 能 力 的 ) 进 
程 可 以 为 单个 文件 设置 此 标 关 ， 从 而 局 用 对 该 文件 数据 更 新 的 日 六 功能 。(mount(8) 手 册页 描 
述 了 排序 与 回 写 两 模式 之 则 的 区 别 。) 


FS NOATIME FL 


访问 文件 时 不 更 新 文件 的 上 次 访问 时 间 。 这 省 去 了 每 次 访问 文件 时 对 I 市 点 的 更 新 ， 故 而 
改进 了 VO 性 能 。( 参 见 14.8.1 节 介 绍 MS NOATIME 标志 的 内 容 。) 







































































FS NODUMP FL 

在 使 用 dump(8) 备 份 系统 时 跳 过 具有 此 标志 的 文件 。 正 如 dump(8) 手 册页 所 载 ， 访 标志 
效 与 否 取决 于 此 命令 的 -h 选项 。 
FS_NOTAIL_FL 

从 用 尾部 打包 。 只 有 Reiserfs 文件 系统 才 文 持 该 标志 。 此 标志 屏蔽 了 Reiserfs 的 尾音 
打包 特性 ， 即 答 试 将 小 文件 《或 是 较 大 文件 的 最 后 一 段 ) 与 其 元 数据 置 于 同一 磁盘 块 中 。 
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"KHU Reiserfs 文件 系统 时 ，mount 如 市 有 -0 notail 选项 将 对 整个 文件 系统 葵 用 尾部 打包 。 


FS_SECRM_FL 

安全 删除 文件 。 该 特性 尚未 实现 ， 其 用 意 在 于 删除 文件 时 能 够 万 无 一 失 ， 将 被 删除 文件 
的 数据 获 兰 掉 ， 以 免 磁盘 扫 摘 程序 能 够 谈 取 并 重建 该 文件 。( 要 做 到 对 数据 真正 的 安全 删除 其 
实 碳 为 复杂。 要 想 稳 妥 地 “ 抹 去 ”先前 记录 的 数据 ， 需 要 在 磁盘 介质 上 执行 多 次 写 入 操作 ， 
iE [Gutmann, 1996].) 




















FS SYNC FL 

令 对 文件 的 更 新 保持 同步 。 当 应 用 于 文件 时 ， 该 标志 将 致使 对 文件 的 写 入 操作 同步 完成 
(了 驶 好 像 对 广 文 件 执行 的 所 有 openO 调 用 都 引用 了 O SYNC ġrat) SAHE Hol. iz 
标志 的 作用 等 同 于 前 述 的 同步 目录 更 新 标 忘 。 
FS TOPDIR FL (BI Linux 2.6 id) 

这 标志 大将 在 Orlov 块 分 配 东 上 略 的 指导 下 对 某 一 目录 进行 特殊 人 处理 。Orlov REII RIER 
H F BSD 系统 ， 是 对 ext2 文件 系统 块 分 配 俩 略 的 一 种 改 民 ,试图 增 大 相关 文件 (例如; 同一 
目录 下 的 各 个 文件 ) 在 磁盘 中 比邻 而 居 的 几率 ， 进 而 缩短 厂 盘 的 寻 道 时 间 。 详 情 请 见 [Corbet， 
2002] 和 [Kumar，et al. 2008]。 只 有 EXT2 及 其 升级 版 本 EXT3. EXTA. 文件 系统 支持 
FS TOPDIR FL. 






































FS UNRM FL 
允许 该 文件 在 但 删 除 后 能 得 以 恢复 。 由 于 可 在 内 核 之 外 实现 文件 的 恢复 机 制 ， 因 此 该 特 
性 尚未 实现 。 





般 而 言 ， 如 果 针 对 某 一 目录 设置 了 1i 节点 标志 ， 那 么 新 建 于 其 下 的 文件 和 子 目 录 会 自动 
将 其 继承 。 不 过 也 有 例外 。 
e FS_DIRSYNC FL (chattr +D) 标 志 只 能 应 用 于 目录 ， 故 而 也 只 能 为 新 建 于 该 目录 下 的 
子 目 录 所 继承 。 
e 当 将 FS_ IMMUTABLE FL (chattr +i) 标 志 应 用 于 目录 时 ， 不 会 有 创建 于 该 目录 下 的 文 
件 或 子 目录 继承 此 标志 ， 因 为 该 标志 会 阻止 在 此 目录 中 添加 任何 狐 的 条 目 。 
在 程序 中 可 以 分 别 调用 ioctl0 的 FS IOC GETFLAGS 和 FS IOC SETFLAGS 操作 ， 来 获 
取 和 修改 i 节点 标志 (这 两 个 常量 定义 于 <linux/fs.h>)。 以 下 代码 演示 了 如 何 为 打开 文件 描述 
^F fd 所 指 代 的 文件 设置 FS NOATIME FL 标志 。 























int attr; 


if (ioctl(fd, FS IOC GETFLAGS, 8attr) == -1) /* Fetch current flags */ 
errExit("ioctl"); 

attr |- FS NOATIME FL; 

if (ioctl(fd, FS IOC SETFLAGS, 8attr) == -1) /* Update flags */ 
errExit("ioctl"); 


AEE 178 eb [RIDERE PIARRES: 其 一 ， 进 程 的 有 效用 户 ID m 
多 配 文件 的 用 户 ID Cg 30; 其 二 ， 进 程 训 有 特权 级 别 (具备 CAP_ FOWNER 能 力 )。 严格 说 来 ， 
对 于 Linux 上 运行 的 非特 权 进 程 , 与 文件 的 用 户 ID 相 匹配 的 是 其 文件 系统 用 户 ID， 而 非 有 效 
HP ID CEI 9.57). 
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15.6 总结 


stat() 系 统 调用 可 获取 某 一 文件 的 相关 信息 (元 数据 )， 其 中 大 部 分 取 自 文件 的 i 节点 ， 这 
些 信息 包括 文件 的 所 有 权 、 文 件 权限 以 及 文件 时 间 戳 。 

程序 可 调用 utime0、utimes0 或 类 似 编程 接口 ， 去 更 改 文 件 的 上 次 访问 时 间 及 上 次 修改 
时 间 。 

每 个 文件 都 有 一 个 与 之 相关 的 用 户 ID. Oi EO 和 组 ID， 以 及 一 组 权限 位 。 为 了 限制 用 户 
对 文件 的 访问 权限 ， 把 用 户 划 分 为 3 类 : 文件 属 主 ( 亦 称 用 户 )、 属 组 以 及 其 他 用 户 。 可 把 3 
种 权限 授予 上 述 3 类 用 户 ， 分 别 是 读 、 写 、 可 执行 权限 。 目 录 也 与 之 相同 ， 但 权限 位 的 含义 
则 略 有 不 同 。 可 利用 系统 调用 chown0 和 chmod0 来 更 改 文件 的 所 有 权 及 权限 。 系 统 调 用 umask() 
则 用 来 设置 权限 的 位 掩 码 ， 当 进程 新 建文 件 时 ， 会 按 位 拖 码 来 关闭 相应 权限 位 。 

文件 和 目录 还 用 到 了 3 个 额外 的 权限 位 。 可 将 set-user-ID 和 set-group-ID 权限 位 应 用 于 程 
序 文件 ， 在 进程 的 执行 过 程 中 假借 另 一 有 效用 户 或 组 id( 亦 即 属 于 该 程序 文件 ) 的 身份 从 而 
获得 特权 。 在 以 nogrpid (sysvgroup) 选 项 装配 的 文件 系统 上 ， 对 驻 留 于 其 上 的 目录 ， 可 通过 设 
置 set-group-ID 权限 位 来 控制 如 下 行为 :该 目录 下 新 建文 件 的 组 ID 是 继承 进程 的 有 效 组 ID, 
还 是 父 目录 的 组 ID。 当 将 sticky 权限 位 应 用 于 目录 时 ， 其 作用 相当 于 限制 删除 标志 。 

I 节点 标记 控制 着 文件 和 目录 的 各 种 行为 。 尽 管 发 源 于 ex2， 但 如 今 已 得 到 了 几 种 其 他 文 
件 系统 的 支持 。 



























































15.7 练习 


15-1. 15.4 市 中 接 述 了 针对 各 种 文件 系统 操作 所 需 的 权限 。 请 使 用 shell 命令 或 编写 程序 
来 回答 或 验证 以 下 说 法 。 
a) 将 文件 属 主 的 所 有 权限 “和 剥夺 ”后 ， 即 使 “本 组 ”和 “其 他 ”用 户 仍 有 访问 权 ， 
属 主 也 无 法 访问 文件 。 
b) 在 一 个 可 读 但 无 可 执行 权限 的 目录 下 ， 可 列 出 其 中 的 文件 名 ， 但 无 论文 件 本 身 
的 权限 如 何 ， 也 不 能 访问 其 内 容 。 
c) 要 创建 一 个 新 文件 ， 打 开 一 个 文件 进行 读 操作 ， 打 开 一 个 文件 进行 写 操作 ， 以 
及 删除 一 个 文件 , 父 目录 和 文件 本 里 分 别 需 要 具备 何 种 权限 ? 对 文件 执行 重 命名 
操作 时 ， 源 及 目标 目录 分 别 需要 具备 何 种 权限 ?” 辱 重 命名 操作 的 目标 文件 已 存 
在 ， 该 文件 需要 具备 何 种 权限 ? 为 目录 设置 sticky 位 (chmod +t)， 将 如 何 影响 重 
命名 和 删除 操作 ? 
15-2. 你 认为 系统 调用 stat0 会 改变 文件 3 个 时 间 戳 中 的 任意 之 一 吗 ? 请 解释 原因 。 
15-3. 在 运行 Linux 2.6 的 系统 上 修改 程序 清单 15-1(t_stat.c), 令 其 可 以 纳 秒 级 精度 来 显示 
SC PEST FR] ER. 
15-4. 系统 调用 access() 会 利用 进程 的 实际 用 户 和 组 ID 来 检查 权限 。 请 编写 相应 函数 ， 根 
据 进 程 的 有 效用 户 和 组 ID 来 进行 权限 检查 。 


















































1 译 者 注 : 同 组 用 户 。 
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15-5. 如 15.4.6 节 所 述 ，umask(0 总 会 在 设置 进程 umask 的 同时 返回 老 umask 的 拷贝 。 请 
问 ， 如 何在 不 改变 进程 当前 umask 的 同时 获取 到 其 拷贝 ? 

15-6. 命令 chmod atrX file 的 作用 征 对 所 有 各 闫 用 户 授予 族人 权限 ， 并 且 ， 当 file Hx, 
或 者 file 的 任 一 用 户 类 型 具有 可 执行 权限 时 ， 将 问 所 有 各 类 用 户 授予 可 执行 权限 ， 
all PUB: 

$ ls -ld dir file prog 

dr-------- 2 mtk users 48 May 4 12:28 dir 
-Y-------- 1 mtk users 19794 May 4 12:22 file 
-I-X------ 1 mtk users 19336 May 4 12:21 prog 
$ chmod a+rX dir file prog 

$ ls -ld dir file prog 

dr-xr-xr-x 2 mtk users 48 May 4 12:28 dir 


-r--r--r-- 1 mtk users 19794 May 4 12:22 file 
-Y-Xr-xr-x 1 mtk users 19336 May 4 12:21 prog 


使 用 stat0 和 chmod0 编 写 一 程序 ， 令 其 等 效 于 执行 chmod aX 命令 。 
15-7. 编写 chattr(1) 命 令 的 简化 版 来 修改 文件 的 i 节点 标志 。 参 阅 chattr(1) 手册 页 以 掌握 
chattr 命令 行 接口 的 细节 。( 无 需 实现 -R、-V、-v 选项 。) 
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扩展 属性 


本 革 将 介绍 文件 的 扩展 属性 (EA)， 即 以 名 称 - 值 对 形式 将 任意 元 数据 与 文件 i 市 点 关联 
起 来 的 技术 。Linux 目 版 本 2.6 起 ， 开 始 文 持 EA. 


16.1 概述 


EA 可 用 于 实现 访问 列表 (第 17 2$) 和 文件 能 力 〈 第 39 Æ). Wiwi, HREJE 
不 仅 限 于 此 。 例 如 ， 还 可 利用 EA 去 记录 文件 的 版 本 写 、 与 文件 的 MIME 类型 /学 符 集 有 关 的 
信息 ， 或 是 指 问 图 符 的 指针 。 

SUSv3 并 未 对 EA 加 以 规范 。 但 少数 其 他 UNIX 实现 却 提 供 了 类 似 的 特性 ， 其 中 知名 的 
AMA BSD FEJ extattr(2)) 系列 和 Solaris 9 及 其 后 续 版 本 ( 详 见 fsattr(5))。 

EA 需要 有 底层 文件 系统 来 握 供 支撑 ，Btrfs、ext2、ext3、ext4、JFS、Reiserfs 以 及 XFS 
等 文件 系统 都 文 持 EA. 


各 类 文件 系统 对 EA 的 文 持 都 属 可 选项 , 受 内 核 配 置 选 项 中 的 “File systems ”来 单 控制 。 
Reiserfs 文件 系统 和 日 Linux 2.6.7 开始 支持 EA. 























EA 命名 空间 

EA 的 命名 格式 为 namespace.name。 其 中 namespace 用 来 把 EA 从 功能 上 划分 为 规 然 不 同 
的 几 大 类 ， 而 name 则 用 来 在 既定 命名 空间 内 唯一 标识 某 个 EA., 

可 供 namespace 使 用 的 值 有 4 个 : user. trusted. system 以 及 security。 这 4 类 EA 的 用 途 
如 下 所 示 。 

。 user EA 将 在 文件 权限 检 和 奏 的 制约 下 由 非特 权 级 进程 操控 。 欲 获取 user EA 值 ， 需 要 有 
文件 的 读 权限 ; 欲 改变 user EA 值 , 则 需要 号 权限 。( 者 无 所 需 权 限 , 将 会 导致 EACCES 
错误 。) 在 ext2、ext3、ext4 或 Reiserfs LIFRE, WEK user EA 与 一 文件 关联 ， 
在 装配 底层 文件 系统 时 需 珊 有 user xattr 选项 。 
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$ mount -o user xattr device directory 


。 trusted EA 也 可 由 用 户 进程 “驱使 ”, 这 点 与 user EA 相似 。 而 区别 则 在 于 , ZERA trusted 
EA， 进 程 必须 具有 特权 (CAP_SYS_ADMIN)。 

e system EA 供 内 核 使 用 ， 将 系统 对 象 与 一 文件 关联 。 目 前 仅 文 持 访 问 控制 列表 《第 
17 3€)». 

e security EA 的 作用 有 二 : 其 一 ， 用 来 存储 服务 于 操作 系统 安全 模块 的 文件 安全 标签 ; 
其 二 ， 将 可 执行 文件 与 能 力 关 联 起 来 (39.9.2 节 )。 而 发 明 security EA 的 初衷 是 为 了 
支持 安全 强化 版 的 Linux(SELinux，http://www.nsa.gov/research/selinux/)。 

一 个 1 方 点 可 以 拥有 多 个 相关 EA， 其 所 从 属 的 命名 空间 可 以 相同 ， 也 可 不 同 。 在 各 命名 

空间 内 的 EA 名 均 目 成 一 体 。 在 user 和 trusted 命名 空间 内 ，EA 名 可 以 为 任意 字符 串 。 而 在 
system 命名 空间 内 ， 只 有 经 内 核 明确 认可 的 (例如 ， 用 于 访问 控制 列表 的 ) 命名 方 可 使 用 。 


JFS 支持 男 一 种 命名 空间 os2， 其 他 文件 系统 均 未 实现 。 提 供 这 一 命名 空间 是 为 了 
支持 传统 的 OS/2 文件 系统 EA。 进程 无 需 特 权 ， 就 能 创建 OS2 EA. 


























通过 shell 创建 并 查看 EA 


在 shell 中 ， 可 执行 setfattr(1) 和 getfattr(]) 命 令 来 设置 和 和 奉 看 文件 的 EA. 


$ touch tfile 
$ setfattr -n user.x -v "The past is not dead." tfile 
$ setfattr -n user.y -v "In fact, it's not even past." tfile 


$ getfattr -n user.x tfile Retrieve value of a single EA 

# file: tfile Informational message from getfattr 

user.x-"The past is not dead." The getfattr command prints a blank 
line after each file's attributes 

$ getfattr -d tfile Dump values of all user EAs 


# file: tfile 
user.x-"The past is not dead." 


user.y-"In fact, it's not even past." 


$ setfattr -n user.x tfile Change value of EA to be an empty string 
$ getfattr -d tfile 

# file: tfile 

user.x 

user.y="In fact, it's not even past." 


$ setfattr -x user.y tfile Remove an EA 

$ getfattr -d tfile 

# file: tfile 

user.x 

以 上 shell SWITTE ER E EA 从 可 以 为 空子 从 串 ， 这 不 同 于 未 定义 的 EA f. 
(由 shell 会 话 结尾 处 的 例子 可 知 ，userx 的 值 为 空 字 符 串 ，usery 的 值 为 未 定义 。) 

默认 情况 下 ，getfattr 只 会 列 出 user EA 值 。 还 可 利用 -m 选项 来 指定 一 正则 表达 式 ， 来 得 
选 想 要 显示 的 EA 名 : 

$ getfattr -m 'pattern' file 

pattern 的 默认 值 为 “^usen\.”。 可 执行 如 下 命令 ， 列 出 一 个 文件 的 所 有 EA 值 。 


$ getfattr -m - file 
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16.2 扩展 属性 的 实现 细节 
本 节 是 对 上 一 节 内 容 的 延伸 ， 描 述 EA 实现 的 部 分 细节 。 


对 user 扩展 属性 的 限制 


user EA 只 能 施 之 于 文件 或 目录 ， 之 所 以 将 其 他 文件 类 型 排除 在 外 ， 原 因 如 下 。 
e 对 于 符号 链接 ， 会 对 所 有 用 户 开 局 所 有 权限 ， 且 不 容 更 改 。( 如 18.2 WIR, rge 
接 的 权限 在 Linux 上 至 无 意义 。) 这 意味 看 ， 无 法 利用 权限 来 阻止 任意 用 户 将 user EA 
置 于 符号 链接 之 上 。 要 想 解决 这 个 问题 ， 束 得 防止 所 有 用 户 针 对 符号 链接 创建 user EA. 
e 对 于 设备 文件 、 套 接 字 以 及 FFO 而 言 ， 授 予 用 户 权限 ， 意 在 对 其 针对 底层 对 象 所 执 
行 的 vo 操作 加 以 控制 。 如 欲 操 探 这 些 权 限 ， 转 而 求 取 对 创建 user EA 的 控制 ， 则 二 
者 间 会 产生 冲突 。 
此 外 ， 若 某 一 目录 启用 了 粘性 位 (sticky 位 ) (15.4.5 节 )， 目 为 其 他 用 户 所 拥有 ， 则 非特 
权 进 程 不 能 将 一 user EA 置 于 该 目录 之 上 。 惟 其 如 此 ， 才 能 防止 任 一 用 户 将 EA 附 看 于 诸如 /tmp 
之 类 的 目录 ， 由 于 其 可 写 权 限 对 所 有 用 户 开 放 《〈 从 而 导致 任意 用 户 均 可 操纵 此 目录 的 EA), 
而 设置 粘性 位 ， 意 在 防止 用 户 删 除 该 目录 下 为 其 他 用 户 所 拥有 的 文件 。 
























































EA 在 实现 方面 的 限制 


Linux VFS 针对 所 有 文件 系统 上 的 EA 均 施 以 如 下 限制 。 

e EA 名 称 的 长 度 不 能 超过 255 NA. 

e EA 值 的 容量 为 64KB. 

此 外 ， 某 些 文件 系统 对 可 与 文件 挂钩 的 EA 数量 及 其 大 小 还 有 更 为 严格 的 限制 。 

e 在 ext2、ext3 以 及 ext4 文件 系统 上 ， 与 一 文件 关联 的 所 有 EA 命名 和 EA 值 的 总 学 节 
数 不 会 超过 单个 逻辑 磁盘 块 〈14.3 节 ) 的 大 小 : 1024 字 节 、2048 字 节 或 4096 字 节 。 

e 在 JFS 上， 为 菜 一 文件 所 使 用 的 所 有 EA 名 和 EA 值 的 总 学 市 数 上 限 为 128KB。 








16.3 ”操控 扩展 属性 的 系统 调用 
本 市 将 会 介绍 用 来 更 新 、 获 取 以 及 删除 EA 的 系统 调用 。 
创建 和 修改 EA 
系统 调用 setxattr()、lsetxattrO 〇 以 及 fsetxattr0 用 来 设置 文件 的 EA 值 之 一 。 





#include <sys/xattr.h> 


int setxattr(const char *pathname, const char *name, const void *value, 
size t size, int flags); 

int lsetxattr(const char *pathname, const char *mame, const void *value, 
size t size, int flags); 

int fsetxattr(int fd, const char *mame, const void *value, 
size t size, int flags); 


All return 0 on success, or -1 on error 
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这 3 个 系统 调用 之 间 的 区 别 类 似 于 stat, Istat E. fstat() (15.1 750. 三 者 间 的 差异 。 

e setxattrO 通 过 pathname 来 标识 文件 ， 奋 文件 名 为 符号 链接 ， 则 对 其 解 引用 。 

e jlsetxattrO 通 过 pathname 来 标识 文件 ， 但 不 会 对 符号 链接 解 引 用 。 

e fsetxattrO 则 通过 打开 文件 描述 符 fd 来 标识 文件 。 

以 上 3 者 之 间 的 差异 同样 适用 于 本 和 下 面 将 要 介绍 的 其 他 各 组 系统 调用 。 

参数 name 是 一 个 以 衬 字 人 符 结尾 的 字符 串 ， 定 义 了 EA 的 名 称 。 人 参数 value 是 一 个 指 问 绥 
冲 区 的 指针 ， 包 含 了 为 EA 定义 的 新 值 。 参 数 size 则 指明 了 绥 冲 区 大 小 。 

默认 情况 下 ， 若 具有 给 定名 称 (ame) 的 EA 不 存在 ， 上 述 系统 调用 会 创建 一 个 新 EA。 
若 EA CAFE., MKR EA 值 。 可 利用 参数 flags 将 这 一 行为 控制 得 更 为 精准 。 将 该 参数 
指定 为 0， 以 获得 默认 行为 ， 或 者 可 将 其 指定 为 如 下 常量 之 一 。 











XATTR_CREATE 
若 具 有 给 定名 称 (name) 的 EA 已 经 存在 ， 则 失败 。 


XATTR REPLACE 
大 具有 给 定名 称 (name) 的 EA 不 存在 ， 则 失败 。 
下 例 使 用 setxattrO 创 建 了 一 个 user EA: 


char *value; 
value = "The past is not dead."; 


if (setxattr(pathname, "user.x", value, strlen(value), 0) == -1) 
errExit("setxattr"); 


获取 EA 值 
可 利用 系统 调用 getxattr()、lgetxattrO 〇 以 及 fgetxattr0 来 获取 EA 值 。 





#include <sys/xattr.h> 


ssize t getxattr(const char *pathname, const char *mame, void *value, 
size t size); 

ssize t lgetxattr(const char *pathname, const char *name, void *value, 
size t size); 

ssize t fgetxattr(int fd, const char *name, void *value, 
size t size); 


All return (nonnegative) size of EA value on success, or -1 on error 











参数 name 是 一 个 以 空 学 符 结尾 的 字符 串 ， 用 来 标识 欲 取 值 的 EA。 返回 的 EA 值 保 存 于 
参数 value 所 指 癌 的 缓冲 区 中 。 该 缓冲 区 必须 由 调用 者 分 配 ， 其 大 小 应 在 size 中 指定 。 若 调用 
成 功 ， 上 述 系 统 调 用 会 返回 复制 到 value 所 指 绥 冲 区 中 的 字 节 数 。 

若 文 件 不 含 名 为 “name” 的 属性 ， 上 述 系 统 调用 则 会 失败 ， 并 会 返回 错误 ENODATA。 
若 size 值 过 小 ， 上 述 系统 调用 也 会 失败 ， 并 返回 错误 ERANGE。 

可 把 size 指定 为 0， 对 于 这 种 情况 ,将 忽略 vlaue 值 ， 但 系统 调用 仍 将 返回 EA 值 的 大 小 。 
可 利用 这 一 机 制 来 确定 后 续 系 统 调用 在 实际 获取 EA 值 时 所 需 的 value 绥 冲 区 大 小 。 但 是 应 当 
注意 , 这 并 不 能 保证 后 续 在 通过 系统 调用 获取 EA 值 时 ， 上 述 返回 值 就 足够 大 。 系统 调用 期 间 ， 
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刃 一 进程 可 能 为 文件 的 这 一 属性 分 配 了 较 大 的 值 ， 或 是 将 其 完全 删除 。 


删除 EA 
系统 调用 removexattrü. IremovexattrO LJ /& fremovexattrO 用 来 删除 文件 的 EA. 





#include «sys/xattr.h» 


int removexattr(const char *pathname, const char *name); 
int lremovexattr(const char *pathname, const char *name); 
int fremovexattr(int fd, const char *name); 


All return 0 on success, or -1 on error 














name 所 含 以 空 字 从 结尾 的 字符 串 ， 用 于 标识 打算 删除 的 EA. ZRVABESAERASETEI] EA, 
调用 将 失败 ， 并 会 返回 错误 ENODATA. 





获取 与 文件 相关 联 的 所 有 EA 的 名 称 


执行 系统 调用 listxattrO、llistxattrO 以 及 全 stxattr0， 所 返回 的 列表 会 包含 与 菜 文 件 关 联 的 
所 有 EA 的 名 称 。 




















#include «sys/xattr.h» 


ssize t listxattr(const char *pathname, char *list, size t size); 
ssize t llistxattr(const char *pathname, char *list, size t size); 
ssize t flistxattr(int fd, char *list, size t size); 





All return number of bytes copied into list on success, or -1 on error 





调用 将 EA 的 名 称 列表 以 一 系列 以 空 字符 结尾 的 字符 串 形式 置 于 list 所 指 癌 的 绥 冲 区 
中 。 缓 冲 区 的 大 小 由 size 指定 。 一旦 成 功 ， 上 述 系 统 调用 会 返回 复制 到 list 中 的 字 节 数 。 

与 getxattrO0 一 样 ， 也 可 将 size 指定 为 0， 系统 调用 将 忽略 list， 并 返回 后 续 调 用 实际 获取 
EA 名 称 列 表 〔 假 定 该 列表 尚未 改变 ) 时 所 需 的 缓冲 区 大 小 。 

想 获取 与 某 文 件 相 关联 的 EA 名 列表 ， 只 需 对 文件 拥有 “访问 ”权限 ( 亦 即 对 pathname 
下 的 所 有 路 径 均 拥有 执行 权限 )， 对 文件 本 身 则 无 需 任何 权限 。 

出 于 安全 考虑 ,list 中 返回 的 EA 名 称 可 能 不 包含 调用 进程 无 权 访 问 的 属性 名 ,比方 说 ， 
在 非特 权 进 程 中 调用 listxattr0 时 ， 大 多 数 文 件 系统 都 会 略 去 trusted 属性 。 请 注意 上 一 句 中 
的 “可 能 ”二 字 ， 这 表明 文件 系统 实现 并 非 一 定 要 如 此 。 因 而 ， 使 用 list 中 返回 的 EA 名 
去 调用 getxattr()， 是 有 可 能 失败 的 ， 因 为 进程 并 不 具有 获得 该 EA 值 所 需 的 特权 。( 同 样 ， 
当 另 一 进程 在 listxattr() 和 getxattrO 调 用 之 间 将 该 属性 删除 ， 也 会 发 生 类 似 错误 。) 















































程序 示例 


程序 清单 16-1 所 示 程 序 将 获取 并 显示 命令 行 所 列 文件 的 所 有 EA 名 和 EA 值 。 该 程序 使 
用 listxattr0， 去 获取 与 每 个 文件 相关 联 的 所有 EA 名 称 ， 随 后 循环 调用 getxattr0， 为 每 个 名 称 
获取 相应 的 值 。 默 认 以 纯 文 本 方式 显示 属性 值 。 大 市 有 -x 选项 ， 那 么 属性 值 将 以 十 六 进 制 学 
符 串 形式 显示 。 以 下 shell 会 话 记 录 展 示 了 该 程序 的 使 用 。 
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$ setfattr -n user.x -v "The past is not dead." tfile 
$ setfattr -n user.y -v "In fact, it's not even past." tfile 
$ ./xattr view tfile 
tfile: 
name-user.x; value-The past is not dead. 
name-user.y; value-In fact, it's not even past. 


程序 清单 16-1: 显示 文件 的 扩展 属性 
xattr/xattr view.c 
include «sys/xattr.h» 
include "tlpi hdr.h" 


#define XATTR SIZE 10000 


static void 
usageError(char *progName) 


fprintf(stderr, "Usage: Xs [-x] file...An", progName); 
exit(EXIT FAILURE); 
} 


int 
main(int argc, char *argv[]) 


char list[XATTR SIZE], value[XATTR SIZE|; 
ssize t listLen, valueLlen; 

int ns, j, k, opt; 

Boolean hexDisplay; 


hexDisplay - 0; 
while ((opt = getopt(argc, argv, "x")) != -1) { 
switch (opt) 1 


case 'x': hexDisplay - 1; break; 
case '?': usageError(argv[0]); 
} 


} 


if (optind >= argc + 2) 
usageError(argv[0]); 
for (j = optind; j < argc; j++) { 
listLen = listxattr(argv[j], list, XATTR SIZE); 
if (listLen -- -1) 
errExit("listxattr"); 


printf("%s:\n", argv[j]); 
/* Loop through all EA names, displaying name + value */ 


for (ns = 0; ns < listlen; ns += strlen(&list[ns]) + 1) { 
printf(" name=%s; ", &list[ns]); 


valuelen = getxattr(argv[j], 8list[ns], value, XATTR SIZE); 
if (valueLen == -1) { 
printf("couldn't get value"); 
) else if (!hexDisplay) { 
printf("value-4.*s", (int) valuelen, value); 
} else { 
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printf("value-"); 
for (k = 0; k < valueLen; ke) 
printf("%02x ", (unsigned int) value[k]); 
} 


printf("An"); 
printf(" An"); 


exit(EXIT SUCCESS); 
) 


xattr/xattr view.c 


16.4 Ri 

H 2.6 版 本 以 来 ，Linux 开始 支持 扩展 属性 ， 允 许 以 名 称 - 值 对 的 形式 将 任意 元 数据 与 文件 
关联 起 来 。 
16.5 练习 


16-1. 编写 一 程序 ， 可 创建 或 修改 文件 的 user EA〔 亦 即 ，setfattr(1) 的 简化 版 )。 应 将 文件 
名 、EA 名 以 及 EA 值 以 命令 行 参数 形式 提供 给 该 程序 。 
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1. 


访问 控制 列表 


15.4 TOAMNA T hE UNIX (K Linux) 对 文件 权限 的 规划 方案 。 对 于 诸多 应 用 来 说 ， 
这 一 方案 已 经 能 够 满足 要 求 。 但 还 有 些 应 用 ， 需 要 在 为 特定 用 户 和 组 授权 时 进行 更 为 精密 的 
控制 。 为 满足 这 一 需求 ， 许 多 UNIX 系统 对 传统 的 UNIX 文件 权限 模型 进行 了 名 为 访问 控制 
列表 ACL) 的 扩展 。 利 用 ACL， 可 以 在 任意 数量 的 用 户 和 组 之 中 ， 为 单个 用 户 或 组 指定 文 
件 权 限 。 目 版 本 2.6 起 ，Linux 内 核 开 始 文 持 ACL. 


各 文件 系统 对 ACL 的 文 持 属于 可 选项 , H “File systems” 沫 单 下 的 内 核 配置 选项 控制 。 
Reiserfs 文件 系统 自 内 核 2.6.7 起 开始 支持 ACL. 

要 想 在 ext2, ext3, ext4 或 reiserfs 文件 系统 上 创建 ACL， 装 配 相应 的 文件 系统 时 需要 
市 mount —o acl 选项 。 














针对 UNIX 系统 ， 从 未 正式 出 台 过 AcCL 的 相关 标准 。 人 们 曾 以 POSIX.le 和 POSIX.2c 标 
准 草案 的 形式 对 此 进行 过 尝试 ， 二 者 分 别 定 义 了 服务 于 ACL 的 API 和 shell 命令 (以 及 诸如 
能 力 之 类 的 其 他 特性 )。 最 终 ， 这 一 标准 化 进程 以 失败 告终 ， 标 准 草 案 也 随 之 撤销 。 不 过 ， 庄 
多 UNIX (包括 Linux) 对 ACL 的 实现 还 是 遵循 上 述 标准 章 案 〈 通 钊 是 根据 最 终 稿 ， 即 第 17 
写 旱 案 )。 但 由 于 在 各 种 ACL 实现 之 间 还 存在 看 许多 差 开 《部 分 原因 是 由 于 标准 章 案 还 不 尽 
完善 )， 故 而 如 果 运 用 了 ACL 技术 ， 束 会 危及 应 用 的 可 移植 性 。 

本 章 将 介绍 ACL， 并 就 其 用 法 提供 简明 教程 。 此 外 ， 还 会 讲解 用 来 操纵 和 获取 ACL 的 
某 些 库 函 数 。 鉴 于 此 类 库 函 数 数 量 众 多 ， 本 章 不 会 逐一 对 其 做 深入 探讨 。( 详 细 信 息 可 参考 
手册 页 #8》 



































17.1 概述 


一 个 ACL 由 一 系列 ACL 记录 (以 下 简称 ACE) 组 成 ， 其 中 每 条 记录 都 针对 单个 用 户 或 
用 户 组 定义 了 对 文件 的 访问 权限 《如 图 17-1 所 示 )。 
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对 应 于 传统 的 
属 主 (用 户 ) 权限 


ACL USER 0BJ 
ACL USER 


对 应 于 传统 的 





按 组 分 _ 
类 记录 SUR 
对 应 于 传统 的 
其 他 用 户 权限 
17-1: 访问 控制 列表 示例 
ACL 记录 


每 条 ACE 都 由 3 部 分 组 成 。 

e 标记 关 型 : 表示 该 记 录 作 用 于 一 个 用 户 、 组 ， 还 是 其 他 闫 别 的 用 户 。 

e 标记 限定 符 ( 可 选项 ) 标识 特定 的 用 户 或 组 ( 亦 即 ， 某 个 用 户 ID 或 组 ID )。 

e 权限 集合 : 本 字段 包含 所 授 予 的 权限 信息 《〈 谈 、 写 及 执行 )。 

标记 类 型 取 值 可 为 下 列 各 值 之 一 。 
ACL_USER_OBJ 

"HH AME ACE 记录 了 授予 文件 属 主 的 权限 。 每 个 ACL 只 能 包含 一 条 该 类 型 标记 的 
记录 。 该 记录 与 传统 的 文件 属 主 ( 用 户 ) 权限 相对 应 。 
ACL_USER 

携带 该 值 的 ACE 记录 了 授予 某 用 户 〈( 由 标记 限定 符 标识 ) 的 权限 。 一 个 ACL 可 包含 零 
条 或 多 条 此 标记 类 型 的 记录 ， 但 针对 一 个 特定 用 户 最 多 只 能 定义 一 条 此 类 记录 。 
ACL GROUP OBJ 

包含 该 值 的 ACE 记录 了 授予 文件 组 的 权限 。 每 个 ACL 只 会 包含 一 条 此 标记 类 型 的 记录 。 
除非 ACL 还 包含 类 型 为 “ACL MASK ”的 记录 ， 和 否则 此 类 记录 对 应 于 传统 的 文件 组 权限 。 
ACL_GROUP 

包含 该 值 的 ACE 记录 了 授予 某 个 组 (由 标记 限定 符 标 识 ) 的 权限 。 每 个 ACL 可 包含 零 
条 或 多 条 此 标记 类型 的 记录 ， 但 针对 一 个 特定 组 最 多 上 只 能 定义 一 条 此 闫 记录 。 
ACL_MASK 

包含 该 值 的 ACE 记录 了 可 由 ACL USER, ACL GROUP OBJ 以 及 ACL GROUP 型 ACE 
所 能 授予 的 最 高 权限 。 一 个 ACL 最 多 只 能 包含 一 条 标记 类 型 为 ACL_ MASK 的 ACE. fÈ 
如 ACL 含有 标记 类 型 为 ACL USER 或 ACL GROUP 的 记录 ， 那 么 就 必须 包含 一 条 
ACL MASK 型 的 ACE。 稍 后 会 细 述 这 一 标记 类 型 。 
ACL_OTHER 

对 于 不 匹配 任何 其 他 ACE 的 用 户 ， 由 包含 该 值 的 ACE 授予 权限 。 每 个 ACL 只 能 包含 一 
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条 标记 类 型 为 “ACL OTHER" IJ ACE。 该 记录 对 应 于 传统 的 文件 其 他 〈other) 用 户 权 限 。 
只 有 标记 类 型 为 “ACL USER" 4I “ACL GROUP” 的 记录 ， 才 会 采用 标记 限定 符 来 指 
€H ID 和 组 ID. 








ml ACL 和 扩展 ACL 


最 小 化 Cminimal) ACL 语义 上 等 同 于 传统 的 文件 权限 集合 ， 恰 好 由 3 条 记录 组 成 。 每 条 
标记 的 类 型 分 别 为 ACL USER OBJ, ACL GROUP OBJ 以 及 ACL OTHER. 扩展 ACL 则 是 
指 除 此 之 外 ， 还 包含 标记 类 型 为 ACL_USER、ACL GROUP 和 ACL MASK 的 记录 。 

之 所 以 要 对 最 小 化 ACL 和 扩展 ACL 加 以 区 分 ， 原 因 之 一 是 后 者 可 对 传统 文件 权限 模型 
提供 语义 的 扩展 。 而 为 一 个 原因 则 与 ACL 的 Linux KWAK. Linux 系统 是 以 系统 扩展 属性 
来 实现 ACL 的 〈 详 见 第 16 草 )。 用 于 维护 文件 访问 型 ACL 的 系统 扩展 属性 名 为 system.posix_ 
acl access。 仅 当 文 件 具 有 扩展 ACL 时 ， 才 需 使 用 这 一 扩展 属性 。 可 将 针对 最 小 化 ACL 的 权 
限 信 息 存 储 于 传统 的 文件 权限 位 中 。 














17.2 ACL 权限 检查 算法 


与 传统 的 文件 权限 模型 (15.4.3 节 ) 相 比 ， 对 具有 ACL 的 文件 进行 权限 检查 时 ， 环 境 并 
没有 什么 不 同 。 检 查 将 按 以 下 顺序 执行 ， 直 至 某 一 标准 得 到 匹配 。 

l. 若 进程 具有 特权 ， 则 拥有 所 有 访问 权限 。 与 15.4.3 节 所 述 的 传统 文件 权限 模型 相 类 似 ， 这 
里 也 有 一 个 例外 。 执 行 某 文件 时 ， 仪 当 将 可 执行 权限 通过 至 少 一 条 ACL 记录 授予 该 文件 
时 ， 系 统 才 会 癌 特 权 级 进程 授予 该 权限 。 

2. 若 某 一 进程 的 有 效用 户 ID 匹配 文件 的 属 主 《〈 用 户 ID )， 则 授予 该 进程 标记 类 型 为 
ACL USER OBJ 的 ACE 所 指定 的 权限 。 严 说 的 说 法 是 在 Linux 系统 中 ， 本 节 所 介绍 的 
ACL 权限 检测 使 用 的 是 进程 的 文件 系统 ID 〈 请 参阅 本 书 9.5 节 )， 而 非 其 有 效用 户 ID. 

3. 若 进程 的 有 效用 户 ID 与 某 一 ACL USER 类 型 记录 的 标记 限定 符 相 匹配 ， 则 授予 该 进程 
此 记录 所 指定 权限 与 ACL MASK 型 记录 值 相 与 (&%) 的 结果 。 

4. 若 进 程 的 组 ID. ORBI, AAH ID 或 任 一 辅助 组 D) 之 一 匹配 于 文件 组 (对 应 于 标记 类 
型 为 ACL GROUP OBJ 的 ACE), 或 者 任 一 ACL GROUP 型 记录 的 标记 限定 符 ， 则 会 依 
次 进行 如 下 检查 ， 直 至 发 现 匹 配 项 。 

a) 若 进程 的 组 ID 之 一 匹配 于 文件 组 ， 且 标记 类 型 为 ACL_ GROUP OBJ 的 ACE 授予 了 

所 请 求 的 权限 , 则 会 依据 此 记录 来 判定 对 文件 的 访问 权限 。 如 果 ACL 中 还 包含 了 标记 

类 型 为 ACL_ MASK 的 ACE， 那 么 对 该 文件 的 访问 权限 将 是 两 记录 权限 相 与 〈 人 ) 后 

的 结果 。 

若 进 程 的 组 ID 之 一 匹配 于 该 文件 所 辖 ACL GROUP 型 ACE 的 标记 限定 符 , 且 该 ACE 

授予 了 所 请 求 的 权限 , 那么 会 依据 此 记录 来 判定 对 文件 的 访问 权限 。 如 果 ACL 中 包含 

了 ACL MASK 型 ACE， 那 么 对 访 文 件 的 访问 权限 应 为 网 记录 权限 相 与 人 人) 的 结 
c) 和 否则 ， 拒 绝对 该 文件 的 访问 。 

5. EW, HL ACL OTHER 型 ACE 所 记录 的 权限 授予 进程 。 

下 面 举例 说 明 这 些 与 组 ID 相关 的 文件 授权 规则 。 假定 某 文件 的 组 ID 为 100, 并 受 图 17-1 

所 列 ACL 的 保护 。 若 组 ID 为 100 的 某 一 进程 发 起 系统 调用 access(filg，R_OK)， 本 次 调用 将 

ZKI CRE, BREl 0)。(15.4.4 节 介 绍 了 access()。) 而 另 一 方面 ， 即 便 标 记 类 型 为 









































b 


\- 




















第 17 章 访问 控制 列表 267 


异步 社区 会 员 flyman150(2410757683 (9 qq.com) EF 尊重 版 权 


ACL GROUP OBJ 的 ACE 授予 了 所 有 权限 ， 系 统 调用 access(file, R OK|W OK|X OKI) 仍 
将 失败 〈 亦 即 ， 返 回 -1， 且 将 erno 置 为 EACCES)， 这 是 由 于 访问 权限 是 该 类 型 权限 与 
ACL MASK 型 记录 权限 相 与 C&o 的 结果 ， 而 这 一 结果 禁用 了 对 文件 的 执行 权限 。 

BER 17-1 举 个 例子 ， 假 定 某 进程 的 组 ID 为 102， 其 附属 组 ID 之 一 为 103。 对 该 进程 
来 说 ， 调 用 access(file，R OK) 和 access(file，W_OK) 都 会 成 功 ， 因 为 这 两 次 调用 所 请 求 的 文 
件 权 限 分 别 匹配 标记 关 型 为 ACL_ GROUP, 且 标 记 限 定 符 为 102 和 103 的 ACE 所 记录 的 权限 。 
另外 ， 该 进程 调用 access(file, R OK |W_OK) 将 会 失败 ， 因 为 并 无 标记 类 型 为 ACL GROUP 
的 匹配 记录 同时 包含 谈 、 写 权限 。 


17.8 ACL 的 长 、 短 文本 格式 


执行 setfacl 和 getfacl 命令 , 或 是 使 用 某 些 ACL ERAM ACL 时 ， 需 指明 ACE 的 文本 

表现 形式 。ACE 的 文本 格式 有 两 种 。 

。 长 文本 格式 的 ACL: 每 行 都 包含 一 条 ACE， 还 可 以 包含 注释 ， 注 释 需 以 “#” 开 始 ， 
直人 至 行 尾 结束 。getfacl 命令 的 输出 会 以 长 文本 格式 显示 ACL。getfacl 命令 的 -M acl-file 
选项 从 指定 文件 中 “提取 ”长 文本 格式 的 ACL 定义 。 

e 短文 本 格式 的 ACL: 包含 一 系列 以 “, ”分 隔 的 ACE. 

无 论 是 上 述 哪 种 格式 ， 每 条 ACE 都 由 以 “: ”分 隔 的 3 部 分 组 成 。 


lag-Lype: [tag-qualifier] : permissions 

标记 闫 型 字段 的 取 值 限于 表 17-1 第 一 列 所 示范 围 之 内 。 标 记 关 型 之 后 的 标记 限定 符 为 可 
选项 , 采用 名 称 或 数字 ID 来 标识 用 户 或 组 。 仅 当 标 记 关 型 为 ACL_USER 和 ACL GROUP 时 ， 
才 允 许 标 记 限 定 符 的 存在 。 


表 17-1: 对 ACE 文本 格式 的 解释 
是 否 存在 标记 限定 符 对 应 的 标记 类 型 
user ACL USER OBJ 文件 属 主 《 用 户 ) 
u, user ACL USER 特定 用 户 
g» group ACL GROUP OBJ 文件 组 
g, group ACL GROUP 特定 组 



































m, mask ACL MASK 21 4) 2 d hi 





o, other ACL OTHER 其 他 用 户 





以 下 所 示 为 短文 本 格式 的 ACL， 对 应 于 传统 权限 掩 人 码 0650: 

U::IW-,g::I1-X,0::--- 

U::IIW,g::IX,0::- 

user::rw,group::rx,other::- 

下 和 面 这 一 短文 本 格式 ACL 则 包含 了 两 条 命名 用 户 ACE、 一 条 命名 组 ACE UKRE 
ACE. 





u::rw,u:paulh:rw,u:annabel:rw,g::r,g:teach:rw,m::rwX,0::- 
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17.4 ACL mask 型 ACE 和 ACL 组 分 类 


如 果 一 个 ACL 包含 了 标记 类 型 为 ACL USER 或 ACL GROUP 的 ACE, 那么 也 一 定 会 包 
含 标记 类 型 为 ACL MASK 的 ACE. Zi ACL 未 包含 任何 标记 类 型 为 ACL_USER 或 
ACL GROUP 的 ACE， 那 么 标记 类 型 为 ACL MASK 的 ACE 则 为 可 选项 。 

对 于 ACL MASK 标记 类 型 的 ACE， 其 作用 在 于 是 所 谓 “ 组 分 类 ”(group class) 中 ACE 
所 能 授予 权限 的 上 限 。 组 分 类 是 指 在 ACL 中 ， 由 所 有 标记 类 型 为 ACL _USER、ACL GROUP 
以 及 ACL GROUP OBJ 的 ACE 所 组 成 的 集合 。 

提供 标记 类 型 为 ACL MASK 的 ACE， 其 目的 在 于 即使 运行 并 无 ACL 概念 的 应 用 程序 ， 也 
能 保障 其 行为 的 一 致 性 。 作 为 这 一 论点 的 例证 ， 假 设 与 文件 关联 的 ACL 包含 以 下 记录 : 

















USer::rwx # ACL USER OBJ 

user:paulh:r-x # ACL USER 

group: :r-x # ACL GROUP OBJ 
group:teach:--x # ACL GROUP 

other: :--x # ACL OTHER 

大 菏 程序 针 对 该 文件 按 以 下 方式 调用 chmod()。 
chmod(pathname, 0700); /* Set permissions to rwx------ 7 





对 于 对 ACL 一 无 所 知 的 应 用 程序 而 言 ， 这 意味 着 “ 除 文 件 属 主 以 外 ， 不 允许 其 他 任何 用 
Pu". 即便 存在 针对 该 文件 的 ACL， 这 层 意 思 也 不 会 变 。 如 条 ACL HUBS ACL MASK 
型 记录 ， 那 么 可 以 有 多 种 方法 来 实现 这 一 行为 ， 但 每 种 方法 都 存在 缺陷 。 

e 只 是 将 ACL GROUP OBJ 和 ACL OTHER 型 记录 的 掩 码 简单 地 修改 为 --- 是 不 足以 解 

决 问题 的 ， 因 为 用 户 paulh 和 组 teach 依旧 对 该 文件 拥有 某 些 权限 。 
e 为 一 种 可 能 是 ， 将 针对 组 和 其 他 用 户 的 权限 狐 设 置 ( 即 ， 全 部 屏蔽 ) 应 用 于 标记 类 型 
为 ACL USER, ACL GROUP, ACL GROUP OBJ 以 及 ACL OTHER 的 记录 。 

















USeT: :IWX # ACL USER OBJ 
user:paulh:--- # ACL USER 
group: :--- # ACL GROUP OBJ 
group:teach:--- # ACL GROUP 
other: :--- # ACL OTHER 








这 一 方法 的 问题 在 于 ， 之 前 由 其 有 ACL 概念 的 应 用 所 确立 的 文件 权限 语义 会 被 对 ACL 
一 无 所 知 的 应 用 所 “ 错 杀 ”， 因 为 如 下 调用 《举例 说 明 ) 不 会 将 ACL 中 的 ACL USER 和 
ACL GROUP 型 记录 恢复 到 其 之 前 的 状态 : 





chmod(pathname, 751); 

。 要 避免 这 些 问 题 ， 可 以 考虑 将 标记 类 型 为 ACL GROUP OBJ 的 记录 置 为 对 所 有 
ACL USER 和 ACL GROUP 类 记录 的 约束 。 然 而 ， 这 也 意味 看 总 是 需要 将 ACL 
GROUP OBJ 型 记录 置 为 ACL USER 和 ACL GROUP 型 记录 所 允许 权限 的 并 集 。 而 系 
统 又 会 使 用 ACL_ GROUP OBJ 型 记录 来 判定 赋予 文件 组 的 权限 ， 这 会 引发 冲突 。 

设计 标记 类 型 为 ACL_ MASK 的 记录 , 正 是 为 了 解决 上 述 问 题 。 这 一 机 制 在 实现 传统 意义 

上 的 chmodO 操 作 的 同时 ， 也 无 损 于 由 具有 ACL 概念 的 应 用 所 确立 的 文件 权限 语义 。 当 ACL 
包含 标记 类 型 为 ACL MASK 的 ACE HJ: 

e 调用 chmod() 对 传统 组 权限 所 做 的 变更 ,会 改变 ACL _MASK( 而 非 ACL_GROUP_OBJ) 
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标记 类 型 ACE 的 设置 。 

。 调用 stat), E st mode 字段 (图 15-1) 的 组 权限 位 中 会 返回 ACL MASK 权限 (而 非 
ACL GROUP OBJ 权限 )。 

尽管 ACL MASK 型 记录 的 出 现 保 护 了 ACL 信息 , 使 其 免 遭 并 无 ACL 概念 的 应 用 的 “ 误 





伤 ”” 反 之 却 并 非 如 此 。ACL 的 优先 级 要 局 于 对 文件 组 权限 的 传统 操作 。 例 如 ， 假设 为 菜 文件 
设置 了 如 下 ACL: 


user::rw-,group::---,mask::---,other::r-- 
若 针 对 该 文件 执行 chmod gtrw 命令 ， 则 ACL 将 会 变 为 : 
user::rw-,group::---,mask::rw-,other::r-- 


这 时 ， 组 用 户 仍 无 法 访问 该 文件 。 一 种 迁 回 策略 是 修改 针对 组 的 ACE， 赋予 其 所 有 权限 。 





结果 ， 组 用 户 总 是 能 获得 ACL MASK 型 记录 的 所 有 权限 。 





17.5 getfacl 和 setfacl 命令 


在 shell 中 运行 getfacl 命令 ， 可 查看 到 应 用 于 文件 的 ACL. 


$ umask 022 Set shell umask to known state 
$ touch tfile Create a new file 

$ getfacl tfile 

# file: tfile 

# owner: mtk 

# group: users 

USer::rw- 

group: :r-- 

other: :r-- 


由 getfacl 命令 的 输出 可 知 ， 新 建文 件 上 只 有 最 小 的 ACL 权限 。getfacl 命令 会 在 输出 ACL 














记录 的 文本 格式 之 前 ， 显 示 该 文件 的 名 称 和 属 主 、 属 组 。 执 行 getfacl 命令 时 ， 如 带 有 
-—omit-header 选项 ， 可 省 略 上 述 内 容 。 





接 下 来 的 例子 则 显示 ， 执 行 传统 的 chmod 命令 来 改变 文件 访问 权限 时 ， 其 效 末 员 军 到 文 


件 的 ACL 上 。 


记 类 
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$ chmod u=rwx,g=rx,0=x tfile 
$ getfacl --omit-header tfile 
USer::rwx 

group: :r-x 

other::--x 


setfacl 命令 可 用 来 修改 文件 的 ACL。 下 例 中 执行 setfacl -m 命令 ， 为 文件 的 ACL EDER 
型 为 ACL USER 和 ACL GROUP 的 记录 。 


$ setfacl -m u:paulh:rx,g:teach:x tfile 
$ getfacl --omit-header tfile 


USer::IWX 
user:paulh:r-x ACL USER entry 
group: :r-x 
group:teach:--x ACL GROUP entry 
mask: :r-x ACL MASK entry 
other::--x 
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ni-m 选项 的 setfacl 命令 可 修改 现 有 ACE， 或 者 ， 当 给 定 标 记 关 型 和 限定 符 的 ACE 不 存 
在 时 ， 会 追加 新 的 ACE setfacl 命令 还 可 使 用 -R 选项 ， 将 指定 的 ACL“ 递 归 ” 应 用 于 目录 树 
"PS PROC 

由 getfacl 命令 的 输出 可 知 ，setfacl 自动 为 该 ACL 新 建 了 一 条 标记 类 型 为 ACL MASK 的 记录 。 

人 退 加 了 ACL_USER fll ACL GROUP 标记 类 型 的 记录 会 将 该 ACL 转变 为 扩展 ACL。 因 此 ， 
在 执行 ls 二 命令 时 ， 会 在 文件 的 传统 权限 掩 码 之 后 多 一 个 加 号 (“+”)。 


$ ls -1 tfile 
-IWXI-X--X- 1 mtk users O Dec 3 15:42 tfile 


接 下 来 继续 执行 setfacl 命令 ， 以 禁用 ACL MASK 标记 类 型 记录 中 除 执行 权限 以 外 的 所 
有 权限 ， 然 后 再 执行 getfacl 命令 来 租 看 文件 的 ACL。 

$ setfacl -m m::x tfile 

$ getfacl --omit-header tfile 

USer::rwx 

user:paulh:r-x fteffective:--x 

group: :r-x tteffective:--x 

group:teach:--x 

mask: :--x 

other::--x 

在 用 户 paulh 和 文件 组 输出 后 的 “#effective: ”注释 是 指 在 与 ACL MASK 型 记录 相 与 
(CAND) 后 ， 由 上 述 记 录 所 赋予 的 权限 实际 上 要 小 于 记录 中 所 描述 的 情况 。 

再 次 执行 1s—1 命令 来 观察 文件 的 传统 权限 位 ， 由 输出 可 知 ， 组 分 关 权 限 位 反映 的 是 
ACL MASK 型 记录 的 权限 (--x)， 而 非 ACL GROUP 型 记录 中 的 权限 (r-x)。 

$ ls -1 tfile 

-IWX--X--X* 1 mtk users 0 Dec 3 15:42 tfile 

setfacl —x 则 用 来 从 ACL 中 删除 记录 。 下 例 删 除了 用 户 paulh 和 组 teach 的 记录 (删除 ACE 
时 无 需 指定 其 权限 ): 

$ setfacl -x u:paulh,g:teach tfile 

$ getfacl --omit-header tfile 

USer::rwx 

group: :r-x 

mask: :r-x 

other::--x 

请 注意 ， 在 执行 上 述 操作 时 ，setfacl 命令 会 自动 将 掩 码 型 ACE 调整 为 所 有 组 分 类 ACE 
权限 的 集合 (只 有 一 条 此 类 ACE: ACL_ GROUP_OBJ)。 若 不 想 进行 这 种 调整 ， 执 行 setfacl 
命令 时 要 市 上 -n 选项 。 

最 后 需要 说 明 的 是 ， 执 行 市 -b 选项 的 setfacl 命令 ， 可 从 ACL 中 删除 所 有 扩展 ACE, m 
只 保留 最 小 化 ACE《〈 亦 即 ， 用 户 、 组 及 其 他 )。 




















17.6 ”默认 ACL 与 文件 创建 


行文 全 此 ， 对 ACL 的 讨论 所 摘 述 的 均 属 访问 型 (access) ACL。 顾 名 思 义 ， 当 进程 访问 
与 该 ACL 相关 的 文件 时 ， 将 使 用 访问 型 ACL 来 判定 进程 对 文件 的 访问 权限 。 针 对 目录 ， 还 
可 创建 第 二 种 ACL: 默认 型 〈default) ACL. 

访问 目录 时 ， 默 认 型 ACL 并 不 参与 判定 所 授予 的 权限 。 相 反 ， 默 认 型 ACL 的 存在 与 盏 
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决定 了 在 目录 下 所 创建 文件 或 子 目 录 的 ACL MAR., CRAE ACL 存储 于 名 为 
system.posix acl default 的 扩展 属性 中 。) 





想 查看 和 设置 与 目录 相关 的 默认 型 ACL ,需要 执行 带 有 -d 选项 的 getfacl 和 setfacl 命令 。 

$ mkdir sub 

$ setfacl -d -m u::rwx,u:paulh:rx,g::rx,g:teach:rwx,o::- sub 

$ getfacl -d --omit-header sub 

USer::rwx 

user:paulh:r-x 

group: :r-x 

group: teach: rwx 

mask: : rwx setfacl generated ACL MASK entry automatically 

other::--- 

执行 市 有 -k 选项 的 setfacl 命令 ， 可 删除 针对 目录 而 设 的 默认 型 ACL. 

右 针 对 目 孙 设置 了 默认 型 ACL， 则 : 

e 新 建 于 目录 下 的 子 目录 会 将 该 目录 的 默认 型 ACL 继承 为 其 默认 型 ACL。 换 言 之 ， 默 
认 型 ACL 会 随 子 目录 的 创建 而 沿 目 录 树 传播 开 来 。 

e 新建 于 目录 下 的 文件 或 子 目 录 会 将 该 目录 的 默认 型 ACL 继承 为 其 访问 型 ACL. 与 
传统 文件 权限 位 相对 应 的 ACL 记录 将 和 创建 文件 或 子 日 录 时 系统 调用 (open()、 
mkdir0 等 等 ) 中 的 mode 参数 相 与 (及 )。 所 谓 “ 对 应 的 ACL 记录 ”是 指 : 


























- L USER OBJ; 
- ACL MASK, Z^ ACL MASK， 则 为 ACL GROUP OBJ; 
- ACL OTHER. 





一 旦 目录 拥有 默认 型 ACL， 那 么 对 于 痢 建 于 该 目 录 下 的 文件 来 说 ， 进 程 的 umask (15.4.6 
并 不 参与 判定 文件 访问 型 ACL 中 所 记录 的 权限 。 
试 举 一 例 ， 演 示 一 新 建文 件 如 何 将 其 父 目 录 的 默认 型 ACL 继承 为 自身 的 访问 型 ACL。 假 


设 使 用 如 下 openO 调 用 ， 在 前 例 所 建 目 孙 下 创建 一 新 文件 : 


open("sub/tfile", O RDWR | O CREAT, 
S IRWXU | S IXGRP | S IXOTH); — /* rwx--x--x */ 


这 一 新 文件 的 访问 型 ACL 如 下 : 
$ getfacl --omit-header sub/tfile 


USer::IWX 
user:paulh:r-x fteffective:--x 
group: :r-x tteffective:--x 
group:teach:rwx tteffective:--x 
mask: :--x 
other::--- 





HZH KFA ACL, JJ: 

。 WIE VAHGOK TIT H3&tb ES ACL, 

。 会 沿用 传统 规则 来 设置 目录 下 新 建文 件 或 目录 的 权限 。 除 去 按 进 程 的 umask 而 屏蔽 权 
限 位 之 外 ， 将 文件 权限 置 为 open0、mkdirO 等 调用 中 ) mode 参数 的 值 。 这 时 ， 新 文 
件 将 拥有 最 小 化 的 ACL. 


























17.7 ACL 在 实现 方面 的 限制 
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各 类 文件 系统 邦 对 一 ACL 中 所 含 记录 的 条 数 有 所 限制 。 
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e 对 于 ext2, ext3 以 及 ext4 文件 系统 ， 革 文件 所 含 所 有 ACL 记录 的 总 和 受制 于 如 下 要 
ok: 该 文件 扩展 属性 的 所 有 名 称 与 值 所 占 学 闻 必 须 位 于 同一 他 辑 人 磁 检 块 之 内 ( 见 16.2 
CT. BEA ACL 记录 需 占 8 字 节 ， 因 而 一 文件 所 含 ACE 的 最 大 条 数 会 略 少 于 块 大 小 
的 8 CE ACL 的 扩展 属性 名 称 也 有 一 定 开 销 )。 因 此 ， 大 小 为 4096 "£F BER m 
允许 500 条 左右 的 ACE。(2.6.11 版 本 之 前 , 内 核 要 求 ext2 和 ext3 文件 系统 中 文件 ACL 
的 记录 总 数 不 得 超过 32 条 。) 

e 对 于 XFS 文件 系统 ， 每 一 ACL 的 记录 数 上 限 为 2$ 条 。 

© 对 于 Reiserfs 和 JFS 文件 系统 ，ACL 最 多 可 含 8191 条 记录 。 之 所 以 如 此 , 是 由 于 VFS 
要 求 扩展 属性 的 值 大 小 不 得 超过 64KB《〈 见 16.2 市 )。 























BERPA, Btrfs 文件 系统 将 ACL 所 含 记录 的 条 数 限 制 在 500 条 左右 。 但 鉴于 该 文件 
系统 的 开发 极其 活跃 ， 故 而 这 一 限制 随时 可 能 发 生变 化 。 








尽管 上 面 捉 及 的 文件 系统 大 多 允许 一 ACL 包含 大 量 记录 ， 但 出 于 以 下 原因 ， 还 是 应 当 避 人 免 : 
e JUKIT] ACL 将 增加 维护 工作 的 复杂 程度 ， 且 容易 出 错 : 
e 扫描 ACL 寻找 匹配 记录 《在 执行 组 ID 检查 时 ， 还 将 匹配 多 条 记录 ) 所 需 的 时 间 ， 将 
随 记 录 条 数 的 增长 而 增长 。 
通 第 的 做 法 是 : 在 系统 组 文件 (8.3 T) 中 定义 适当 的 组 ， 并 在 ACL 中 运用 起 来 ， 从 而 
将 文件 ACL 的 记录 条 数 保持 在 一 个 较 低 的 合理 水 平 。 








17.8 ACL API 


POSIX. le 标准 草案 围绕 看 操纵 ACL 定义 了 大 量 函数 和 数据 结构 。 鉴 于 其 规模 庞大 ,要 摘 
述 所 有 函数 的 细 贡 是 不 现实 的 。 本 节 会 先 对 此 类 函数 的 用 法 进行 概括 ， 有 再 以 相关 编程 示例 作 

程序 要 使 用 ACL API， 束 应 包含 <sys/acl.h>。 如 采 还 用 到 了 POSIX.le 标准 草案 中 的 各 种 
Linux 扩展 (acl(5) 手 册页 罗列 了 一 系列 Linux 扩展 )， 程 序 可 能 还 需要 包含 <acl/libacl.h>。 为 
与 libacl 库 链 接 ， 编 译 此 类 程序 时 需 带 有 -lacl 选项 。 




















如 前 所 述 ， 在 Linux E, ACL 是 以 扩展 属性 的 方式 来 实现 的 ， 而 将 ACL API 实现 为 一 
套 操 纵 用 户 空 间 数 据 结构 的 库 函 数 ， 并 且 会 在 必要 时 调用 getxattr() 4l setxattr()， 来 获取 和 
修改 持 有 ACL 的 持久 层 system 扩展 属性 。 此 外 ， 应 用 程序 直接 调用 getxattr0 和 setxattr() 
去 操纵 ACL 也 是 可 行 的 ， 尽 管 并 不 推荐 这 一 做 法 。 





概述 

组 成 ACL API 的 函数 刊载 于 acl($) 手 册页 中 。 乍 看 起 来 ， 此 类 困 数 及 数据 结构 数量 之 巨 ， 
看 实 令 人 不 得 其 门 而 入 。 图 17-2 概括 了 各 种 数据 结构 之 间 的 关系 ,并 标明 了 诸多 ACL 函数 的 
用 法 。 

由 图 17-2 可 知 ，ACL API 将 ACL 视 为 一 层次 化 对 象 : 

e 一 个 ACL 包含 一 条 或 多 条 ACL 记录 ; 

e 每 条 记录 均 包 含 一 标记 类 型 、 一 标记 限定 从 (可 选 )， 以 及 一 权限 集合 。 
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(内 存 ACL) 





t 
S 
E 
$ (可 反复 调用 acl_get_entry()， 
以 获取 所 有 AS ) 
acl_entry_t ] acl entry t 1 | acl entry t 1 
(ACL 记录 ) | (ACL 记录 ) ， | | (ACL 记录 ) ， | 
acl md ) 
z = acl_delete_entry() 
| | 
| ~l 
S S 





acl type t acl permset t. | act get perm(), 


acl add. perm(), 
(权限 集合 ) acl delete perm(), 
acl clear perms() 


(标记 限定 符 ; 
指向 uid_t 或 gid_t 的 
指针 


(标记 类 型 ; 
整形 ) 





17-2: ACL 库 涵 数 及 数据 结构 之 间 的 关系 











接 下 来 , 将 简要 介绍 各 种 ACL 函数 。 多数 情 况 下 , 不 会 对 每 个 函数 的 返回 错误 加 以 搬 述 。 
函数 返回 整数 《〈 状 态 ) 时 ， 通 第 以 0 表示 成 功 ， 以 -1 表示 销 误 。 返 回 句 柄 《〈 指 针 ) 的 函数 出 
音 时 将 返回 NULL. AARRE, Ma KAA errno 作为 第 规 手 段 。 








句柄 Chandler) 是 一 抽 和 象 术语 ， 用 以 指 代 一 对 象 或 数据 结构 。 句 柄 的 表现 方式 由 API 
实现 决定 ， 例 如 : 可 以 是 指针 、 数 组 索引 ， 或 者 hash SÉ. 





^H 
N 

















acl get fileOPA Zi n HKR (H pathname 所 标识 ) 文件 的 ACL 副本 。 
acl t acl; 


acl - acl get file(pathname, type); 





取决 于 参数 type 的 值 CACL TYPE ACCESS z& ACL TYPE DEFAULT)， 可 调用 该 函数 


来 获取 访问 型 ACL 或 默认 型 ACL, acl get file0 函 数 将 返回 一 《〈 英 型 为 acl ITUR, DUC 
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他 ACL 函数 使 用 。 


从 内 存 ACL 中 获取 记录 


acl_get_entry0 函 数 会 返回 一 句柄 ， 指 向 内 存 ACL (由 函数 的 acl 参数 指 代 ) 中 的 记录 之 
一 。 人 句柄 的 返回 位 置 由 函数 的 最 后 一 个 参数 指定 。 
acl entry t entry; 








status = acl get entry(acl, entry id, Sentry); 

entry id 参数 决定 返回 那 条 记录 的 句柄 。 奋 将 其 指定 为 ACL_FIRST_ENTRY, 则 会 返回 的 
句柄 指向 ACL 中 的 首 条 ACE。 若 将 该 参数 指定 为 ACL NEXT_ENTRY， 则 所 返回 的 句柄 将 
指 癌 上 次 所 获取 记录 之 后 的 ACE。 因 此 ， 在 首次 调用 acl get entry0 时 ， 把 type 参数 指定 为 
ACL FIRST_ENTRY， 在 随后 的 调用 中 ， 再 将 其 指定 为 ACL _NEXT ENTRY， 如 此 这 般 ， 就 
可 以 遍历 ACL 的 所 有 记录 。 

大 成 功 获取 到 一 条 ACE，acl_get_entry0 函 数 将 返回 1， 如 无 记录 可 取 ， 则 返回 0， 失 败 ， 
则 返回 -1。 


获取 并 修改 ACL 记录 中 的 属性 
函数 acl get tag typeO 和 acl set tag type0 可 分 别 用 来 获取 和 修改 (由 entry 参数 所 指定 ) 
ACL 记录 中 的 标记 类 型 。 


acl tag t tag type; 











status = acl get tag type(entry, &tag type); 

status - acl set tag type(entry, tag type); 

tag type 参数 类 型 为 acl type t CHAI), WEP ACL_ USER OBJ, ACL USER, 
ACL GROUP OBJ, ACL GROUP, ACL OTHER 或 ACL MASK 之 一 。 

函数 acl get qualifier() 和 acl set qualifier() 可 分 别 用 来 获取 和 修改 (由 entry 参数 所 指定 ) 
ACL 记录 中 的 标记 限定 待 。 下 面 是 两 个 函数 的 使 用 实例 ， 这 里 假设 通过 对 标记 关 型 的 检测 ， 
己 然 确定 该 记录 属于 ACL_USER。 

uid t *qualp; /* Pointer to UID */ 











qualp = acl get qualifier(entry); 

status - acl set qualifier(entry, qualp); 

仅 当 ACE 的 标记 类 型 为 ACL_USER 或 ACL. GROUP 时 ， 标 记 限 定 符 才 有 和 意义。 在 上 
例 中 ，qualp 是 指向 用 户 ID (vid t*) 的 一 枚 指针 ,在 下 例 中 ， 则 是 指向 组 ID (gid t*) 的 指针 。 

PKŠ acl get permset() 和 acl set permsetO 则 可 分 别 用 来 获取 和 修改 (由 entry 参数 所 指 代 ) 
ACE 中 的 权限 集合 。 


acl permset t permset; 














acl get permset(entry, &permset); 
acl set permset(entry, permset); 


status 
status 


数据 类 型 acl permset t 是 一 个 指 代 权 限 集合 的 句柄 。 
下列 函数 则 用 来 操纵 菏 一 权限 集合 中 的 内 容 : 
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int is set; 
is set - acl get perm(permset, perm); 


status - acl add perm(permset, perm); 
status - acl delete perm(permset, perm); 
status - acl clear perms(permset); 


在 上 述 各 个 调用 中 ， 可 将 perm. 参数 指定 为 ACL READ. ACL WRITE 或 ACL 
EXECUTE 一 一 顾 名 即 可 思 义 。 上 述 函 数 的 用 法 如 下 所 述 : 
e EFE CH permse 参数 指 代 的 ) 权限 集合 中 成 功 激活 由 perm. 参数 所 指定 的 权限 ， 
acl get permQrR Zip RR] 1〈 真 值 )， 人 否则 返回 0。 该 函数 为 Linux 对 POSIX.le 标准 








草案 的 扩展 。 
e acl add_perm0 〇 函数 用 来 回 由 permse 参 数 所 指 代 的 权限 集合 中 退 加 由 perm 参 数 所 指定 
的 权限 。 


e acl delete permO 函 数 用 来 从 permse 参 数 所 指 代 的 权限 集合 中 删除 由 perm 参数 所 指定 
的 权限 。( 即 便 要 删除 的 权限 在 权限 集合 中 并 不 存在 ， 男 数 也 不 会 报错 。) 
e acl clear permO 函 数 用 来 从 permse 参数 所 指 代 的 权限 集合 中 删除 所 有 权限 。 


创建 和 删除 ACE 


acl create entry KAH RKE JU ACL 中 新 建 一 条 记录 。 该 函数 会 将 一 个 指 代 新 建 
ACE 的 句柄 返回 到 由 其 第 二 个 参数 所 指定 的 内 存 位 置 。 
acl entry t entry; 

















status = acl create entry(&acl, &entry); 

然后 ， 即 可 利用 先前 介绍 过 的 函数 来 设置 该 记录 。 
acl delete_entryO 函 数 用 来 从 ACL 中 删除 一 条 ACE. 
status = acl delete entry(acl, entry); 








更 新 文件 的 ACL 


acl set file0 函 数 的 作用 与 acl get fileO0 相 反 ， 将 使 用 驻 留 于 内 存 的 ACL 内 容 (由 acl 参 
数 所 指 代 ) 来 更 新 磁盘 上 的 ACL. 


int status; 

status - acl set file(pathname, type, acl); 

如 欲 更 新 访问 型 ACL， 需 将 该 函数 的 tpye 参数 指定 为 ACL_TYPE_ACCESS， 如 欲 更 新 
目录 的 默认 型 ACL， 则 需 将 type 指定 为 ACL_TYPE_DEFAULT， 
ACL 在 内 存 和 文本 格式 之 间 的 转换 

acl from textO 函 数 可 将 包含 文本 格式 ACL (长 短 不 拘 ) 的 字符 串 转换 为 内 存 ACL， 并 返 
回 一 个 句柄 ， 用 以 在 后 续 函 数 调 用 中 指 代 该 ACL. 

acl = acl from text(acl string); 


acl to_textO 则 执行 与 上 述 函 数 相反 的 转换 ， 并 同时 返回 对 应 于 ACL (由 acl 参数 指定 ) 
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的 长 文本 格式 字符 串 。 
char *str; 


ssize t len; 


str - acl to text(acl, &len); 
HE% len 不 为 NULL， 那 么 会 在 该 参数 所 指向 的 缓冲 区 中 放置 返回 字符 串 的 长 度 。 


ACL API 中 的 其 他 函数 


接 下 来 将 介绍 儿 个 未 见 诸 于 图 17-2 的 常用 ACL 函数 。 

acl cale mask(&acl) 函 数 用 来 计算 并 设置 内 存 ACL (其 句柄 由 acl 参数 指定 ) FP ACL MASK 
型 记录 的 权限 。 通 常 ， 只 要 是 修改 或 创建 ACL， 就 会 用 到 该 函数 。 其 会 对 所 有 ACL USER, 
ACL GROUP 以 及 ACL GROUP OBJ 型 记录 的 权限 并 集 进行 计算 , 作为 ACL_ MASK 型 记录 
HIR. FF ACL MASK 型 记录 不 存在 ， 则 该 函数 会 创建 一 个 ， 这 也 算是 该 函数 的 妙用 之 一 。 
也 就 是 说 ， 在 将 ACL USER 和 ACL GROUP 型 记录 添加 到 前 面 提 及 的 “最 小 化 ”ACL 时 ， 
调用 该 函数 就 能 确保 ACL MASK 型 记录 的 创建 。 

41227. acl 所 指定 的 ACL 432906 acl valid(acD KAORE] 0， 侣 则 ， 返 回 -1。 徊 以 下 所 有 
条 件 成 立 (为 真 )， 则 可 判定 该 ACL AX. 

e ACL USER OBJ、.ACL GROUP OBJ 以 及 ACL OTHER 类 型 的 记录 均 只 能 有 一 条 。 

e j£ ífift— ACL USER 或 ACL GROUP 类 型 的 记录 存在 ， 则 也 必然 存在 一 条 

ACL MASK 型 记录 。 

e 标记 类 型 为 ACL MASK 的 ACE 至 多 只 有 一 条 。 

。 每 条 标记 类 型 为 ACL USER 的 记录 都 有 一 唯一 的 用 户 ID. 

。 每 条 标记 头 型 为 ACL_ GROUP 的 记录 都 有 一 唯一 的 组 ID. 

















acl check Jl acl error() FK Zt OREA Linux 的 扩展 ) 与 ael. valid0 函 数 有 异曲同工 之 妙 ， 
尽管 可 移植 性 不 强 ， 但 在 处 理 畸 形 ACL 时 却 能 对 错误 提供 更 为 精确 的 描述 。 欲 知 评 情 ， 请 
参考 手册 页 。 


acl delete def file(pathname) 函 数 用 来 删除 目录 《由 参数 pathname 指定 ) 的 稚 认 型 ACL. 

acl_init(count) 函 数 用 来 狐 建 一 个 空 的 ACL 结构 ， 其 空间 足以 容纳 由 参数 count 所 指定 的 
记录 数 。( 参 数 count 回 系 统 传递 的 是 编程 者 的 柔性 诉求 ， 而 非 便 性 要 求 。) 函 数 将 返回 这 一 新 
££ ACL 的 句柄 。 

acl dup(acl) EG 25: HJ 2 2g EH acl 参数 所 指定 的 ACL 创建 副本 , 并 以 该 ACL 副本 的 句柄 作为 
返回 值 。 

acl_free(handle) 疯 数 用 来 释放 由 其 他 ACL 也 数 所 分 配 的 内 存 。 例 如 ， 上 必须 使 用 该 函数 来 
释放 由 acl from text()、acl to text, acl get file()、acl initO 以 及 acl. dupO 调 用 所 分 配 的 内 存 。 


程序 示例 

程序 清单 17-1 对 共 些 ACL 库 函 数 的 使 用 做 了 省 示 。 该 程序 可 获取 并 展示 与 文件 相关 的 
ACL ( 亦 即 ， 该 程序 提供 了 getfacl 命令 的 部 分 功能 )。 奉 以 -d 命令 行 选项 执行 该 程序 ， 则 将 显 
示 与 目录 相关 的 默认 型 ACL， 而 非 访问 型 ACL。 

以 下 为 该 程序 的 运行 示例 。 
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$ touch tfile 
$ setfacl -m 'u:annie:r,u:paulh:rw,g:teach:r' tfile 
$ ./acl view tfile 


user obj IW- 
User annie I-- 
user paulh IW- 
group obj r-- 
group teach r-- 
mask IW- 
other r-- 








供 了 setfacl 命令 的 部 分 功能 )。 


程序 清单 17-1: 显示 与 文件 挂钩 的 访问 或 默认 ACL 
acl/acl view.c 


include «acl/libacl.h» 
#include «sys/acl.h» 
include "ugid functions.h" 
include "tlpi hdr.h" 


static void 
usageError(char *progName) 


fprintf(stderr, "Usage: ^s [-d] filenameWn", progName); 
exit(EXIT FAILURE); 
j 


int 
main(int argc, char *argv[]) 


acl t acl; 

acl type t type; 

acl entry t entry; 

acl tag t tag; 

uid t *uidp; 

gid t *gidp; 

acl permset t permset; 
char *name; 

int entryId, permVal, opt; 


type - ACL TYPE ACCESS; 
while ((opt = getopt(argc, argv, "d")) != -1) { 
switch (opt) 1 


case 'd': type - ACL TYPE DEFAULT; break; 
case '?': usageError(argv[0]); 
j 


j 


if (optind + 1 !- argc) 
usageError(argv[0]); 


acl = acl get file(argv[optind], type); 
if (acl -- NULL) 
errExit('acl get file"); 


/* Walk through each entry in this ACL */ 


278 Linux/UNIX 系统 编程 手册 ( 上 册 ) 
异步 社区 会 员 flyman150(2410757683 (9 qq.com) EF 尊重 版 权 


for (entryId = ACL FIRST ENTRY; ; entryId = ACL NEXT ENTRY) { 


if (acl get entry(acl, entryId, &entry) !- 1) 
break; /* Exit on error or no more entries */ 
/* Retrieve and display tag type */ 


if (acl get tag type(entry, &tag) == -1) 
errExit("acl get tag type"); 


printf("X-12s", (tag == ACL USER 0BJ) ? "user obj" : 


(tag -- ACL USER) ? "User" : 

(tag == ACL GROUP 0BJ) ? "group obj" : 
(tag == ACL GROUP) ? "group" : 

(tag -- ACL MASK) ? "mask" : 

(tag == ACL OTHER) ? "other" : "???"); 


/* Retrieve and display optional tag qualifier */ 


if (tag -- ACL USER) ( 
uidp - acl get qualifier(entry); 

if (uidp -- NULL) 
errExit("acl get qualifier"); 


name = groupNameFromId(*uidp); 
if (name -- NULL) 

printf("%-8d ", *uidp); 
else 

printf("-8s ", name); 


if (acl free(uidp) -- -1) 
errExit("acl free"); 


) else if (tag == ACL GROUP) 1 
gidp - acl get qualifier(entry); 
if (gidp -- NULL) 
errExit("acl get qualifier"); 


name - groupNameFromId(*gidp); 
if (name -- NULL) 

printf("X-8d ", *gidp); 
else 

printf("$-8s ", name); 


if (acl free(gidp) -- -1) 
errExit("acl free"); 


} else 1 
printf(" pr 
} 


/* Retrieve and display permissions */ 


if (acl get permset(entry, &permset) == -1) 
errExit("acl get permset"); 


permVal - acl get perm(permset, ACL READ); 


if (permVal == -1) 
errExit("acl get perm - ACL READ"); 
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printf("Ac", (permVal == 1) ? 'r' : '-'); 
permVal = acl get _ be a ee e ACL WRITE); 
if (permVal -- -1) 

errExit("acl get perm - ACL WRITE"); 
printf("Ac", (permVal == 1) ? 'w' : '-'j)j 
permVal = acl get _ perit oerset ACL EXECUTE); 
if (permVal == -1) 

errExit("acl get perm - ACL EXECUTE"); 
printf("Ac", (permVal == 1) ? 'x' : '-'j)j 


printf("Nn"); 


if (acl free(acl) -- -1) 
errExit('acl free"); 


exit(EXIT SUCCESS); 


acl/acl view.c 


17.9 &Rü 


H 2.6 IRAE, Linux 开始 文 持 ACL»« ACL 是 对 传统 UNIX 文件 权限 模型 的 扩展 ， 籍 此 可 
在 每 用 户 或 每 组 的 基础 上 来 控制 对 文件 的 访问 。 


进 阶 信息 

访问 http://wt.tuxomania.net/publications/posix.le/， 可 在 线 查 看 POSIX.le 和 POSIX.2c 标 
EEK A4 CH 17 HOO. 

acl(S) 手 册页 简要 介绍 了 ACL， 并 针对 Linux 平台 所 实现 的 各 种 ACL FEES ZA, SLE UTR 
植 性 给 出 了 指导 

ACL 及 扩展 属性 的 Linux 实现 细节 刊载 于 [Griinbacher，2003]。Andreas Grünbacher 所 维 
护 的 Web 站 点 也 包含 了 与 ACL 有 关 的 信息 ， 链 接 为 http://acl.bestbits.at/。 





17.10 J 


17-1. 编写 一 个 程序 ， 根 据 与 一 特定 用 户 或 组 相对 应 的 ACE 来 显示 权限 。 该 程序 应 接受 
2 个 命令 行 参数 。 第 一 个 参数 可 以 为 字母 “u” 或 “g”， 用 以 表明 第 二 个 参数 是 用 
户 还 是 组 。( 利 用 定义 于 程序 清单 8-1 中 的 函数 ， ERSA 定 为 效 
字 或 名 称 。) 知 与 给 定 用 户 或 组 相对 应 的 ACE 隶属 于 组 分 类 ， 则 程序 还 需 另 外 显示 

与 ACL 掩 人 码 型 记录 相 与 后 的 权限 。 
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目录 与 链接 











作为 文件 相关 议题 的 后 局 篇 ， 本 草 将 讨论 目录 和 和 链接。 首先 是 对 其 系统 级 实现 进行 了 回 
顾 ， 之 后 则 描述 了 用 于 创建 和 移 除 目录 、 链 接 的 系统 调用 。 接 下 来 所 探讨 的 库 函 数 ， 可 允许 
程序 扫描 单个 目录 下 的 内 容 并 遍历 一 个 目录 树 〈 即 ， 检 碍 目录 树 中 的 每 个 文件 )。 

每 个 进程 都 有 两 个 目录 相关 属性 根 目录 及 当前 工作 目录 ， 分 别 用 于 为 解 杰 绝 对 路 径 名 和 
相对 路 径 名 提供 参照 把 。 本 革 将 搬 述 修改 二 者 的 系统 调用 。 

最 后 ， 本 章 讨 论 了 相关 库 函 数 ， 可 用 来 解析 路 径 名 ， 并 将 其 分 解 为 目录 和 文件 名 两 部 分 。 


























18.1 HRF E) 链接 


在 文件 系统 中 ， 目 录 的 存储 方式 类 似 于 普通 文件 。 目 录 与 普通 文件 的 区 别 有 二 。 

e 在 其 i-node 条 目 中 ,会 将 目录 标记 为 一 种 不 同 的 文件 类 型 (参见 14.4 节 )。 

e 明 录 是 经 特殊 组 织 而 成 的 文件 。 本 质 上 说 就 是 一 个 表格 ， 包 含 文件 名 和 i-node 编号 。 

在 大 多 数 原生 Linux 文件 系统 上 ， 文 件 名 长 度 可 达 255 NFI. B 18-1 所 示 为 针对 示例 
文件 (etc/passwd) 所 维护 的 文件 系统 inode 表 以 及 相关 目录 文件 的 部 分 内 容 ， 展示 了 目录 与 
i-node 之 间 的 关系 。 
































虽然 一 个 进程 能 够 打开 一 个 目录 ,但 却 不 能 使 用 read0O) 去 读 取 目录 的 内 容 。 为 了 检索 目 
录 内 容 ， 进 程 必须 使 用 本 章 后 续 讨 论 的 系统 调用 和 库 函 数 。( 在 一 些 UNIX 实现 中 ， 也 可 以 
对 目录 执行 read0， 但 这 会 给 应 用 带 来 可 移植 性 方面 的 问题 。) 进程 同样 也 不 能 使 用 write() 
来 改变 一 个 目录 的 内 容 ， 仅 能 借助 于 诸如 openO (创建 一 个 新 文件 )、link0、mkdir()、 
symlink), unlink) Æ rmdir0 之 类 的 系统 调用 (4.3 节 描 述 了 openO 调 用 ， 本 章 稍 后 会 介绍 余 
下 的 系统 调用 ) 来 间接 〈 向 内 核 请 求 ) 改变 其 内 容 。 

i-node 表 的 编号 始 于 1， 而 非 0， 因 为 大 目录 条 目的 inode 字段 值 为 0， 则 表明 该 条 目 
尚未 使 用 。i-node 1 用 来 记录 文件 系统 的 坏 块 。 文 件 系统 根 目录 (/) 总 是 存储 在 i-node 4& H 2 
中 《如 图 18-1 所 示 )， 所 以 内 核 在 解析 路 径 名 时 就 知道 该 从 哪里 着 手 。 
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文件 数据 
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(登录 账户 信息 ) 





18-1: 以 文件 /etc/passwd 为 例 ， 展 示 i-node 和 目录 结构 之 间 的 关系 


回顾 文件 i-node (14.4 T) 中 存储 的 信息 列表 ,会 发 现 其 中 并 未 包含 文件 名 ， 而 仅 通 过 目 
录 列 表 内 的 一 个 映射 来 定义 文件 名 称 。 其 妙用 在 于 ， 能 够 在 相同 或 者 不 同 目录 中 创建 多 个 名 
称 ， 每 个 均 指向 相同 的 i-node 节点 。 也 将 这 些 名 称 称 为 链接 ， 有 时 也 称 之 为 便 链 接 《〈 稍 后 介 
绍 )， 以 示 与 符号 链接 有 所 区 别 。 


所 有 的 原生 Linux 和 UNIX 文件 系统 均 文 持 使 链接， 然而， 许多 非 UNIX 文件 系统 〈 比 
如 ， 微 软 的 VFATO 则 不 文 持 。( 微 软 的 NTFS 文件 系统 文 持 便 链 接 。) 


可 在 shell 中 利用 ln 命令 为 一 个 业已 存在 的 文件 创建 新 的 便 链 接 ， 正 如 下 面 shell 会 话 日 


i TA 

$ echo -n 'It is good to collect things,' » abc 

$ ls -li abc 
122232 -rw-r--r-- 1 mtk users 29 Jun 15 17:07 abc 

$ ln abc xyz 

$ echo ' but it is better to go on walks.' »» xyz 

$ cat abc 

It is good to collect things, but it is better to go on walks. 

$ ls -li abc xyz 
122232 -rw-r--r-- 2 mtk users 63 Jun 15 17:07 abc 
122232 -rw-r--r-- 2 mtk users 63 Jun 15 17:07 xyz 


Cat 命令 输出 中 一 目 了 然 的 事 ， 经 过 ls-li 命令 所 示 i-node 编码 〈 即 第 一 列 ) 得 到 了 进 一 
步 证 实 。 名 称 abc 和 xyz 指 问 相同 的 i-node 条 目 ， 因 此 均 指 问 相 同文 件 。ls- 命令 所 示 内 容 的 
第 三 列 为 对 inode 链接 的 计数 。 执 行 In abc xyz 命令 后 ，abc 所 指 问 i-node 的 链接 计数 升 全 2， 


























282 Linux/UNIX 系统 编程 手册 ( 上 册 ) 
异步 社区 会 员 flyman150(2410757683 (9 qq.com) EF 尊重 版 权 








因为 现在 指 癌 该 文件 的 有 两 个 名 子 。( 由 于 指 癌 相 同 的 inode， 针 对 文件 xyz 输出 的 链接 计数 


也 是 2.) 
大 移 除 其 中 一 个 文件 名 ， 为 一 文件 名 以 及 文件 本 喘 将 继续 存在 。 
$ rm abc 
$ ls -li xyz 
122232 -rw-r--r-- 1 mtk users 63 Jun 15 17:07 xyz 


仅 当 i-node 的 链接 计数 降 为 0 mp, EIER T OXIERUDTH dA EN. AGER ERO 
文件 的 i-node 记录 和 数据 块 。 总 结 如 下 : rm 命令 从 目录 列表 中 删除 一 文件 名 ， 将 相应 i-node 
的 链接 计数 减 一 ， 奉 链接 计数 因此 而 降 为 0， 则 还 将 释放 该 文件 名 所 指 代 的 i-node 和 数据 块 。 

同一 文件 的 所 有 和 名字 链接 ) 地 位 平等 没有 一 个 名 字 《 比 如 ， 第 一 个 ) 会 优 于 其 他 
名 学 。 正 如 上 例 所 示 ， 在 移 除 与 文件 相关 的 第 一 个 名 称 后 ， 物 理 文件 继续 存在 ， 但 只 能 通过 
另 一 文件 名 来 访问 其 内 容 。 

在 线 论坛 上 经 常会 有 这 样 的 问题 出 现 : 在 程序 中 如 何 找到 与 文件 摘 述 符 X 相关 联 的 文件 
名 ? 简单 的 回答 是 不 能 ， 至 少 缺 乏 明 确 而 又 便于 移植 的 手段 ， 因 为 一 个 文件 描述 符 指 回 一 个 
i-node， 而 指 问 这 个 inode 的 文件 名 则 可 能 有 多 个 (或 者 甚至 如 18.3 市 所 述 ， 一 个 都 没有 )。 














在 Linux 系统 上 ， 借 助 于 readdir0 对 Linux 特有 /proc/PID/fd 目录 内 容 (内 含 符号 链接 
指 问 进 程 当前 打开 的 每 个 文件 描述 符 ) 的 扫描 ， 可 以 获知 一 个 进程 当前 打开 了 哪些 文件 。 
此 外 ， 己 经 移植 到 多 个 UNIX 系统 中 的 lsof(1) 和 fuser(1) 工 具 也 精 于 此 道 。 





对 便 链 接 的 限制 有 二 ， 均 可 用 符号 链接 来 加 以 规避 。 

。 因为 目录 条 目 〈 便 链接 ) 对 文件 的 指 代 采 用 了 i-node 编号 ， 而 i-node 编写 的 唯一 性 仅 
在 一 个 文件 系统 之 内 才能 得 到 保障 ， 所 以 便 链 接 必 须 与 其 指 代 的 文件 驻 留 在 同一 文 
件 系 统 中 。 

。 不 能 为 目录 创建 便 链接 ， 从 而 避免 出 现 令 诸多 系统 程序 陷于 混乱 的 链接 环 路 。 

早期 的 UNIX 实现 一 度 曾 允许 超级 用 户 为 目录 创建 便 链 接 。 这 在 当时 是 必要 的 ， 因 为 

这 些 实现 并 未 提供 mkdir0 系 统 调 有 用。 相反， 当时 会 使 用 mknodeO 调 用 创建 一 个 目录 ， 然 后 
为 .和 .. 创 建 链接 〈[Vahalia, 1996])。 里 然 这 一 特性 已 是 昨日 页 伦 , 但 一 些 现代 UNIX 实现 出 于 
问 后 疗 容 的 目的 仍 对 其 加 以 你 留 。 

使 用 绑 定 挂 载 (bind mound) 可 以 获得 与 为 目 孙 创建 使 链接 相似 的 效 束 。 





























18.2 F5 〈 软 ) 链接 


符号 链接 ， 有 时 也 称 为 软 链接 ， 是 一 种 特殊 的 文件 甘 型 ， 其 数据 是 另 一 文件 的 名 称 。 
Kl 18-2 展示 的 情况 是 ;两 个 便 链 接 /home/erena/this 和 /home/allyn/that T8 m] [8] —^^ 3C 
件 ， 而 符号 链接 /home/kiran/other， 则 指 代 文件 名 /home/erena/this。 

在 shell 中 ， 符 号 链接 是 由 In-s 命令 创建 的 。1s-F 命令 的 输出 结果 中 会 在 符号 链接 的 尾部 














标记 @。 
符号 链接 的 内 容 既 可 以 是 绝对 路 径 ， 也 可 以 是 相对 路 径 。 解 释 相 对 符 扎 链接 时 以 链接 本 
吴 的 位 置 作为 参照 点 。 

















符号 链接 的 地 位 不 如 便 链 接 。 尤 其 是 ， 文 件 的 链接 计数 中 并 未 将 符号 链接 计算 在 内 。( 因 此 ， 
图 18-2 中 编号 为 61 的 inode， 其 链接 计数 为 2， 而 不 是 3。) 因此 ， 如 果 移 除了 符号 链接 所 指向 
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AFB, PETREA RRT, RVEAJGUEBDSEEGSELTRESIUH CREDO. 操作 ， 也 将 此 类 链 
接 称 之 为 世 空 链接 。 更 有 其 者 ， 还 可 以 为 并 不 存在 的 文件 名 创建 一 个 符号 链接 。 











i-node i-node dé 文件 数据 
编号 


/home/erena A 





ol | UlDzerena | GlIDzusers T 
zlD—R— — 指向 同一 文 
件 的 两 个 硬 
permi-rw-r--r-- 链接 
(Tink count = 3 | size-518 / 
数据 块 指针 
309 | UID=kiran | GID=users | other | 309 ps t 
类 型 二 符号 链接 [ m] x 


数据 块 指针 


18-2: 对 硬 链 接 和 符号 链接 的 展现 


引入 符号 链接 的 是 4.2BSD。 虽 然 未 获 POSIX.1-1990 接纳 ， 但 SUSvl 和 SUSv3 随后 还 
是 将 其 纳入 规范 。 


因为 符号 链接 指 代 一 个 文件 名 ， 而 非 inode 编号 ， 所 以 可 以 用 其 来 链接 不 同文 件 系统 中 
的 一 个 文件 。 对 便 链 接 的 那些 制约 也 就 不 会 困扰 到 符号 链接 ， 可 以 为 目录 创建 符号 链接 。 诸 
如 find 和 tar 之 类 的 工具 命令 有 能 力 识别 硬 链接 和 符号 链接 之 间 的 差异 ， 要 么 会 在 默认 情况 下 
不 对 符号 链接 进行 解 引 用 ， 要 么 会 避免 因 使 用 符号 链接 而 陷入 引用 环 路 。 

符号 链接 之 间 可 能 会 形成 链 路 (例如 ,a 是 指向 b 的 符号 链接 , 而 b 是 指向 c 的 符号 链接 )。 
当 在 各 个 文件 相关 的 系统 调用 中 指定 了 符号 链接 时 ， 内 核 会 对 一 系列 链接 层 层 解 去 引用 ， 直 
抵 最 终 文件 。 

SUSv3 规定 ， 针 对 路 径 名 中 的 每 个 符号 链接 部 件 ， 系 统 实现 应 允许 对 其 实施 至 少 
POSIX SYMLOOP MAX 次 解除 引用 操作 。 POSIX SYMLOOP MAX 的 规定 值 为 8。 然 而 ， 
在 内 核 2.6.18 之 前 ，Linux 将 解析 符号 链接 链 路 时 的 解 引用 操作 次 数 限 制 为 5 次 。 始 于 版 本 
2.6.18, Linux 内 核实 现 了 SUSv3 所 规定 的 最 小 解 引用 次 数 : 8 次 。Linux 还 将 对 一 个 完整 路 径 
名 的 解 引用 总 数 限制 为 40 次 。 施 加 这 些 限 制 ， 意 在 应 对 超 长 符号 链接 链 路 以 及 符号 链接 环 路 ， 
从 而 使 内 核 代码 在 解析 符号 链接 时 免 于 引发 堆栈 溢出 。 
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ALS UNIX 文件 系统 的 优化 举措 ， 不 但 没有 在 正文 中 所 及 ， 而 且 也 未 见 诸 于 几 18-2. 4 
东 构 成 符 志 链接 内 容 的 字符 串 总 长 度 很 小 ， 足以 放 入 i-node 中 通 利用 于 存放 数据 指针 的 位 
置 ， 那 么 唤 会 将 字符 串 直 接 存 储 在 那里 。 这 洽 去 对 一 个 磁盘 块 的 分 配 ， 也 加 速 了 对 符号 链 
接 信 息 的 访问 ， 因 为 获取 信息 时 仅 涉 及 到 文件 的 inode。 例 如 ，ex2、ext 及 ext4 采用 这 一 技 
术 ， 将 inode 中 通常 用 于 存放 数据 块 指 针 的 60 个 字 节 转 而 用 于 存放 长 度 合适 的 符号 字符 串 。 
实践 证 明 ， 这 一 优化 措施 卓有成效 。 在 笔者 检查 过 的 某 一 系统 中 ， 符 号 链接 共计 20 700 个 ,其 
中 内 容 长 度 不 超过 60 个 字 节 的 占 97%。 


系统 调用 对 





^-^ D 


符号 








链接 的 解释 


许多 系统 调用 都 会 对 符号 链接 进行 解 引 用 处 理 〈 即 下 溯 follow)， 从 而 对 链接 所 指向 的 
文件 展开 操作 。 还 有 一 些 系统 调用 对 符号 链接 则 不 作 处 理 ， 直 接 操 作 于 链接 文件 本 身 。 书 中 
会 在 论 及 每 个 系统 调用 的 同时 ， 描 述 其 针对 符号 链接 的 行为 。 表 18-1 对 此 作 了 总 结 。 


表 18-1: 各 个 函数 对 符号 链接 的 解释 


access() 
acct() 
bind() 
chdir() 
chmod() 
chown() 
chroot() 
creat() 
exec() 
getxattr() 
Ichown() 
Igetxattr() 
link() 
listxattr() 
llistxattr() 
Iremovexattr() 
Isetxattr() 
Istat() 


lutimes() 


open() 


opendir() 





pathconf() 








UNIX BUE BC Efe 





除非 指定 了 O NOFOLLOW 或 者 
O EXCL|O CREAT 
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pivot root() 

quotactl() 

readlink() 

removexattr() 

无 论 哪 个 参数 中 的 链接 , 都 不 会 对 其 
进行 解 引 用 

在 参数 为 符号 链接 ， 则 调用 失败 ， 并 
将 errno 置 为 ENOTDIR 


rename() 





rmdir() 


setxattr() 

stat() 

statfs(), statvfs() 
swapon(), swapoff() 
truncate() 

unlink() 

uselib() 





utime(), utimes() 





少数 情况 下 ， 符 号 链接 本 映 及 其 所 指 癌 的 文件 会 需要 类 似 的 功能 ， 系 统 这 时 融会 提供 两 
套 系 统 调 用 : 一 套 会 对 链接 解除 引用 ， 另 一 套 则 反之 ， 后 者 在 命名 时 会 冠 以 字母 1。stat0 和 Istat() 
AX — E 

有 一 点 是 约定 俗 成 的 ; 总 是 会 对 路 径 名 中 目录 部 分 〈 即 最 后 一 个 斜 线 字符 前 的 所 有 组 成 
部 分 ) 的 符 扎 链接 进行 解除 引用 操作 。 因 此 ， 在 路 径 /somedirsomesubdivfile "P, £i somedir 和 
somesubdir 属于 符号 链接 ， 则 一 定 会 解除 对 这 两 个 目录 的 引用 ， 而 针对 file 是 人 否 进行 解 引 用 
与 否 ， 则 取决 于 路 径 名 所 传 入 的 系统 调用 。 


18.11 THE SAHARE 2.6.16 加 入 的 系统 调用 ， 对 表 18-1 所 展示 的 部 分 接口 功能 
有 上 所 扩展 。 对 于 其 中 的 茶 些 调用 而 言 ， 可 以 利用 flags 参数 来 控制 是 否 对 符号 链接 进行 解 引 
用 操作 。 
































符号 链接 的 文件 权限 和 所 有 权 

大 部 分 操作 会 无 视 符 写 链 接 的 所 有 权 和 权限 (创建 符 写 链接 时 会 为 其 赋予 所 有 权限 )。 
允许 操作 反而 是 由 符 写 链接 所 指 代 文 件 的 所 有 权 和 权限 来 决定 。 仅 当 在 市 有 粘性 权限 
5.4.5 市 ) 的 目录 中 对 符号 链接 进行 移 除 或 改名 操作 时 ， 才 会 考虑 符号 链接 目 映 的 所 











是 否 
位 (1 
有 权 。 


18.3 ”创建 和 移 除 〈 硬 ) 链接 : link() 和 unlink() 


linkO 和 unlinkO 系 统 调用 分 别 创 建 和 移 除 使 链接 。 
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Hinclude <unistd.h> 


int link(const char *oídpath, const char *newpath); 


Returns 0 on success, or - 1 on error 











若 oldpath 中 提供 的 是 一 个 已 存在 文件 的 路 径 名 ， 则 系统 调用 linkO 将 以 newpath 参数 所 指 
定 的 路 径 名 创建 一 个 新 链接 。 知 newpath 指定 的 路 径 名 已 然 存 在 ， 则 不 会 将 其 窗 盖 ;， 相反， 将 
产生 一 个 错误 (EEXIST)。 
在 Linux 中 ，link() 系 统 调用 不 会 对 符号 链接 进行 解 引 用 操作 。 奇 oldpath 属于 符号 链接 ， 
则 会 将 newpath 创建 为 指 问 相 同 符号 链接 文件 的 全 新 便 链 接 。( 换 言 之 ，newpath 也 是 符号 链 
接 ， 指 问 oldpath 所 指 代 的 同一 文件 〉 这 一 行为 有 悖 于 SUSv3 规范 。SUSv3 要 求 ， 除 非 另行 
规定 Uink0O 系 统 调用 不 在 此 列 )， 否 则 所 有 执行 路 径 名 解析 操作 的 函数 都 应 对 符号 链接 进行 解 
引用 。 大 多 数 其 他 UNIX 实现 的 行事 方式 都 与 SUSv3 相符 。 值得 注意 的 是 ，Solaris 是 个 例外 ， 
默认 情况 下 的 行为 与 Linux 相同 。 但 硅 米 用 适当 的 编译 右 选 项 ， 叉 可 提供 符合 SUSv3 规范 的 
行为 。 鉴 于 系统 实现 间 的 这 种 差异 ， 应 避免 将 oldpath 参数 指定 为 符号 链接 ， 以 保障 程序 的 可 
移植 性 。 
SUSv4 承认 现 有 实现 间 存 在 不 一 致 性 ， 同 时 规定 link0O 调 用 对 符号 链接 解 引 用 与 否 由 实 
现 定 义 。SUSv4 还 将 linkatO0 纳 入 规范 ， 在 执行 与 lnkO 相 同 任 务 的 同时 ， 可 利用 flag 参数 来 
控制 调用 是 否 解析 符号 链接 。 更 多 细节 参见 18.11 市 。 









































dinclude <unistd.h> 


int unlink(const char *pathname); 


Returns 0 on success, or -1 on error 








unlink() 系 统 调用 移 除 一 个 链接 (删除 一 个 文件 名 )， 且 如 采 此 链接 是 指 问 文件 的 最 后 一 个 
链接 ， 那 么 还 将 移 除 文件 本 身 。 大 pathname 中 指定 的 链接 不 存在 ， 则 unlinkO 调 用 失败 ， 并 将 
errno 置 为 ENOENT。 

unlink(O 不 能 移 除 一 个 目录 ， 完 成 这 一 任务 需要 使 用 rmdir0 或 remove0， 将 于 18.6 BET 
介绍 。 











| SUSV3 规定 ， 若 pathname 中 指定 的 是 一 个 目录 ， 则 unlinkO 调 用 失败 ， 并 将 erno 置 为 
EPERM. 然而 ， 在 Linux 中 ，unlinkO 在 这 种 情况 下 会 将 errno 置 为 EISDIR 值 。( 对 于 与 SUSv3 
间 的 这 一 差别 ，LSB 倒 也 并 不 讳言 。) 为 保障 可 移植 性 ， 应 用 程序 在 检 碍 这 种 情况 时 应 做 
两 手 准 备 。 

unlinkO 系 统 调用 不 会 对 符号 链接 进行 解 引用 操作 ， 寿 pathname 为 从 号 链接 ， 则 移 除 链接 
本 喘 ， 而 非 链接 指向 的 名 称 。 


仅 当 关闭 所 有 文件 描述 符 时 ， 方 可 删除 一 个 已 打开 的 文件 
内 核 除 了 为 每 个 inode 维护 链接 计数 之 外 ， 还 对 文件 的 打开 文件 描述 参见 图 5-2) 计数 。 
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当 移 除 指 癌 文件 的 最 后 一 个 链接 时 ， 如 果 仍 有 进程 持 有 指 代 访 文 件 的 打开 文件 摘 述 符 ， 那 么 
在 关闭 所 有 此 类 摘 述 符 之 前 ， 系 统 实际 上 将 不 会 删除 该 文件 。 这 一 特性 的 妙用 在 于 允许 取消 
对 文件 的 链接 ， 而 无 需 担 心 是 否 有 其 他 进程 已 将 其 打开 。( 然 而 ， 对 于 链接 数 已 降 为 0 的 打开 
文件 ， 就 无 法 将 文件 名 与 其 重新 关联 起 来 。， 此外， 基于 上 述 事 实 ， 还 可 以 玩 点 小 技巧 ， 先 创 
建 并 打开 一 个 临时 文件 , 随即 取消 对 文件 的 链接 Cunlink), 然后 在 程序 中 继续 使 用 该 文件 。( 这 
正 是 5.12 市 所 述 tmpfileO ER 230] PET E Br AJ o) 

程序 清单 18-1 对 此 现象 做 了 展示 。 

















程序 清单 18-1: 使 用 unlink() 移 除 一 个 链接 


dirs links/t unlink.c 
include «sys/stat.h» 


include «fcntl.h» 
#include "tlpi hdr.h" 


#define CMD SIZE 200 
#define BUF SIZE 1024 


int 
main(int argc, char *argv[]) 


int fd, j, numBlocks; 
char shellCmd[CMD SIZE]; /* Command to be passed to system() */ 
char buf[BUF SIZE]; /* Random bytes to write to file */ 


if (argc < 2 || stremp(argv[1], "--help") == 0) 
usageErr("Xs temp-file [num-1kB-blocks] An", argv[0]); 


numBlocks = (argc > 2) ? getInt(argv[2], GN GT 0, "num-1kB-blocks") 
: 100000; 


fd - open(argv[1], O WRONLY | O CREAT | O EXCL, S IRUSR | S IWUSR); 

if (fd -- -1) 
errExit("open"); 

if (unlink(argv[1]) == -1) /* Remove filename */ 
errExit("unlink"); 


for (j = 0; j < numBlocks; j++) /* Write lots of junk to file */ 
if (write(fd, buf, BUF SIZE) !- BUF SIZE) 
fatal("partial/failed write"); 


snprintf(shellCmd, CMD SIZE, "df -k ^dirname %s`", argv[1]); 
system(shellCmd); /* View space used in file system */ 


if (close(fd) -- -1) /* File is now destroyed */ 
errExit("close"); 
printf("**eeeeeec* Closed file descriptor"); 


system(shellCmd); /* Review space used in file system */ 
exit(EXIT SUCCESS); 


dirs links/t unlink.c 


程序 清单 18-1 中 程序 接受 两 个 命令 行 参数 。 第 一 个 参数 标识 程序 应 该 创建 的 文件 名 称 。 
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程序 打开 此 文件 后 随即 取消 与 文件 名 的 链接 。 虽 然 文 件 名 已 消失 ， 但 是 文件 本 喘 依 然 存 在 。 
然后 程序 同文 件 随机 写 入 一 些 数据 块 ， 数 据 块 数量 由 程序 的 第 二 个 命令 行 参数 (可 选项 ) 指 
定 。 这 时 ,程序 会 利用 df(1) 命 令 显示 文件 系统 的 空间 使 用 情况 。 程 序 接着 会 关闭 文件 摘 述 符 ， 
系统 因 之 而 将 文件 移 除 , 程序 会 再 次 使 用 df(1) 命 令 来 显示 有 所 下 降 的 磁盘 使 用 情况 。 如 下 shell 
会 话 演示 了 运行 程序 清单 18-1 程序 的 情况 : 

$ ./t unlink /tmp/tfile 1000000 




















Filesystem 1K-blocks Used Available Use% Mounted on 
/ dev/sda10 5245020 | 3204044 2040976 625 / 
Toeeeeeee** Closed file descriptor 

Filesystem 1K-blocks Used Available Use% Mounted on 
/ dev/sda10 5245020 2201128 3043892 425 / 


程序 清单 18-1 使 用 system0 〇 函数 来 执行 shell 命令 ，27.6 节 将 对 此 函数 做 详细 描述 。 


18.4 更 改 文件 名 : rename() 


借助 于 renameO 系 统 调用 , 既 可 以 重 命名 文件 ,又 可 以 将 文件 移 全 同一 文件 系统 中 的 万 一 
H3. 








#include <stdio.h> 


int rename(const char *oldpath, const char *newpath); 


Returns 0 on success, or -1 on error 








调用 会 将 现 有 的 一 个 路 径 名 oldpath 重 命 名 为 newpath 参数 所 指定 的 路 径 名 。 
rename0O 调 用 仅 操 作 目 录 条 目 ， 而 不 移动 文件 数据 。 改 名 既 不 影 啊 指 癌 该 文件 的 其 他 便 链 
接 ， 也 不 影响 持 有 该 文件 打开 描述 符 的 任何 进程 ， 因 为 这 些 文件 接 述 符 指 回 的 是 打开 文件 摘 
Xh, (在 调用 open0 之 后 ) 与 文件 名 并 无 瓜葛 。 
以 下 规则 适用 与 对 rename() 的 调用 。 
e 行 newpath CFE, WAEA Mo 
e F newpath 与 oldpath 指 问 同一 文件 ， 则 不 发 生变 化 ( 且 调 用 成 功 )。 这 很 不 合 常 理 。 顺 
大 上 一 条 规则 的 思路 ， 通 常 的 推断 是 :如果 两 个 文件 名 x 和 y 都 存在 ， 那 么 调用 
rename("x","y") 时 应 当 把 x 移 除 才 是 。 但 如 果 x 和 y 链接 的 是 同一 文件 ， 事 实 却 并 非 如 此 。 





























此 规则 源 于 早期 的 BSD 实现 ， 其 动机 可 能 是 出 于 这 样 的 考虑 : 要 保障 诸如 rename C'x", 
"x"). rename ("x", "/x") 以 及 rename ("x", "somedir/./x") 之 类 的 调用 不 会 移 除 文件 ， 内 
核 必须 进行 检查 。 而 这 种 设计 则 有 助 于 简化 这 一 检查 。 








e rename() 系 统 调用 对 其 两 个 参数 中 的 符号 链接 均 不 进行 解 引 用 。 如 果 oldpath 是 一 符号 
链接 ， 那 么 将 重 命 名 该 符号 链接 。 如 果 newpath 是 一 符号 链接 ， 那 么 会 将 其 视 为 由 
oldpath 重 命名 而 成 的 普通 路 径 名 《 即 移 除 已 有 的 符 扎 链接 newpath )。 

e WR oldpath 指 代 文 件 ， 而 非 目 录 ， 那 么 驶 不 能 将 newpath 指定 为 一 个 目录 的 路 径 名 
(人 否则 将 errno 置 为 HISDIR)。 要 想 重 命名 一 个 文件 到 某 一 目录 中 〔( 亦 即将 文件 移 到 为 
一 目录 )，newpath 必须 包含 新 的 文件 名 。 如 下 调用 既 将 一 个 文件 移动 到 为 一 目录 中 ， 
同时 又 将 其 改名 : 
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rename("sub1/x", "sub2/y"); 

e Fý oldpath 指定 为 目录 名 ， 则 意 在 重 命名 该 目录 。 这 种 情况 下 ， 必 须 体 证 newpth 要 
么 不 存在 ， 要 么 是 一 个 空 目录 的 名 称 。 无 论 newpath 是 一 个 已 有 文件 还 是 一 个 非 空 目 
录 ， 调 用 都 将 出 错 ( 分 别 将 errno 置 为 ENOTDIR 和 ENOTEMPTY )。 

e $ oldpath 是 一 日 录 ， 则 newpath 不 能 包含 oldpath 作为 其 目录 前 级 。 例 如 ， 不 能 将 
/home/mtk 重 命 名 为 /home/mtk/bin (错误 为 EINVAL). 

e oldpath 和 newpath 所 指 代 的 文件 必须 位 于 同一 文件 系统 。 之 所 以 如 此 ， 是 因为 目录 内 
容 由 便 链接 列表 组 成 , 且 便 链接 所 指 问 的 i-node 与 目录 位 于 同一 文件 系统 。 如 前 所 述 ， 
rename0O 仅 限于 操作 目录 列表 的 内 容 。 试 多 将 一 文件 重 命名 全 不 同 的 文件 系统 将 返回 
tiiv EXDEV。( 非 要 如 此 , 必须 从 一 个 文件 系统 中 将 其 文件 内 容 复 制 到 另 一 文件 系统 ， 
然后 绸 删除 老 文 件 。 这 正 是 mv 命令 的 功能 所 在 。) 
































18.5 “使 用 符号 链接 : symlink() 和 readlink() 
现在 来 看 看 用 于 创建 符号 链接 ， 以 及 检 答 其 内 容 的 系统 调用 。 
symlink() 系 统 调用 会 针对 由 filepath 所 指定 的 路 径 名 创建 一 个 新 的 符号 链接 

( 想 移 除 和 从 写 链 接 ， 需 使 用 unlinkO 调 用 。) 





linkpath 。 





#include «unistd.h» 


int symlink(const char *filepath, const char *[mkpath); 


Returns 0 on success, or -1 on error 














$r linkpath 中 给 定 的 路 径 名 已 然 存在 ， 则 调用 失败 〈 且 将 erno ÆN EEXIST). H filepath 指 
定 的 路 径 名 可 以 是 绝对 路 径 ， 也 可 以 是 相对 路 径 。 

由 filepath 所 命名 的 文件 或 目录 在 调用 时 无 需 存 在 。 即 便当 时 存在 ， 也 无 法 阻止 后 来 将 其 
删除 。 这 时 ，linkpath EA "^t^, 其 他 系统 调用 试图 对 其 进行 解 引 用 操作 都 将 出 错 〈 通 
常 错误 号 为 ENOENT )。 

如 果 指 定 一 符号 链接 作为 open0 调 用 的 pathname 参数 ， 那 么 将 打开 链接 指向 的 文件 。 有 
时 ， 倒 宁愿 获取 链接 本 身 的 内 容 ， 即 其 所 指 回 的 路 径 名 。 这 正 是 readlinkO 系 统 调 用 的 本 职工 
作 ， 将 符号 链接 字符 串 的 一 份 副 本 置 于 buffer 指 同 的 字符 数组 中 。 
































#include «unistd.h» 


ssize t readlink(const char *pathname, char *buffer, size t bufsiz); 





Returns number of bytes placed in buffer on success, or -1 on error 





bufsiz 是 一 个 整 型 参数 ， 用 以 告知 readlinkO 调 用 buffer 中 的 可 用 字 节 数 。 

如 果 一 切 顺 利 ，readlinkO 将 返回 实际 放 入 buffer PHF TA m EKE bufsiz, M 
置 于 buffer 中 的 是 经 鹤 断 处 理 的 学 符 串 《〈 并 返回 字符 串 大 小 ， 尔 即 bufsiz )。 

由 于 buffer 尾部 并 未 放置 终止 空 字符 ， 故 而 也 无 法 分 辨 readlinkO 所 返回 的 字符 串 到 撒 是 
经 过 截断 处 理 ， 还 是 恰巧 将 buffer 需 满 。 验 证 后 者 的 方法 之 一 是 重 狐 分 配 一 块 更 大 的 buffer, 
并 再 次 调用 readlinkO0。 另 外 ， 还 可 以 将 pathname 的 长 度 定义 为 常量 PATH MAX (参见 11.1 
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节 )， 访 常量 定义 了 程序 可 拥有 的 最 长 路 径 名 长 度 。 
程序 清单 18-4 演示 了 readlink() 的 用 法 。 


为 限制 符号 链接 中 所 能 存储 的 最 大 字 节 数 ，SUSv3 定义 了 一 个 新 限制 SYMLINK MAX， 
要 求 系 统 实现 对 此 加 以 定义 ， 并 规定 其 不 得 少 于 255 "^E B. SERE, Linux 尚未 对 此 
限制 作出 定义 。 而 正文 之 所 以 建议 使 用 PATH. MAX, 是 因为 该 限制 全 少 与 SYMLINK_MAX 
大 小 相当 。 

SUSv2 将 readlink0O 的 返回 类 型 定义 为 int， 而 当前 的 许多 实现 (以 及 Linux 中 较 老 版 本 
的 glibc) 对 此 奉行 不 那 。SUSv3 则 将 readlinkO 的 返回 值 类 型 改 为 ssize t. 














18.6 创建 和 移 除 目录 : mkdir() 和 rmdir() 


mkdir0 系 统 调用 创建 一 个 新 目录 。 





#include «sys/stat.h» 


int mkdir(const char *pathname, mode t mode); 


Returns 0 on success, or -1 on error 











pathname ZARE fr H KAIRIE. VATIC n] EAHA Ete. tn PAESE E ee 
耕 上 共有 该 路 径 名 的 文件 已 经 存在 ， 则 调用 失败 并 将 errno E 7j EEXIST. 

对 独 目 录 所 有 权 的 设置 轩 循 15.3.1 节 所 述 规则 。 

mode 参数 指定 了 新 目录 的 权限 。(15.3.1、15.3.2 和 15.4.5 各 节 描 述 了 目录 权限 位 的 含义 。) 
对 该 位 掩 但 值 的 指定 方式 既 可 以 与 open0 调 用 相同 一 一 对 表 15-4. 所 列 各 常量 进行 或 (|) 操 作 ， 
也 可 直接 赋予 八进制 数值 。 既 定 的 mode 值 还 将 于 进程 掩 码 相 与 (&&) (参见 15.4.6 节 )。 男 外 ， 
set-user-ID 位 始终 处 于 关闭 状态 ， 因 为 该 位 对 于 目录 而 言 坚 无 意义 。 

如 果 在 mode ET NH. 〈S_ISVTX)， 那 么 将 对 新 目录 设置 该 权限 。 

调用 还 会 忽略 在 mode 中 设置 的 set-group-ID 位 〈《S_ISGID )。 相 反 ， 符 对 其 父 目 录 设 置 了 
set-group-ID 4v , 则 同样 会 对 狐 建 目录 设置 该 权限 ,15.3.1 下 曾 指 出 , 对 目录 设置 set-group-ID 
权限 位 将 导致 目录 中 新 建文 件 的 组 ID 取 自 目录 组 ID, 而 非 进 程 有 效 组 ID。mkdir() 系 统 调 
用 按 此 处 接 述 的 方式 来 传播 set-group-ID 权限 位 ， 以 保证 目录 下 所 有 子 目 录 的 行为 均 保持 
一 致 。 

SUSv3 明文 规定 ，mkdir0 对 set-user-ID, set-group-ID LI Aiit. Eh] A3 77 IE EH SEHE. X. o 
菏 些 UNIX 实现 在 新 建 目 录 时 总 是 关闭 这 3 个 权限 位 。 

新 建 目 录 包 括 两 个 条 目 : .( 点 )， 即 指 问 目录 上 日 喘 的 链接 ; ..〈( 点 点 )， 即 指 问 父 目录 的 
链接 。 
























































SUSv3 并 未 要 求 目 录 中 包括 .和 .条目 ， 只 是 要 求 当 路 径 中 出 现 . 和 .. 时 ， 实 现 应 能 正确 解 
释 。 铬 要 保证 应 用 程序 的 可 移植 性 ， 则 不 应 假设 目录 中 存在 这 些 条 目 。 

















mkdir0 系 统 调用 所 创建 的 仅仅 是 路 径 名 中 的 最 后 一 部 分 。 换 言 之 ，mkdir("aaa/bbb/ccc"，mode) 
仅 当 目录 aaa 和 aaa/bbb 已 经 存在 的 情况 下 才 会 成 功 。( 这 相当 于 mkdir(1) 命 令 的 默认 行为 ， 但 
mkdir(1) 同 时 也 提供 -p 选项 ， 可 将 不 存在 的 中 间 目 录 一 一 创建 。) 
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GNU C 语言 库 提 供 有 mkdtemp(template)Pq Zt, PJ i mkstempOrPAZAH] * Ho" hko ix 
函数 会 创建 一 个 唯一 命名 的 目录 ， 在 对 所 有 者 开局 读 、 写 和 执行 权限 的 同时 ， 不 对 任何 其 
他 用 户 赋 予 任何 权限 。 不 过 ，mkdtemp(O 所 返回 的 并 非 一 个 文件 朱 述 符 ， 而 是 一 枚 指针 ， 指 
问 经 过 修改 处 理 的 字符 串 ， 内 含 template 中 的 实际 目录 名 。 访 图 数 并 未 纳入 SUSv3 Ay, 
也 未 获得 所 有 UNIX 实现 的 文 持 ， 但 SUSv4 对 其 作 了 定义 。 




















rmdir0 系 统 调用 移 除 由 pathname 指定 的 目录 ， 该 目录 可 以 是 绝对 路 径 名 ， 世 可 以 是 相对 
路 径 名 。 





#include «unistd.h» 


int rmdir(const char *pathname); 








Returns 0 on success, or -1 on error 





要 使 rmdirO 调 用 成 功 ， 则 要 删除 的 目录 必须 为 宝 。 如 果 pathname 的 最 后 一 部 分 为 从 号 链 
接 ， 那 么 rmdirO 调 用 将 不 对 其 进行 解 引 用 操作 ， 并 返回 错误 ， 同 时 将 errno 7j ENOTDIR. 











18.7 移 除 一 个 文件 或 目录 : remove() 


remove() 库 函数 移 除 一 个 文件 或 一 个 空 目录 。 





#include «stdio.h» 


int remove(const char *pathname); 


Returns 0 on success, or -1 on error 








如 果 pathname 是 一 文件 ， 那 么 remove0 去 调用 unlinkO; 如 果 pathname 为 一 目录 ， 那 么 
remove() 去 调用 rmdir()。 

与 unlink()、rmdir() 一 样 ，remove0O 不 对 符号 链接 进行 解 引 用 操作 。 阁 pathname 是 一 符号 
链接 ， 则 remove() 会 移 除 链接 本 身 ， 而 非 链 接 所 指 问 的 文件 。 

如 果 移 除 一 个 文件 只 是 为 创建 同名 新 文件 做 准备 ， 那 么 编码 时 使 用 remove0O 函 数 会 更 加 简 
单 ， 无 需 再 去 检 奋 目录 名 所 指 是 文件 还 是 目录 ， 然 后 再 决定 是 调用 unlinkO 还 是 rmdir(). 











remove) ja T C iR A ENER RG ] A UNIX 和 非 UNIX 系统 所 文 持 。 大 多 数 非 UNIX 
系统 并 不 文 持 便 链 接 ， 押 以 将 移 除 文件 的 函数 命名 为 unlink(O) 也 个 合 情 理 。 


18.8 读 目 录 : opendir() 和 readdir() 
本 节 所 述 库 函数 可 用 于 打开 一 个 目录 ， 并 逐一 获取 其 包含 文件 的 名 称 . 











读 取 目录 的 库 函 数 均 以 getdents0 系 统 调 用 〔〈 未 纳入 SUSv3 规范 ) 为 基础 ， 但 其 接口 更 
易于 使 用 。Linux 还 提供 了 readdir(2) 系 统 调用 (相对 于 此 处 描述 的 readdir(3) 库 函数 )， 所 执行 
的 任务 类 似 于 getdentsO, tE AZ TS P IE 
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opendir() 函 数 打开 一 个 目录 ， 并 返回 指向 该 目录 的 句 顶 ， 供 后 续 调用 使 用 。 





#include «dirent.h» 


DIR *opendir(const char *d?rpath); 


Returns directory stream handle, or NULL on error 








opendir() PR Zt 1T7T FH. dirpath 指定 的 目录 ， 并 返回 指 问 DIR 类 型 结构 的 指针 。 该 结构 即 所 
谓 目 录 流 《directory stream)， 尔 即 调用 者 传递 给 下 述 其 他 函数 的 句柄 。 一 旦 从 opendir0 返 回 ， 
则 将 目录 流 指 问 目 录 列 表 的 首 条 记录 。 

除了 要 创建 的 目录 流 所 针对 的 目录 由 打开 文件 摘 述 符 指 代 之 外 ，fdopendirO 与 opendir() 
并 无 不 同 。 





#include «dirent.h» 


DIR *fdopendir(int fd); 








Returns directory stream handle, or NULL on error 





提供 fdopendir)EA Zi, — xd SB NER RU fee 18.11 DB DrXS e Bye S AR TERI PRA e 

调用 fdqopendir0 成 功 后 ,文件 描述 符 将 处 于 系统 的 控制 之 下 ， 且 除了 利用 本 和 余下 部 分 所 
描述 的 函数 之 外 ， 程 序 不 应 采取 任何 其 他 方式 对 其 进行 访问 。 

SUSv4 定义 了 fdopendir() K Zi ((H SUSv3 并 未 将 其 纳入 规范 )。 

readdir() 疯 数 从 一 个 目录 流 中 读 取 连续 的 条 目 。 


#include «dirent.h» 











struct dirent *readdir(DIR *d?rp); 


Returns pointer to a statically allocated structure describing 
next directory entry, or NULL on end-of-directory or error 


每 调用 readdir() 一 次 ， 束 会 从 dirp 所 指 代 的 目录 流 中 读 取 下 一 目录 条 目 ， 并 返回 一 枚 指针 ， 
指 同 经 静态 分 配 而 得 的 dirent 类 型 结构 ， 内 含 与 该 条 上 日 相关 的 如 下 信息 : 
struct dirent { 
ino t d ino; /* File i-node number */ 
char d name[]; /* Null-terminated name of file */ 
}; 
每 次 调用 readdirO 都 会 覆盖 该 结构 。 




















出 于 对 程序 可 移植 性 的 考虑 ， 上 述 定 义 略 去 了 Linux dirent 结构 中 的 各 种 非 标准 字段 。 
这 其 中 最 令 人 感 兴趣 的 当 属 d. type, 它 同 时 获得 了 BSD 流派 的 文 持 ， 但 并 未 在 其 他 UNIX 系 
统 中 实现 。 该 属性 值 用 于 标识 命名 于 d name 之 中 文件 的 类 型 ， 诸 如 DT_REG (普通 文件 )、 
DT DIR (目录 )、DT LNK (符号 链接 ) 或 DT FIFO (FIFO)。( 这 些 名 称 类 似 于 表 15-1 
所 列 诸 宏 。) 利用 该 属性 值 可 省 去 为 确定 文件 类 型 而 对 Istat 0 的 调用 。 注 意 ， 写 作 本 书 时 ， 
该 属性 仪 获得 Btrfs、ext2、ext3 以 及 ext4 的 全 面 文 持 。 


调用 Istat) (或 者 statO)， 如 采 应 对 符 写 链接 解 引 用 时 ) 可 获得 d name 所 指 问 文 件 的 更 多 
信息 ， 其 中 ， 路 径 名 由 之 前 调用 opendirO 时 指定 的 dirpath 参数 与 “/” 子 从 以 及 d name 字段 的 
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返回 值 拼接 组 成 。 


readdirO) 返 回 时 并 未 对 文件 名 进行 排序 ， 而 是 按照 文件 在 目录 中 出 现 的 天 然 次 序 〈 这 取决 
于 文件 系统 癌 目 录 添 加 文件 时 所 遵循 的 次 序 ， 及 其 在 删除 文件 后 对 目录 列表 中 空 隐 的 填补 方 
式 )。( 命 令 ls 对 文件 列表 的 排列 与 调用 readdir0 时 一 样 ， 均 未 做 排序 处 理 。) 


使 用 scandir(3) 函 数 可 以 获得 经 过 排序 处 理 的 文件 列表 ， 且 排列 规则 可 由 程序 员 定 义 ， 


具体 细节 请 参考 手册 页 。 尽管 该 函数 未 获 SUSv3 接纳 , 但 得 到 了 大 多 数 UNIX 实现 的 支持 
SUSv4 也 对 scandirO 作 了 定义 。 





























一 旦 起 到 目录 结尾 或 是 出 错 ，readdir() 将 返回 NULL， 针 对 后 一 种 情况 ， 还 会 设置 errno 以 
未 其 体 错误 。 为 了 区 列 这 两 种 悄 况 ， 可 编码 如 下 : 
errno = 0; 
direntp = readdir(dirp); 
if (direntp == NULL) { 
if (errno != 0) { 
/* Handle error */ 
} else { 


/* We reached end-of-directory */ 
} 











} 
如 果 目 录 内 容 恰 着 应 用 调用 readdir0 扫 摘 该 目录 时 发 生变 化 ， 那 么 应 用 程序 可 能 无 法 观察 
到 这 些 变动 。SUSv3 明确 指出 ， 对 于 readdir0 是 人 否 会 返回 和 目 上 次 调用 opendir0 或 rewinddirO 后 在 


目录 中 增 减 的 文件 ， 规 范 不 做 要 求 。 人 至 于 最 后 一 次 执行 上 述 调用 前 融 存 在 的 文件 ， 应 确 你 其 全 
部 返回 。 




















rewinddirO 函 数 可 将 目录 流 回 移 到 起 点 ， 以 便 对 readdir0 的 下 一 次 调用 将 从 目录 的 第 一 个 
HITI B. 





Hinclude «dirent.h» 


void rewinddir(DIR *d?rp); 














closedirO KZO H dirp 指 代 、 处 于 打开 状态 的 目录 流 关 闭 ， 同 时 释放 流 押 使 用 的 资源 。 


#include «dirent.h» 





int closedir(DIR *dirp); 





Returns 0 on success, or -1 on error 








SUSv3 还 定义 了 两 个 高 级 函数 : telldir) I seekdir0， 人 允许 随机 访问 目录 流 。 有 关 这 些 函 
数 的 深入 信息 请 参考 手册 页 。 


目录 流 与 文件 描述 符 


有 一 个 目录 沉 ， 束 有 一 个 文件 插 述 从 与 之 关联。dirfd0 孙 数 返回 与 dirp 目录 流 相 关联 的 文 
TERRA o 





dinclude «dirent.h» 


int dirfd(DIR *d?rp); 





Returns file descriptor on success, or -1 on error 
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例如 ， 将 dirfd OR [BI] SC PERS DEBEAS fehdir) 参见 18.10 市 )， 束 可 以 把 进程 的 当前 





工作 目录 改 成 相应 目录 。 此 外 ， 还 可 以 将 其 传递 给 18.11 市 所 述 各 函数 的 dirfd 参数 。 





dirfd() PR Ze Li T BSD 系统 ， 但 在 其 他 实现 中 则 鲜 有 踪迹 。 该 函数 未 狭 SUSv3 接纳 ， 


但 SUSv4 则 对 其 做 了 规范 。 














这 里 值得 一 提 的 是 ，opendir(0 会 为 与 目录 流 相 关联 的 文件 摘 述 符 目 动 设 置 close-on-exec 标志 
(FD_CLOEXEC)， 以 确保 当 执 行 execO 时 目 动 关 闭 该 文件 描述 符 。(SUSv3 要 求 这 一 行为 。) 


close-on-exec 标志 将 在 27.4 闻 加 以 描述 。 


示例 程序 


程序 清单 18-2 使 用 opendir()、readdir() 和 closedirO 函 数 来 列 出 由 命令 行 参数 所 指定 各 目录 








的 内 容 《〈 知 未 提供 参数 则 为 当前 工作 目录 )。 以 下 是 运行 该 程序 的 一 个 例子 : 





$ mkdir sub Create a test directory 

$ touch sub/a sub/b Make some files in the test directory 
$ ./list files sub List contents of directory 

sub/a 

sub/b 


程序 清单 18-2: $4$8— T Ho 


dirs links/list files.c 


dinclude «dirent.h» 
#include "tlpi hdr.h" 


static void /* List all files in directory 'dirPath' */ 
listFiles(const char *dirpath) 
1 

DIR *dirp; 

struct dirent *dp; 

Boolean isCurrent; /* True if 'dirpath' is "." */ 


isCurrent = strcmp(dirpath, ".") == 0; 


dirp = opendir(dirpath); 

if (dirp == NULL) { 
errMsg("opendir failed on '%s'", dirpath); 
return; 


j 


/* For each entry in this directory, print directory + filename */ 


for (55) 1 


errno - 0; /* To distinguish error from end-of-directory */ 


dp - readdir(dirp); 
if (dp -- NULL) 
break; 


if (strcmp(dp-»d name, ".") == 0 || strcemp(dp-»d name, "..") == 0) 


continue; /* Skip . and .. */ 


if (lisCurrent) 
printf("4s/", dirpath); 
printf("%s\n", dp-»d name); 
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if (errno !- 0) 
errExit("readdir"); 


if (closedir(dirp) -- -1) 
errMsg("closedir"); 


} 
int 
main(int argc, char *argv[]) 


if (argc > 1 88 strcmp(argv[1], "--help") == 0) 
usageErr("Xs [dir...]Nn", argv[0]); 


if (argc -- 1) /* No arguments - use current directory */ 
listFiles("."); 
else 
for (argv++; *argv; argv++) 
listFiles(*argv); 


exit(EXIT SUCCESS); 


dirs links/list files.c 


readdir. r()ER Zq 

readdir TO 函数 是 readdir0 的 变 体 。 二 者 之 间 语 义 上 的 关键 差 寞 在 于 前 者 是 可 重 入 的 ， 而 后 者 
不 是 。 这 是 因为 readdir r0 对 文件 条 目的 返回 利用 的 是 由 调用 者 分 配 的 entry 参数 ， 而 readdir0 则 
是 将 信息 置 于 静态 分 配 的 结构 并 返回 其 指针 。21.1.2 节 和 31.1 节 讨 论 了 可 重 入 性 (reentrancy )。 





























#include «dirent.h» 


int readdir r(DIR *d?rp, struct dirent *eníry, struct dirent **result); 








Returns 0 on success, or a positive error number on error 





针对 既定 dirp, ZRBIZ Bri H] opendirO 所 打开 的 目录 流 ，readdir_ rf P380 Hx% H E 
于 由 entry 指向 的 dirent 结构 中 。 另 外 ， 还 会 在 result 中 放置 指向 该 结构 的 一 枚 指针 。 如 果 抵 
达 目 录 流 尾部 , 那么 会 在 result HRE] NULL (H. readdir r0 返 回 0)。 当 出 现 错误 时 , readdir rO 
不 会 返回 -1， 而 是 返回 一 个 对 应 于 errno 的 正 整 型 值 。 

在 Linux 中 ，dirent 结构 的 d name 字段 是 大 小 为 256 字 贡 的 一 个 数组 ， 足 以 容纳 可 能 
现 的 最 长 文件 名 。 虽 然 有 几 个 其 他 的 UNIX 实现 也 为 d_ name 定义 了 相同 的 大 小 ， 但 SUSv3 
对 此 却 并 做 规定 ， 而 男 一 些 UNIX 实现 则 将 该 字段 定义 为 1 字 节 的 数组 ， 并 将 正确 分 配 结构 
大 小 的 工作 交 给 调用 程序 。 这 时 ， 应 将 d_name 字段 大 小 设 定 为 常量 NAME_ MAX+1 (考虑 终 
止 空 学 节 )。 为 确保 可 移植 性 ， 应 用 程序 应 以 如 下 方式 分 配 dirent 结构 : 


struct dirent *entryp; 
size t len; 











len = offsetof(struct dirent, d name) + NAME MAX + 1; 
entryp = malloc(len); 
if (entryp -- NULL) 

errExit("malloc"); 











1 译 者 注 : kernel.org 的 在 线 手 册页 则 为 *result， 详 者 倾 问 于 后 者 ， 但 未 与 作者 沟通 。 请 读者 目 行 验证 。 
2 译 者 注 : 同上 ， 疑 为 *result。 
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鉴于 dirent 结构 中 d name 字段 〈 该 属性 总 是 位 于 结构 的 最 后 ) 之 前 各 类 属性 的 数量 和 大 
小 在 不 同系 统 中 实现 不 一 ， 采 用 offsetofO 宏 〈 定 义 于 <stddefh> 中 ) 可 避免 程序 对 此 产生 依赖 。 











offsetofO 宏 接受 两 个 参数 一 一 结构 关 型 和 该 结构 中 菏 一 字段 的 名 称 一 一 并 返回 一 Size t 
类 型 值 ， 亦 即 该 凶 段 距 结 构 起 点 的 字 市 偏 移 量 。 这 个 宏 之 所 以 必要 ， 是 由 于 编 详 占 为 满足 
诸如 int 之 闫 的 类型 的 对 齐 要 求 ， 可 能 在 结构 中 插入 填充 字 节 。 这 会 导致 结构 中 茶 一 字段 的 
俩 移 量 可 能 要 大 于 该 属性 乙 前 所 有 笠 段 的 长 度 总 和 。 

















18.9 ”文件 树 遍 历 : nftw() 


nftw() 函 数 允 许 程序 对 整个 日 录 子 树 进行 化 归 机 历 ， 并 为 子 树 中 的 每 个 文件 执行 菏 些 操作 
《 即 ， 调 用 由 程序 员 定 义 的 函数 )。 





nftw0 函 数 是 对 执行 类 似 功 能 的 老 函 数 ftw0 的 加 强 。 由 于 提供 了 更 多 功能 ,对 符号 链接 
的 处 理 也 更 易于 把 握 (SUSv3 规定 ，ftw0 的 函数 实现 无 论 是 否 对 符号 链接 进行 解 引用 ， 均 
符合 规范 )， 故 而 新 近 开发 的 应 用 程序 应 考虑 采用 nftw() (ew ftw). SUSv3 将 nftw0 和 ftw() 
均 纳 入 规范 ， 但 SUSv4 将 后 者 标记 为 “已 废止 ”。 

GNU C 语言 函数 库 也 提供 了 派生 目 BSD 分 支 的 fts API(fts open), fts read(). 
fts_children()、fts_setO 〇 和 fts_closeO)。 这 些 函 数 执行 的 任务 闫 似 于 ftwO 和 nftw0， 但 在 过 历 
树 方 面 为 应 用 程序 提供 了 更 大 的 灵活 性 。 然 而 ， 因 为 这 些 API 目前 尚未 获得 业界 标准 的 接 
纳 ， 也 鲜 有 见 诸 于 BSD 后 裔 之 外 的 其 他 UNIX 实现 ， 所 以 在 此 略 而 不 论 。 





























nftw() PS hh [/] EH dirpath 指定 的 目录 树 , 并 为 日 录 树 中 的 每 个 文件 调用 一 次 由 程序 员 定义 
的 func 函数 。 


#define XOPEN SOURCE 500 
#include «ftw.h» 





int nftw(const char *d?rpath, 
int (*func) (const char *pathname, const struct stat *statbuf, 
int typeflag, struct FTW *ftwbuf), 
int nopenfd, int flags); 


Returns 0 after successful walk of entire tree, or -1 on error, 
or the first nonzero value returned by a call to func 











RATEU P. nftwOZ TD E RAAT ABE HI BEES), BIDS ee Hoi kbPESEZCT 
PARKERT Ho 

当 nftw(3& JJ) Hor bI, A MERE ERIAN RT. Ar nopenfd 指定 
了 nftw0O 可 使 用 文件 摘 述 符 数 量 的 最 大 值 。 如 条目 录 树 深度 超过 这 一 最 大 信 ， 那 么 nftw0 会 在 做 好 
记录 的 前 握 下 ， 关 闭 并 重新 打开 换 述 待 ， 从 而 避免 同时 持 有 的 摘 述 符 数 目 突破 上 限 nopenfd (从 
而 导致 运行 越 来 越 慢 )。 在 较 老 的 UNIX. 实现 中 ， 有 的 系统 要 求 每 个 进程 可 打开 的 文件 描述 符 数 
量 不 得 超过 20 个 ， 这 更 突显 出 这 一 参数 的 必要 性 。 现 代 UNIX. 实现 允许 进程 打开 大 量 的 文件 摘 
述 符 ， 因 此 ， 在 指定 该 数目 时 出 手 可 以 大 方 一些 《〈 比 如 ，10 或 者 更 多 )。 

nftwO 的 flags 参数 由 0 个 或 多 个 下 列 帝 量 相 或 路 组成， 这些 稼 量 可 对 函数 的 操作 做 出 修正 。 
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FIW CHDIR 

在 处 理 目录 内 容 之 前 移 调 用 chdir0 进 入 每 个 目录 。 如 果 打 算 让 func 在 pathname 参数 所 指 
定 文件 的 驻 留 目录 下 展开 某 些 工作 ， 那 么 就 应 当 使 用 这 一 标志 。 
FIW DEPTH 

XE EH KAATET. AARE, nftwO AX H KEAT fune. 之 前 和 完 对 目录 中 的 所 
有 文件 (及 子 目 录 ) 执行 func HH. GX — boss dn MIR DE v —nftwOd3isi 1 H 3e P9 35:8 
MERER, dE] ER. rix bros BOTE FI SEL ARTE TCR P3 BUM Ja F3 D] o ) 


























FTW. MOUNT 
不 会 越界 进入 为 一 文件 系统 。 DIG, WARR PRST HRERS, MADRI RETEN e 
FTW_PHYS 











畴 认 情 况 下 ，nftw() 对 符号 链接 进行 解 引 用 操作 。 而 使 用 该 标志 则 告知 nftw0 函 数 不 要 这 
么 做 。 相 反 ， 函 数 会 将 符号 链接 传递 给 func 函数 ， 并 将 typeflag 值 置 为 FTW_SL， 如 下 所 述 。 

nftw() 为 每 个 文件 调用 func 时 传递 4 个 参数 。 第 一 个 参数 pathname 是 文件 的 路 径 名 。 这 
个 路 径 名 可 以 是 绝对 路 径 ， 也 可 以 是 相对 路 径 。 如 果 指 定 dirpath 时 使 用 的 是 绝对 路 径 ， 那 么 
pathname 束 可 能 是 绝对 路 人 笃 。 反 之 ， 如 果 指 定 dirpath 时 使 用 的 是 相对 路 径 名 ， 则 pathname 
中 的 路 径 可 能 是 相对 于 进程 调用 nttwO 时 的 当前 工作 目录 而 言 。 第 二 个 参数 statbuf 是 一 枚 指针 ， 
TRI] stat 结构 (参见 15.1 节 )， 内 含 该 文件 的 相关 信息 。 第 三 个 参数 typeflag 提供 了 有 关 该 文件 
的 深入 信息 ， 并 其 有 如 下 特征 值 之 一 。 












































FTW_D 

这 是 一 个 目录 。 
FTW_DNR 

这 是 一 个 不 能 读 取 的 目录 《所 以 nftwO 不 能 所 历 其 后 代 )。 
FTW_DP 

正在 对 一 个 目录 进行 后 序 过 历 ， 当 前 项 是 一 个 目录 , 其 所 包含 的 文件 和 子 目 录 已 经 处 理 完毕 。 
FTW_F 

该 文件 的 类 型 是 除 日 录 和 符号 链接 以 外 的 任何 类 型 。 
FTW_NS 

对 该 文件 调用 stat0 失 败 ， 可 能 是 因为 权限 限制 。Statbuf 中 的 人 未 定义 。 
FTW_SL 

这 是 一 个 符 亏 链接 。 仅 当 使 用 FTW_PHYS 标记 调用 nftw0 函 效 时 才 返 回 该 值 。 
FTW_SLN 


这 是 一 个 巧 空 的 从 写 链 接 。 仅 当 林 在 flags 参 数 中 指定 FTW_PHYS 标 记 时 才 会 出 现 该 值 。 
Func 的 第 四 个 参数 ftwbuf 古 一 枚 指针 ， 所 指向 结构 定义 如 下 : 


struct FTW { 
int base; /* Offset to basename part of pathname */ 
int level; /* Depth of file within tree traversal */ 


B 
该 结构 的 base 字段 是 指 func 函数 中 pathname 参数 内 文件 名 部 分 〈 最 后 一 个 “/” 字 符 之 
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后 的 部 分 ) 的 整 型 偏 移 量 。level 字段 是 指 该 条 目 相 对 于 遍历 起 点 (其 level 为 0) 的 深度 。 


每 次 调用 func 都 必须 返回 一 个 整 型 值 ， 由 nftwO 加 以 解释 。 如 打 返 回 0，nftwO 会 继续 对 
PETE, WRIA X func 的 调用 均 返 回 0,， 那 么 nftw0 本 喘 也 将 返回 0 给 调用 者 。 大 返回 








非 0 值 ， 则 通知 nftw0 立 即 停止 对 树 的 遇 历 ， 这 时 nftw0 也 会 返回 相同 的 非 0 值 。 








由 于 nftw0O 使 用 的 数据 结构 是 动态 分 配 的 ， 故 而 应 用 程序 提前 终止 目录 树 过 历 的 唯一 方法 
Lx E fune 调用 返回 一 个 非 0 值 。 调 用 longjmpO (6.8 155 从 func 退出 会 导致 不 可 预期 的 结 


末 一 一 全 少 会 引起 内 存 汇 漏 。 


示例 程序 
程序 清单 18-3 展示 了 nftwO 的 使 用 。 
程序 清单 18-3: 使 用 nftw(O 遍 历 目 录 树 


一 dirs links/nftw dir tree.c 
#define XOPEN SOURCE 600 /* Get nftw() and S IFSOCK declarations */ 


include «ftw.h» 
include "tlpi hdr.h" 


static void 
usageError(const char *progName, const char *msg) 


if (msg !- NULL) 
fprintf(stderr, "%s\n", msg); 


fprintf(stderr, "Usage: Xs [-d] [-m] [-p] [directory-path]\n", progName); 


fprintf(stderr, "\t-d Use FTW DEPTH flag\n"); 
fprintf(stderr, "\t-m Use FTW MOUNT flag\n"); 
fprintf(stderr, "\t-p Use FTW PHYS flag\n"); 
exit(EXIT FAILURE); 


j 


static int /* Function called by nftw() */ 
dirTree(const char *pathname, const struct stat *sbuf, int type, 
struct FTW *ftwb) 


switch (sbuf-»st mode & S IFMT) 1 /* Print file type */ 
case S IFREG: printf("-"); break; 
case S IFDIR: printf("d"); break; 
case S IFCHR: printf("c"); break; 
case S IFBLK: printf("b"); break; 
case S IFLNK: printf("1"); break; 
case S IFIFO: printf("p"); break; 
case S IFSOCK: printf("s"); break; 


default: printf("?"); break; /* Should never happen (on Linux) */ 


} 


printf(" %s ^", 


(type == FTW D) ? "D " : (type == FTW DNR) ? "DNR" : 
(type == FTW DP) ? "DP " : (type == FTW F) ? "F ": 
(type == FTW SL) ? "SL " : (type -- FTW SLN) ? "SLN" : 
(type == FTW NS) ? "NS " : " "y; 


if (type !- FTW NS) 
printf("$71d ", (long) sbuf-»st ino); 
else 
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printf(" s 


printf(" %*s", 4 * ftwb-»level, ""); /* Indent suitably */ 
printf("ZsWn", &pathname[ftwb-»base]); /* Print basename */ 
return 0; /* Tell nftw() to continue */ 
} 
int 


main(int argc, char *argv[]) 
int flags, opt; 


flags - 0; 

while ((opt = getopt(argc, argv, "dmp")) != -1) { 
switch (opt) ( 
case 'd': flags |= FTW DEPTH; break; 
case 'm': flags |= FTW MOUNT; break; 
case 'p': flags |= FTW PHYS; break; 
default: usageError(argv[0], NULL); 
} 

} 


if (argc > optind + 1) 
usageError(argv[0], NULL); 


if (nftw((argc > optind) ? argv[optind] : ".", dirTree, 10, flags) == -1) ( 
perror("nftw"); 
exit(EXIT FAILURE); 


} 
exit(EXIT SUCCESS); 


dirs links/nftw dir tree.c 


程序 清单 18-3 中 程序 以 层级 缩 进 方式 显示 了 一 个 目录 树 中 的 文件 。 每 行 显示 一 个 文件 ， 内 
容 包括 文件 名 、 文 件 类 型 及 i-node 编号 。 可 通过 命令 行 选项 来 指定 nftwO 调 用 中 的 flags 参数 
{Ho FEHI shell 会 话 展 示 了 运行 程序 的 示例 结 末 。 首 先 创 建 一 个 新 的 空 目录 ， 并 在 其 中 填充 
各 种 类 型 的 文件 。 




















$ mkdir dir 

$ touch dir/a dir/b Create some plain files 

$ ln -s a dir/sl and a symbolic link 

$ ln -s x dir/dsl and a dangling symbolic link 
$ mkdir dir/sub and a subdirectory 

$ touch dir/sub/x with a file of its own 

$ mkdir dir/sub2 and another subdirectory 

$ chmod 0 dir/sub2 that is not readable 


然后 使 用 该 程序 调用 nftwO 函 数 ， 其 flags 参数 为 0: 
$ ./nftw dir tree dir 


d D 2327983 dir 

- F 2327984 a 

- F 2327985 b 

- F 2327984 sl The symbolic link sl was resolved to a 
l SLN 2327987 dsl 

d D 2327988 sub 

- F 2327989 X 

d DNR 2327994 sub2 


从 以 上 输出 可 见 ， 对 符 志 链接 sl 进行 了 解析 。 
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然后 再 使 用 该 程序 来 调用 nftw0 函 数 ， 令 flags 参数 包含 FTW_ PHYS 和 FTW DEPTH 标志 : 
$ ./nftw dir tree -p -d dir 


- F 2327984 a 

- F 2327985 b 

] SL 2327986 sl The symbolic link sl was not resolved 
lSL 2327987 dsl 

- F 2327989 X 

d DP 2327988 sub 

d DNR 2327994 sub2 

d DP 2327983 dir 





从 以 上 输出 可 见 ， 未 对 符号 链接 sl 进行 解析 。 


nftw() 的 FTW_ACTIONRETVAL 标识 


Ah 2.3.3 版 本 ，glibe 允许 在 ntftwO 的 flags 参数 中 指定 一 个 颌 外 的 非 标 准 标 志 FTW_ 
ACTIONRETVAL。 此 标记 改变 了 nftwO PS ZOT func0 返 回 值 的 解释 方式 。 当 指定 该 标 识 时 ，func0 
应 返回 下 列 值 之 一 。 

FIW CONTINUE 
与 传统 funcO FR ŽURE] 0 时 一 样 ， 继 续 处 理 目 录 树 中 的 条 目 


FTW_SKIP_SIBLINGS. 
不 再 进一步 处 理 当 前 目录 中 的 条 目 ， 恢 复 对 父 目 录 的 处 理 。 


FTW SKIP SUBTREE 

如 果 pathname 是 目录 CHI] typeflag 为 FTW_D)， 那 么 就 不 对 该 目录 下 的 条 目 调用 func). TX 
复 进行 对 该 目录 的 下 一 个 同 级 目录 的 处 理 。 
FTW_STOP 

与 传统 func0 函 数 返 回 非 0 值 时 一 样 ， 不 再 进一步 处 理 目录 树 下 的 任何 条 目 。nftw0O 将 返 
E] FTW. STOP 给 调用 者 。 

想 从 <ftwh> 文 件 中 获得 对 FTW ACTIONRETVAL 的 定义 ， 必 须 定义 GNU SOURCE 特 
性 测试 宏 。 























18.10 ”进程 的 当前 工作 目录 


一 个 进程 的 当前 工作 目录 (current working directory) 定义 了 该 进程 解析 相对 路 径 名 的 起 
点 。 痢 进程 的 当前 工作 目录 继承 目 其 父 进程 。 


获取 当前 工作 目录 
进程 可 使 用 getewd() 来 获取 当前 工作 目录 。 

















#include «unistd.h» 


char *getcwd(char *cwdbuf, size t size); 








Returns cwdbuf on success, or NULL on error 


getewd() PR ZOK A S I LE H REN te HIE EB (包括 结尾 空子 从 ) BOT cwdbuf fü 
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向 的 已 分 配 缓冲 区 中 。 调 用 者 必须 为 cwdbuf 缓冲 区 分 配 至 少 sizeg 个 字 节 的 空间 。( 通 常 ， 
cwdbuf 的 大 小 与 PATH MAX 常量 相当 。) 

一 旦 调用 成 功 ，getcwd0 将 返回 一 枚 指向 ewdbuf 的 指针 。 如 采 当 前 工作 目录 的 路 径 名 长 
度 超过 size ^E. MWA getcwd0 会 返回 NULL， 并 将 errno 置 为 ERANGE。 

在 Linux/x86-32 系统 中 ，getcwd0 返 回 指针 所 指 回 的 字符 串 最 大 长 度 可 达 4096 FFE. 
如 果 当 前 工作 目录 《以 及 ewdbuf 和 size〉 突 破 了 这 一 限制 ， 那 么 束 会 直接 对 路 人 径 名 做 截断 处 
理 ， 移 去 始 于 起 点 的 整个 目录 前 绥 〈 字 符 串 仍 以 空 字 符 结 尾 )。 换 言 之 ， 当 当前 工作 目录 的 绝 
对 路 径 超 出 这 一 限制 时 ，getcwd0 的 行为 也 不 再 可 靠 。 


























实际 上 ，Linux 的 getcwdO 系 统 调 用 为 要 返回 的 路 径 名 在 内 部 分 配 了 一 个 虚拟 内 存 页 。 
x86-32 架构 的 页 大 小 为 4096 FH, 而 在 页 尺寸 更 大 的 架构 中 (比如 ，Alpha 的 页 大 小 为 8192 
字 节 )，getcwdO 能 返回 更 长 的 路 径 名 。 




















若 cwdbuf 为 NULL， 且 size 为 0， 则 glibc 封装 函数 会 为 getcwd0 按 需 分 配 一 个 缓冲 区 ， 
并 将 指 问 该 绥 冲 区 的 指针 作为 函数 的 返回 值 。 为 避免 内 存 泄漏 ， 调 用 者 之 后 必须 调用 free() 来 
释放 这 一 缓冲 区 。 对 可 移植 性 有 所 要 求 的 应 用 程序 应 当 避 免 依赖 该 特性 。 大 多 数 其 他 实现 则 针 
对 SUSv3 规范 提供 了 一 个 更 为 简单 的 扩展 。 如 果 cwdbuf 是 NULL， 那 么 getcwd0 将 分 配 一 个 大 
小 为 size 字 节 的 缓冲 区 ， 用 于 同调 用 者 返回 结果 。glibc 的 getcwd0 也 实现 了 这 一 特性 。 


GNU C 函数 库 还 为 获取 当前 工作 目录 提供 了 万 外 两 个 函数 。 铂 生 目 BSD 的 getwd(path)PR2t 
容 匈 引起 绥 冲 区 流出 ,因为 该 函数 无 法 为 返回 的 路 径 名 长 度 设 定 上 限 。get_current_dir_name() 
函数 也 会 返回 包含 当前 工作 目录 名 的 一 个 字符 串 。 虽然 该 函数 易于 使 用 , 但 却 不 具有 可 移 
植 性 。 考 外 到 安全 性 和 可 移植 性 ，getewd0O 无 疑 是 不 二 之 选 (前 提 是 避免 使 用 GNU 扩展 功能 )。 


只 要 具有 合适 的 权限 (大 体 要 求 是 ， 身 为 进程 属 主 或 者 具有 CAP SYS PTRACE 能 力 ), 就 
可 通过 读 取 (readlink()) Linux 专 有 符号 链接 /proc/PID/cwd 的 内 容 来 确定 任何 进程 的 当前 工作 
录 


o 















































LI] 


改变 当前 工作 目录 


chdirO 系 统 调用 将 调用 进程 的 当前 工作 目录 改变 为 由 pathname 指定 的 相对 或 绝对 路 径 名 
(如 属于 符号 链接 ， 还 会 对 其 解除 引用 )。 











#include <unistd.h> 


int chdir(const char *pathname); 





Returns 0 on success, or -1 on error 











fchdirO 系 统 调用 与 chdir0 作 用 相同 ， 只 是 在 指定 目录 时 使 用 了 文件 描述 符 ， 而 该 描述 符 
是 之 前 调用 open() 打 开 相 应 目录 时 获得 的 。 


#define XOPEN SOURCE 500 /* Or: #define BSD SOURCE */ 
#include <unistd.h> 











int fchdir(int fd); 








Returns 0 on success, or -1 on error 
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以 下 代码 片段 所 示 为 使 用 fchdir0 将 进程 的 当前 工作 目录 变 为 为 一 位 置 ， 然 后 再 改 回 原始 位 置 : 
int fd; 








fd = open(".", O RDONLY); /* Remember where we are */ 


chdir(somepath); /* Go somewhere else */ 
fchdir(fd); /* Return to original directory */ 
close(fd); 





使 用 chdir(0) 达 到 同等 效果 的 代码 如 下 所 示 : 
char buf[PATH MAX]; 
/* Remember where we are */ 


/* Go somewhere else */ 
/* Return to original directory */ 


getcwd(buf, PATH MAX); 
chdir(somepath); 
chdir(buf); 


18.11 SP Boe x fiii 43 BJTR ARTE 


WATA 2.6.16, Linux 内 核 提 供 了 一 系列 新 的 系统 调用 ， 在 执行 与 传统 系统 调用 相似 任务 的 
同时 ， 还 提供 了 一 些 附 加 功能 ， 对 茶 些 应 用 程序 非常 有 用 。 表 18-2 对 这 些 调用 进行 了 归纳 。 之 所 
以 在 本 章 介 绍 这 些 系统 调用 ， 是 因为 它们 对 进程 当前 工作 目录 的 传统 语义 做 了 改动 。 


表 18-2: 系统 调用 使 用 目录 文件 描述 来 解释 相对 路 径 


类 似 的 传统 接口 备注 


























faccessat() access() 支持 AT EACCESS 和 AT SYMLINK NOFOLLOW 标志 
fchmodat() chmod() 

fchownat() chown() 支持 AT SYMLINK NOFOLLOW 标志 

fstatat() stat() 支持 AT SYMLINK NOFOLLOW 标志 

linkat() link() 支持 〈 始 于 Linux 2.6.18) AT SYMLINK FOLLOW 标志 
mkdirat() mkdir() 

mkfifoat() mkfifo() 基于 mknodatO 的 库 函 数 

mknodat() mknod() 

openat() open() 

readlinkat() readlink() 

renameat() rename() 

symlinkat() symlink() 

unlinkat() unlink() 支持 AT REMOVEDIR 标志 

utimensat() utimes() 支持 AT SYMLINK NOFOLLOW 标志 


AETHERE RREH, AEWA openat(O 为 例 。 








#define XOPEN SOURCE 700 
#include «fcntl.h» 


int openat(int dirfd, const char *pathname, int flags, ... /* mode t mode */); 


异步 社区 会 


Tz 


/* Or define POSIX C SOURCE »- 200809 */ 





Returns file descriptor on success, or -1 on error 
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openat() 系 统 调用 类 似 于 传统 的 open(0 系 统 调用 , 只 是 添加 了 一 个 dirfd 参数 , 其 作用 如 下 。 

e 如 果 pathname 中 为 一 相对 路 径 名 ， 那 么 对 其 解释 则 以 打开 文件 描述 符 dirfd 所 指向 的 

目录 为 参照 点 ， 而 非 进 程 的 当前 工作 目录 。 

e 如 果 pathname 中 为 一 相对 路 径 ， 且 dirfd 中 所 含 为 特殊 值 AT FDCWD， 那 么 对 pathname 

的 解释 则 相对 与 进程 当前 工作 目录 〈 即 与 open(2) 行 为 一 致 ) 而 言 。 

e 如果 pathname 中 为 绝对 路 往 ， 那 么 将 忽略 dirfd 参数 。 

openat() 的 flag 参数 目的 与 open0 相 同 。 然 而 ， 部 分 表 18-2 中 所 列 系统 调用 还 文 持 flags 参数 ， 
这 是 相应 的 传统 系统 调用 所 不 具备 的 ， 其 目的 在 于 修改 调用 语义 。 出 现 频率 最 高 的 标志 为 
AT SYMLINK NOFOLLOW， 其 含义 是 如 有 果 pathname 为 符号 链接 ， 那 么 系统 调用 将 操作 于 符 扎 
链接 本 身 ， 而 非 符 号 链接 所 指向 的 文件 。(linkat0 系 统 调用 提供 了 AT SYMLINK FOLLOW 标志 ， 
其 作用 正好 相反 ， 即 改变 linkat0 的 默认 行为 ， 当 oldpath 属于 符号 链接 时 对 其 进行 解 引 用 操作 。) 
有 关 其 他 标志 的 详情 ， 请 参考 相应 手册 页 。 

之 所 以 要 文 持 表 18-2 中 所 列 的 系统 调用 ， 其 原因 有 二 《此 处 再 以 openat() 为 例 )。 

e 当 调 用 open0 打 开 位 于 当前 工作 目录 之 外 的 文件 时 ， 可 能 会 发 生 某 些 竞 态 条 件 。 而 使 

用 openatO 就 能 够 避免 这 一 问题 。 在 调用 open0 的 同时 ， 如 果 pathname | Hox Big IT 2: 
些 部 分 发 生 了 改变 ， 就 可 能 导致 竞争 。 要 想 避 免 这 类 竞 态 ， 可 以 针对 目标 目录 打开 一 
个 文件 描述 符 ， 然 后 将 该 描述 符 传递 给 openat(). 

e 如 第 29 章 所 述 ， 工 作 目 录 是 进程 的 属性 之 一 ， 为 进程 中 所 有 线程 所 共享 。 而 对 某 些 

应 用 程序 而 言 ， 需 要 针对 不 同 线程 拥有 不 同 的 “虚拟 ”工作 目录 。 将 openat() 与 应 用 
所 维护 的 目录 文件 描述 符 相 结合 ， 吏 可 以 模拟 出 这 一 功能 。 

SUSv3 并 未 对 这 些 系 统 调用 加 以 规范 , 但 SUSv4 将 其 包括 在 内 。 为 了 获得 对 这 些 系统 调用 的 
声明 ， 必 须 在 包含 相应 头 文件 之 前 (比如 定义 open0 的 <fentl.h>) 将 XOPEN SOURCE 特性 测 
WUAXE CAJA EST 700 的 值 。 另 外 , 将 POSIX C SOURCE 宏 的 值 定 义 为 大 于 或 等 于 200809 
也 能 收 到 同样 效果 。( 在 2.10 版 本 之 前 的 glibe 中 ， 要 获得 对 这 些 系 统 调用 的 声明 还 需要 定义 
_ATFILE SOURCE Zi.) 













































































Solaris 9 及 其 更 局 版 本 也 提供 了 一 些 表 18-2 所 列 接 口 的 版 本 ， 只 是 语义 略 有 不 同 。 


18.12 ”改变 进程 的 根 目 录 : chroot() 


每 个 进程 都 有 一 个 根 目 录 ， 该 目录 是 解释 绝对 路 径 〈 即 那些 以 /开始 的 目录 ) 时 的 起 点 。 
默认 情况 下 ， 这 是 文件 系统 的 真实 根 目 录 。( 新 进程 从 其 父 进程 处 继承 根 目 录 。) 有 些 场合 需 
要 改变 一 个 进程 的 根 目 录 ， 而 特权 级 (CAP SYS CHROOT) 进程 通过 chrootO 系 统 调用 能 够 
做 到 这 一 点 : 


#define BSD SOURCE 
#include «unistd.h» 

















int chroot(const char *pathname); 


Returns 0 on success, or -1 on error 











chrootO 系 统 调用 将 进程 的 根 目 录 改 为 由 pathname 指定 的 目录 《如 果 pathname 是 从 号 链 
接 ， 还 将 对 其 解 引 用 )。 自 此 ， 对 所 有 绝对 路 径 名 的 解释 都 将 以 该 文件 系统 的 这 一 位 置 作为 起 
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点 。 鉴 于 这 会 将 应 用 程序 限定 于 文件 系统 的 特定 区 域 ， 有 时 也 将 此 称 为 设立 了 一 个 chroot 监 
SUSv2 包含 了 对 chroot0 的 定义 (标记 为 LEGACY)， 但 SUSv3 又 将 其 删 去 。 无 论 如 何 ， 
chroot() 还 是 获得 了 大 多 数 UNIX 实现 的 文 持 。 





借助 于 chrootO 系 统 调用 ，chroot 命令 可 在 chroot 监禁 区 中 执行 shell 命令 。 
而 通过 读 取 (readlink()) Linux 专 有 /proc/PID/root 符号 链接 的 内 容 ， 可 以 获取 任何 进程 
HJIR HK o 











ftp EFIE chrootOIf] 739297 —. ENPE, SHEAR fip H, ftp 
程序 将 使 用 chrootO 为 新 进程 设置 根 目录 一 一 一 个 专门 预 留 给 匿名 登录 用 户 的 目录 。 调 用 
chrootO 后 ， 用 户 将 受 困 于 文件 系统 中 痢 根 目录 下 的 子 树 中 ,无 法 在 整个 文件 系统 中 信和 马 由 组 。 
(这 里 所 依赖 的 事实 是 根 目录 是 其 日 映 的 父 目录 。 也 就 是 说 /.. 是 /的 一 个 链接 ， 所 以 改变 目录 到 ]/ 
后 再 执行 ed .命令 时 ， 用 户 依 然 会 行 在 同一 目录 下 。) 
































一 些 UNIX 实现 (不 包括 Linux) 允许 多 个 便 链 接 指 癌 同 一 目录 ， 这 时 束 有 可 能 在 一 个 
子 目 录 中 创建 指 癌 其 父 目录 (或 者 更 局 层级 远 祖 目录 〉 的 便 链 接 。 在 这 种 系统 实现 中 ， 如 
果 存 在 指 问 监禁 区 目录 树 之 外 的 人 刹 链 接 ， 那 么 监禁 区 的 安全 将 受到 威胁 。 而 指 问 监禁 区 之 
外 目录 的 符 写 链接 则 不 是 问题 ， 因 为 对 这 些 符 号 链接 的 解释 将 在 进程 狐 根 目录 的 框架 之 内 
进行 ， 所 以 是 无 法 染指 到 chroot 监禁 区 之 外 的 。 























通常 情况 下 ， 不 是 随便 什么 程序 都 可 以 在 chroot 监禁 区 中 运行 的 ， 因 为 大 多 数 程 序 与 共 
享 库 之 间 采 取 的 是 动态 链接 的 方式 。 因 此 ， 要 么 只 能 局 限于 运行 静态 链接 程序 ， 要 么 就 在 监 
禁区 中 复制 一 套 标准 的 共享 库 系 统 目录 〈 比 如 ， 包 括 /ib 和 mswlib) (针对 这 一 点 ，14.9.4 节 描 
述 的 绑 定 挂 载 尾 性 束 派 上 了 用 场 )。 
chroot() 系 统 调 用 从 末 被 视 为 一 个 完全 安全 的 监禁 机 制 。 首先， 特权 级 程序 可 以 在 随后 对 
chroot() 的 进一步 调用 中 利用 种 种 手段 而 越狱 成 功 。 例 如 ， 特 权 级 “CAP_MKNOD) 程序 能 够 
使 用 mknod() 来 创建 一 个 内 存 设 备 文件 (类 似 于 /dev/mem)， 并 通过 该 设备 来 访问 RAM 的 内 
容 ， 到 那 时 ， 就 一 切 篆 有 可 能 了 。 通 澡 ， 最 好 不 要 在 chroot 监禁 区 文件 系统 内 放置 set-user-ID-root 
程序 。 
即便 是 对 于 无 特权 程序 ， 也 必须 小 心 防范 如 下 几 条 可 能 的 越狱 路 线 。 
e 调用 chrootO 并 未 改变 进程 的 当前 工作 目录 。 因 此 ， 通 第 应 在 调用 chrootO0 之 前 或 者 之 
后 调用 一 次 chdir0 函 数 〈 例 如 ，chrootO 调 用 之 后 执行 chdir(""))。 如 果 没 有 这 么 做 ， 
那么 进程 束 能 够 使 用 相对 路 径 去 访问 监狱 之 外 的 文件 和 目录 。( 一 些 BSD 的 衍生 系统 
杜绝 了 这 一 可 能 性 如 条 当前 工作 目录 位 于 新 的 根 目 录 树 之 外 ， 那 么 chrootO 调 用 
会 将 其 修改 为 与 根 目 录 一 致 。) 
e 如果 进程 针对 监禁 区 之 外 的 某 一 目录 持 有 一 打开 文件 描述 从 ， 那 么 结合 fchdirO0 和 
chrootO 即 可 越狱 成 功 ， 如 下 面 代码 所 示 : 
int fd; 



























































fd = open("/", O RDONLY); 


chroot("/home/mtk"); /* Jailed */ 
fchdir(fd); 
chroot("."); /* Out of jail */ 
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为 了 防止 这 种 可 能 性 ， 必 须 天 闭 所 有 指 问 监 答 区 外 目录 的 文件 搬 述 从。( 其 他 一 些 UNIX 
实现 提供 了 fchrootO 系 统 调用 ， 可 用 于 获得 与 上 述 代 码 上 请 段 闫 似 的 结果 。) 
。 即使 针对 上 述 可 能 性 采取 了 防范 措施 ， 仍 不 足以 阻止 任意 非特 权 程 序 〈 即 无 法 控制 其 
操作 的 程序 ) 越狱 成 功 。 冰 到 内 茶 的 进程 仍然 能 够 利用 UNIX 域 僚 接 字 来 接受 《上 日 
男 一 进程 处 ) 指 问 监 禁区 外 目录 的 文件 摘 述 符 。(61.13.3 市 简要 摘 述 了 进程 间 利 用 
僚 接 字 来 传递 文件 描述 符 的 概念 。) 将 这 一 文件 描述 指定 为 fchdir0 调 用 的 入 参 ， 程序 
即 可 将 其 当前 工作 目录 置 于 监 花 区 外 ， 之 后 再 通过 相对 路 径 来 随意 访问 文件 和 目录 。 


一 些 BSD 衍生 系统 提供 的 jail0 系 统 调用 解决 了 包括 上 述 问 题 在 内 的 不 少 问 题 ， 其 所 创 
建 的 监 花 区 即便 针对 特权 级 进程 也 是 安全 的 。 




















18.13 解析 路 径 名 : realpath() 


realpath() 库 函数 对 pathname CULA ERES EREBRO 中 的 所 有 符号 链接 一 一 解除 引用 ， 
并 解析 其 中 所 有 对 /和 /. 的 引用 ， 从 而 生成 一 个 以 空 字符 结尾 的 字符 串 ， 内 含 相应 的 绝对 路 径 名 。 





#include <stdlib.h> 


char *realpath(const char *pathname, char *resolved_path); 


Returns pointer to resolved pathname on success, or NULL on error 








生成 的 字符 串 将 置 于 resolved path 指 癌 的 绥 神 区 中 ， 该 字符 串 应 当 是 一 个 字符 数组 ， 长 
度 至 少 为 PATH MAX 个 字 节 。 一 旦 调用 成 功 ，realpath0 将 返回 指 同 该 字符 串 的 一 枚 指针 。 

glibc 的 realpathO 实 现 允 许 调用 者 将 resolved path 参数 指定 为 空 。 这 时 ，realpathO 会 为 经 解 
析 生 成 的 路 径 名 分 配 一 个 多 达 PATH MAX ^r^ Ben pe, 并 将 指 问 该 绥 冲 区 的 指针 作为 结 
果 人 返回 。( 调 用 者 必须 目 行 调用 free0 来 释放 该 绥 冲 区 。) SUSv3 并 未 将 该 扩展 功能 纳入 规范 ， 但 
SUSv4 对 其 进行 了 定义 。 

程序 清单 18-4 中 的 程序 采用 readlinkO0 和 realpathO 来 读 取 符 号 链接 的 内 容 , 并 将 该 链接 解 
析 为 一 个 绝对 路 径 名 。 下 面 是 运行 该 程序 的 一 个 示例 : 











$ pwd Where ave we? 

/ home/mtk 

$ touch x Make a file 

$ ln -sxy and a symbolic link to it 


$ ./view symlink y 
readlink: y --» x 
realpath: y --» /home/mtk/x 


程序 清单 18-4. 读 取 并 解析 一 个 符号 链接 


dirs links/view symlink.c 
include «sys/stat.h» 
#include «limits.h» /* For definition of PATH MAX */ 
include "tlpi hdr.h" 
#define BUF SIZE PATH MAX 
int 


main(int argc, char *argv[]) 
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struct stat statbuf; 
char buf[BUF SIZE]; 
ssize t numBytes; 


if (argc != 2 || stremp(argv[1], "--help") == 0) 
usageErr("%s pathnameNn", argv[0]); 

if (Istat(argv[1], 8statbuf) == -1) 
errExit("1stat"); 


if (!S ISLNK(statbuf.st mode)) 
fatal("Xs is not a symbolic link", argv[1]); 


numBytes - readlink(argv[1], buf, BUF SIZE - 1); 
if (numBytes -- -1) 
errExit("readlink"); 
buf[numBytes] = '\o'; /* Add terminating null byte */ 
printf("readlink: %s --> %s\n", argv[1], buf); 


if (realpath(argv[1], buf) == NULL) 
errExit("realpath"); 

printf("realpath: %s --» %s\n", argv[1], buf); 

exit(EXIT SUCCESS); 


dirs links/view symlink.c 


18.14 解析 路 径 名 字符 串 : dirname() 和 basename() 


dirname() 和 basename(O 国 数 将 一 个 路 径 名 字符 串 分 解 成 目 孙 和 文件 名 两 部 分 。( 这 些 函 数 
执行 的 任务 与 dirname(1)fll basename(1) 命 令 相 类 似 。) 








#include <libgen.h> 
char *dirname(char *pathname); 
char *basename(char *pathname); 


Doth return a pointer to a null-terminated (and possibly 
statically allocated) string 








比如 ， 给 定 路 径 名 为 /home/britta/prog.c，dirname0 将 返回 /home/britta， 而 basename() f 3l 
|E] prog.c。 将 dirname) iR HFI RHR RTI 〈/) 以 及 basename0 返 回 的 学 符 串 拼接 起 
来 ， 将 生成 一 条 完整 的 路 径 名 。 
XT dimame()fll basenameO 的 操作 请 注意 以 下 儿 点 。 
。 将 忽略 pathname "P Fé Y f e 
。 如 果 pathname 中 未 包含 斜 线 字符 ， 那 么 dirname0 将 返回 字符 串 .〈 点 )， 而 basename014 
返回 pathname。 
e 如果 pathname 仅 由 一 个 笠 线 字符 组 成 ， 那 么 dirname0 和 basename() 均 将 返回 字符 串 /。 
将 其 应 用 于 上 述 的 拼接 规则 , 所 创建 的 路 径 名 字符 串 为 W。 访 路 径 名 属于 有 效 路 径 名 。 
因为 多 个 连续 笠 线 字符 相当 于 单个 矢 线 字符 ， 所 以 路 径 名 /就 相当 于 路 径 名 /。 
e 如 末 pathname 为 空 指针 或 者 空 宇 人 符 串 ， 那 么 dirname() 和 basename(O 均 将 返回 字符 串 . 
《 扣 )。( 拼 接 这 些 字 符 串 将 生成 路 人 径 名 ./.， 对 等 于 .， 即 当前 目录 。) 
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K 18-3 所 示 为 dirname) FI basenameO 针 对 各 种 示例 路 径 名 所 返回 的 宇 符 串 。 


X 18-3: dirname() 和 basename() 返 回 的 字符 串 示 例 


/ 
/usr/bin/zip /usr/bin 
/etc/passwd//// /etc 
/etc////passwd /etc 


etc/passwd etc 


passwd 


passwd/ 





程序 清单 18-5, dimame() fll basename() BS x A 


dirs links/t dirbasename.c 


#include «libgen.h» 
include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 
{ 

char *t1, *t2; 

int j; 


for (j = 1; j < argc; j++) { 
t1 = strdup(argv[j]); 
if (t1 == NULL) 
errExit("strdup"); 
t2 = strdup(argv[j]); 
if (t2 == NULL) 
errExit("strdup"); 


printf("%s ==> %s + %s\n", argv[j], dirname(t1), basename(t2)); 


free(t1); 
free(t2); 


j 


exit(EXIT SUCCESS); 


dirs links/t dirbasename.c 


dirname() 和 basename() 均 可 修改 pathname 所 指 问 的 字符 串 。 因 此 ， 如 末 布 望 保留 原 有 的 
路 径 名 字符 串 ， 那 么 就 必须 向 dirname0 和 basenameO 传 递 该 字符 串 的 副本 ， 如 程序 清单 18-5 
所 示 。 访 程序 使 用 strdupO. (该 函数 调用 了 mallocO ) 来 制作 传递 给 dirname0 和 basenameO 的 
学 符 串 副本 ， 然 后 再 使 用 freeO 将 其 释放 。 

最 后 需要 指出 的 是 ，dirmname0 和 basename(O 所 返回 的 指针 均 可 指 同 经 由 静态 分 配 的 字符 
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18.15 ”总结 


i-node 中 并 不 包含 文件 的 名 称 。 相 反 ， 对 文件 的 命名 利用 的 是 目录 条 目 ， 而 目录 则 是 列 
出 文件 名 和 i-node 编号 之 间 对 应 关系 的 一 个 表格 。 也 将 这 些 目录 条 目 称 作 〈 硬 ) 链接 。 一 个 
文件 可 以 有 多 个 链接 ， 这 些 链 接 之 间 的 地 位 是 平等 的 。 可 使 用 link0 和 unlink(O 来 创建 和 移 除 
链接 ， 对 文件 的 重 命名 则 使 用 系统 调用 rename()。 

调用 symlinkO 可 创建 符号 〈 或 者 软 ) 链接 。 符 号 链接 在 某 些 方面 与 便 链 接 相 类 似 ， 其 差 
异 则 在 于 符号 链接 可 以 跨越 文件 系统 边界 ， 还 可 指 代 目录 。 符 号 链接 只 是 一 个 内 容 包 含 了 另 
一 文件 名 称 的 文件 ， 可 通过 readlink(0 来 获取 该 文件 的 名 称 。( 目 标 ) i-node 的 链接 计数 中 并 未 
包含 符号 链接 ， 如 果 将 该 链接 所 指 同 的 文件 移 除 ， 那 么 此 链接 将 处 于 悬空 状态 。 一 些 系统 调 
用 会 自动 对 符号 链接 进行 解 引 用 《〈 下 溯 )， 其 余 的 则 不 会 。 有 时 系统 会 提供 两 种 版 本 的 系统 调 
用 ， 一 种 会 解 引 用 符号 链接 ， 男 一 种 则 不 会 ， 例 如 stati Istat(). 

创建 目录 使 用 的 是 mkdir()， 移 除 目 录 则 使 用 rmdir()。 而 扫描 一 个 目录 的 内 容 则 可 使 用 
opendirO、readdirO 以 及 相关 函数 。nftw0O 函 数 允 许 程序 壳 历 一 棵 完整 的 目录 树 ， 并 为 树 中 每 个 
文件 调用 由 程序 员 定义 的 函数 。 

remove() 函 数 可 以 用 来 移 除 一 个 文件 ( 即 一 个 链接 ) 或 者 一 个 空 目录 。 

每 个 进程 都 拥有 一 个 根 目 录 和 一 个 当前 工作 目录 ， 分 别 作 为 解释 绝对 路 径 和 相对 路 径 的 









































参照 点 。 可 通过 chroot0 和 chdirO 系 统 调用 来 修改 这 些 属 性 。 而 getcwd0O 函 效 则 返回 进程 的 当 
前 工作 目录 。 





Linux 还 提供 了 一 套 新 的 系统 调用 (如 : openatO0)， 其 行为 与 其 传统 同行 〈 如 : openO) 
相关 似 ， 不 同 之 处 则 在 于 可 利用 新 的 系统 调用 来 提供 一 个 指 癌 目录 的 文件 摘 述 符 《〈 而 非 进程 
的 当前 工作 目录 )， 用 于 作为 解释 相对 路 径 名 的 参照 点 。 这 将 有 助 于 避免 特定 类 型 的 竞 态 条 件 ， 
以 及 为 每 个 线程 实现 虚拟 工作 目录 。 

realpathO 国 数 解析 一 个 路 径 名 一 一 解 引用 所有 的 符号 链接 ， 并 将 所 有 的 .和 . .解析 为 相应 目 
录 一 一 从 而 生成 相应 的 绝对 路 径 名 。 dirname0 和 basenameO 国 数 可 用 来 将 路 径 名 分 解 为 目录 和 
文件 名 两 部 分 。 




















18.16 练习 


18-1. 4.3.2 方针 指出 ， 如 来 一 个 文件 正 处 于 执行 状态 ， 那 么 要 将 其 打开 以 执行 写 操 作 古 
不 可 能 的 《openO 调 用 返回 -1， 且 将 errno 置 为 ETXTBSY)。 然 而 ， 在 shell 中 执行 
如 下 操作 却 是 可 能 的 : 
$ cc -0 longrunner longrunner.c 
$ ./longrunner & Leave running in bachground 


$ vi longrunner.c Make some changes to the source code 
$ cc -o longrunner longrunner.c 


最 后 一 条 命令 覆盖 了 现 有 的 同名 可 执行 文件 。 原 因 何 在 ? GER: 在 每 次 编译 后 调 
H Is -ii 命令 来 查看 可 执行 文件 的 i-node 编号 。) 
18-2. 以 下 代码 中 对 chmod0O 的 调用 为 什么 会 失败 ? 

















第 18 章 目录 与 链接 309 


异步 社区 会 员 flyman150(2410757683 (9 qq.com) EF 尊重 版 权 


18-3. 
18-4. 
18-5. 


310 


mkdir("test", S IRUSR | S IWUSR | S IXUSR); 

chdir("test"); 

fd - open("myfile", O RDWR | O CREAT, S IRUSR | S IWUSR); 

symlink("myfile", "../mylink"); 

chmod("../mylink", S IRUSR); 

实现 realpath(). 

修改 程序 清单 18-2 中 的 程序 ， 用 readdir TO 来 取代 readdir()。 

实现 一 个 功能 与 getcwd0 相 当 的 图 数 。 提 示 : 要 获得 当前 工作 目录 的 名 称 ， 可 调用 
opendir() 和 readdir()23ls Jj C42 H 3€ C. 中 的 各 个 条 目 ， 奏 找 其 中 与 当前 工作 目录 
具有 相同 i-node 编号 及 设备 编号 〈 即 ， 分 别 为 stat0 和 lstatO 调 用 所 返回 stat 结构 中 
的 st ino 和 st dev 属性 ) 的 一 项 。 如 此 这 般 ， 沿 看 目录 树 层 层 拾 级 而 上 (chdir("..")) 
并 进行 扫 揪 ,就 能 构建 出 完整 的 目录 路 径 。 当 父 目 录 与 当前 工作 目录 相同 时 (回忆 
/.. 与 /相同 的 情况 )， 束 结束 授 历 。 无 论调 用 该 函数 成 功 与 侍 ， 都 应 将 调用 者 道 回 其 
起 始 目 录 (使 用 open0 和 fchdirO 能 很 方便 地 实现 这 一 功能 )。 

使 用 FTW_DEPTH 标志 来 修改 程序 清单 18-3(nftw_dir_tree.c) 中 的 程序 。 注 意 目 录 
树 授 历 顺 序 的 差 寞 。 

编写 一 程序 , 使 用 nftw0O 来 表 历 目录 树 ,， 并 打印 出 树 中 各 类 文件 (普通 文件 、 日 录 、 
符号 链接 等 ) 的 总 和 及 百分比 。 

实现 nftw()。( 需 要 使 用 opendir()、readdir()、closedir() 和 statO 等 系统 调用 。) 

18.10 区 展示 了 两 种 技术 《分 别 为 frhdir0 和 chdir0)， 用 于 在 将 当前 工作 目录 转 到 
另 一 位 置 后 ， 再 返回 之 前 的 当前 工作 目录 。 假 设 需要 反复 执行 这 一 操作 ， 哪 种 方法 
更 为 高 效 ? 原因 何在 ?请 写 一 段 程序 加 以 验证 。 
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某 些 应 用 程序 需要 对 文件 或 目录 进行 监控 ， 已 侦 测 其 是 否 发 生 了 特定 事件 。 例 如 ， 当 把 
文件 加 入 或 移出 一 目录 时 ， 图 形 化 文件 管理 需 应 能 判定 此 目录 是 否 在 其 当前 显示 之 列 ， 而 守 
护 进 程 可 能 也 想 要 监控 自己 的 配置 文件 ， 以 了 解 其 是 否 被 修改 。 

自 内 核 2.6.13 起 ，Linux 开始 提供 inotify 机 制 ， 以 允许 应 用 程序 监控 文件 事件 。 本 章 将 介 
绍 inotify 的 用 法 。 

inotify 机 制 所 取代 的 是 dnotify， 后 者 一 来 较为 陈旧 ， 二 来 仅 共 备 前 者 的 部 分 功能 。 本 章 
会 在 结尾 处 对 dnotify 做 简要 介绍 ， 着 重 突出 inotify 的 优势 所 在 。 

inotify 和 dnotify 都 是 Linux 专 有 机 制 。( 仅 有 少数 其 他 系统 提供 类 似 机 制 。 比 如 ，BSD 
所 提供 的 kqueue API. ) 




















有 几 个 函数 库 提供 的 (类 似 ) API， 比 之 inotify 和 dnotify， 既 更 为 抽象 ， 在 可 移植 性 方 
面 也 略 胜 一 筹 。 某 些 应 用 可 能 更 倾 问 于 采用 这 样 的 函数 库 。 而 这 其 中 的 一 些 库 也 会 调用 inotify 
和 dnotify， 前 提 是 要 获得 操作 系统 的 支持 。FAM (文件 变更 监控 http:/ oss.sgi.com/projects/fam/) 
和 Gamin (http:/www.gnome.org/ 一 veillard/gamin/) 便 是 此 类 库 的 两 个 例子 。 








19.1 概述 


使 用 inotify API 有 以 下 几 个 关键 步骤 。 

1。，( 应 用 程序 使 用 Wnodfy init)2K8I£E — inotify 实例 该 系统 调用 所 返回 的 文件 描述 符 用 于 在 后 
续 操 作 中 指 代 该 实例 。 

2. 应 用 程序 使 用 inotify add watch() Is] inotify 实例 (由 步 又 1 创建 ) 的 监控 列表 添加 条 目 ， 糊 
此 告知 内 核 哪 些 文件 是 目 己 的 兴趣 所 在 。 每 个 监控 项 都 包含 一 个 路 径 名 以 及 相关 的 位 掩 
人 码 。 位 掩 码 针对 路 径 名 指明 了 所 要 监控 的 事件 集合 。 作 为 防 数 结 末 ，inotify_add_watch() 
将 返回 一 监控 摘 述 从 ,用 于 在 后 续 操 作 中 指 代 该 监控 项 。( 系 统 调用 inotify_rm_watch() 执 行 
其 揽 回 操作 ， 将 之 前 添加 入 inotify 实例 的 监控 项 移 除 。) 

3. 为 获 得 事件 通知 ， 应 用 程序 需 针 对 inotify 文件 描述 符 执 行 read NE. BERIT read0 的 成 





311 
异步 社区 会 员 flyman150(2410757683 (9 qq.com) EF 尊重 版 权 








功 调 用 ,都 会 返回 一 个 或 多 个 inotify_event 结构 ,其 中 各 目 记 录 了 处 于 inotify 实例 监控 之 

下 的 某 一 路 径 名 所 发 生 的 事件 。 
4. 应 用 程序 在 结束 监控 时 会 关闭 inotify 文件 描述 符 。 这 会 自动 清除 与 inotify 实例 相关 的 所 

有 监控 项 。 

inotify 机 制 可 用 于 监控 文件 或 目录 。 当 监控 目录 时 ， 与 路 径 目 身 及 其 所 舍 文 件 相 关 的 事 
件 都 会 通知 给 应 用 程序 。 

inotify 监控 机 制 为 非 递 归 。 知 应 用 程序 有 意 监 控 整 个 目录 子 树 内 的 事件 ， 则 需 对 该 树 中 
的 每 个 目录 发 起 inotify add watchO 调 用 。 

可 使 用 select. poll). epoll 以 及 由 信号 驱动 的 IO CE Linux 2.6.25 起 ) 来 监控 inotify 
文件 描述 符 。 只 要 有 事件 可 供 读 取 ， 上 述 API 便 会 将 inotify 文件 描述 符 标 记 为 可 读 。 关 乎 这 
些 编程 接口 的 详细 信息 请 见 第 63 36. 














inotify 机 制 属 可 选 的 Linux 内 核 组 件 ， 可 通过 CONFIG INOTIFY 和 CONFIG_ 
INOTIFY USER 选项 进行 配置 。 


19.2 inotify API 
inotify_initO 系 统 调用 可 创建 一 新 的 inotify 实例 。 





#include «sys/inotify.h» 


int inotify init(void); 





Returns file descriptor on success, or -1 on error 





作为 函数 结束 ，inotify_init0 会 返回 一 个 文件 描述 符 〈 句 柄 )， 用 于 在 后 续 操 作 中 指 代 此 
inotify 实例 。 





Linux 自 内 核 2.6.27 开始 文 持 一 个 新 的 、 非 标准 的 系统 调用 inotify_init1()。 该 系统 调 所 
执行 的 任务 与 inotify_init0) 相 同 , 但 提供 了 一 个 额外 的 参数 flag. 用 于 修改 系统 调用 的 行为 。 
该 参数 文 持 的 标志 有 二 : IN CLOEXEC 标志 会 使 内 核 针 对 新 文件 摘 述 符 激 活 close-on-exec 
标志 (FD CLOEXEC)。 引 入 该 标志 的 原因 正如 4.3.1 节 所 述 open0 的 O_CLOEXEC 标志 一 样 。 
IN NONBLOCK 标志 会 导致 内 核 激 活 底层 打开 文件 描述 的 O NONBLOCK 标志 ， 如 此 一 
来 ， 未 来 的 读 操作 将 是 非 阻 堵 式 的 ， 和 省 得 还 要 额外 调用 fcntl0 来 获得 相同 效 末 。 

















针对 文件 描述 符 fd 所 指 代 inotify 实例 的 监控 列表 ， 系 统 调用 inotify_add_watchO 既 可 以 
退 加 新 的 监控 项 ， 也 可 以 修改 现 有 监控 项 。( 请 参考 狗 19-1.) 





#include «sys/inotify.h» 


int inotify add watch(int fd, const char *pathname, uint32 t mask); 


Returns watch descriptor on success, or -1 on error 








参数 pathname 标识 欲 创建 或 修改 的 监控 项 所 对 应 的 文件 。 调 用 程序 必须 对 该 文件 具有 读 权 
限 (调用 inotify_add_watchO 时 ， 会 对 文件 权限 做 一 次 性 检 碍 。 只 要 监控 项 继续 存在 ， 即 便 有 
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人 更 改 了 文件 权限 ， 使 调用 程序 不 再 对 文件 具有 读 权限 ， 调 用 程序 依然 会 继续 收 到 文件 的 通 
ATE ds )。 


inotify 
实例 


监控 描述 符 1 位 | ERN 
监控 描述 符 2 | 一 [wu [m ]«— en 
监控 描述 符 3 E = 

J [ se [em | 


19-1: 一 个 inotify 实例 及 与 之 相关 的 内 核 数据 结构 





参数 mask H — HLEA, EXT pathname 定义 了 意欲 监控 的 事件 。 稍 后 会 论 及 可 在 手 码 中 
指定 的 各 种 位 值 。 

如 果 先 前 未 将 pathname 加 入 fd 的 监控 列表 ， 那 么 inotify_add_watch() 会 在 列表 中 创建 一 
新 的 监控 项 ， 并 返回 一 新 的 、 非 负 监 控 摘 述 符 ， 用 来 在 后 续 操 作 中 指 代 此 监控 项 。 对 inotify 实例 
来 说 ， 该 监控 摘 述 符 是 唯一 的 。 

A 46 BU CT pathname 加 入 fd 的 监控 列表 , 则 inotify add_watchO 会 修改 现 有 pathname 监控 
项 的 掩 码 ， 并 返回 其 监控 摘 述 符 。( 此 描述 符 束 是 最 初 将 pathname 加 入 该 监控 列表 的 系统 调用 
inotify_add_watchO 所 返回 的 监控 摘 述 符 。) 下 节 在 讨论 IN MASK ADD 标志 时 会 就 手 码 的 修 
改过 程 做 进一步 描述 。 

系统 调用 inotify_rm_watch0 会 从 文件 摘 述 符 fd 所 指 代 的 inotify 实例 中 ， 删 除 由 wd 所 定义 
的 监控 项 。 

















#include «sys/inotify.h» 


int inotify rm watch(int fd, uint32 t wd); 


Returns 0 on success, or -1 on error 








参数 wd iE MIRRI, HL AIX inotify add_watchO 的 调用 返回 。'uint32 t 数据 类 型 
为 一 无 符号 32 位 整数 。) 
删除 监控 项 会 为 该 监控 描述 符 生 成 IN. IGNORED 事件 。 稍 后 将 讨论 该 事件 。 





19.3 inotify 事件 


使 用 inotify add _watch0 删 除 或 修改 监控 项 上 时， 位 掩 码 参数 mask 标识 了 针对 给 定 路 径 名 
(pathname) 而 要 监控 的 事件 。 表 19-1 的 “in” 列 列 出 了 可 在 mask 中 定义 的 事件 位 。 


表 19-1: inotify 事件 


IN ACCESS 文件 被 访问 (read()) 


IN ATTRIB 文件 元 数据 改变 
IN_ CLOSE WRITE 关闭 为 了 写 入 而 打开 的 文件 
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IN CLOSE NOWRITE 
IN CREATE 

IN DELETE 

IN DELETE SELF 
IN MODIFY 

IN MOVE SELF 

IN MOVED FROM 
IN MOVED TO 

IN OPEN 

IN ALL EVENTS 
IN MOVE 

IN CLOSE 

IN DONT FOLLOW 
IN MASK ADD 

IN ONESHOT 

IN ONLYDIR 

IN IGNORED 


IN ISDIR 


IN Q OVERFLOW 
IN UNMOUNT 


RAAR ETAT IAI 

在 受 监控 目录 内 创建 了 文件 /目录 

在 受 监 控 目 录 内 删除 文件 /目录 

删除 受 监控 目录 /文件 本 刁 

文件 被 修改 

移动 受 监控 目录 /文件 本 身 

文件 移出 到 受 监 探 目 录 之 外 

将 文件 移入 受 监控 目录 

文件 被 打开 

以 上 所 有 输出 事件 的 统称 

IN MOVED FROM |IN MOVED TO 事件 的 统称 
IN CLOSE WRITE|IN CLOSE NOWRITE 事件 的 统称 
不 对 符号 链接 解 引用 《〈 始 于 Linux 2.6.15) 

将 事件 追加 到 pathname 的 当前 监控 掩 码 

只 监控 pathname 的 一 个 事件 

pathname 不 为 目录 时 会 失败 〈 始 于 Linux 2.6.15) 
监控 项 为 内 核 或 应 用 程序 所 移 除 

name 中 所 返回 的 文件 名 为 路 径 

事件 队列 溢出 

包含 对 象 的 文件 系统 遭 番 载 

















对 于 表 19-1 所 列 出 的 绝 大 多 数位 而 言 ， 顾 名 便 可 知 义 。 以 下 是 对 一 些 细 市 的 淤 清 。 
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当 文 件 的 元 数据 (比如 ， 权 限 、 所 有 权 、 链 接 计 数 、 扩 展 属 性 、 用 户 ID 或 组 ID 等 ) 
改变 时 ， 会 发 生 IN_ATTRIB 事件 。 

删除 受 监控 对 象 ( 即 ， 一 个 文件 或 目录 ) 时 ， 发 生 IN DELETE SELF 事件 。 当 受 
监控 对 和 象 是 一 个 目录 ， 并 且 该 目录 所 含 文 件 之 一 莹 删除 时 ， 发 生 IN_DELETE 事件 。 
重 命 名 受 监控 对 象 时 ， 发 生 IN MOVE SELF 事件 。 重 命名 受 监控 目录 内 的 对 象 时 ， 发 
^E IN MOVED FROM 和 IN_MOVED_TO 事件 。 其 中 ， 前 一 事件 针对 包含 旧 对 象 名 的 
目录 ， 后 一 事件 则 针对 包含 狐 对 象 名 的 目录 。 

IN DONT FOLLOW, IN MASK ADD, IN ONESHOT 和 JIN_ONLYDIR 位 并 非 对 监 
控 事 件 的 定义 ， 而 是 意 在 控制 inotify add_watchO 系 统 调 用 的 行为 。 

IN DONT FOLLOW 则 规定 ， 大 pathname HFFS BEIZ, MAIRES 
于 令 应 用 程序 可 以 监控 符号 链接 ， 而 非 符 号 连接 所 指 代 的 文件 。 
倘若 对 已 为 同一 inotify 摘 述 符 所 监控 的 同一 路 径 名 再 次 执行 inotify_ add_watchO 调 用 ， 
那么 默认 情况 下 会 用 给 定 的 mask 捧 码 来 蔡 换 该 监控 项 的 当前 手 码 。 如 果 指 定 了 
IN MASK ADD， 那么 则 会 将 mask 值 与 当前 掩 码 相 或 。 

IN ONESHOT 允许 应 用 只 监控 pathname 的 一 个 事件 。 事 件 发 生 后 ， 监 控 项 会 目 动 从 




















— S 


用 。 其 作用 在 
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监控 列表 中 消失 。 

e 只 有 当 pathname 为 目录 时 ，IN_ONLYDIR 才 人 允许 应 用 程序 对 其 进行 监 探 。 如 果 
pathname 并 非 目 录 ， 那 么 调用 inotify add watchO 失 败 ， 报 错 为 ENOTDIR。 如 要 确保 
监控 对 和 象 为 一 目录 ， 则 使 用 该 标志 可 以 规避 了 苋 争 条 件 的 友 生 。 

















19.4 iZ inotify 事件 


将 监控 项 在 监控 列表 中 登记 后 ， 应 用 程序 可 用 read0 从 inotify 文件 摘 述 符 中 读 取 事件 ， 以 
判定 发 生 了 哪些 事件 。 若 时 至 读 取 时 尚未 发 生 任 何事 件 ，read0 会 阻塞 下 去 ， 直 人 至 有 事件 产生 ( 除 
非 对 该 文件 描述 符 设 置 了 O_NONBLOCK 状态 标志 ， 这 时 若 无 任 何事 件 可 读 , read0) 将 立即 失败 ， 
并 报错 EAGAIN)。 

事件 发 生 后 ， 每 次 调用 readO 会 返回 一 个 绥 冲 区 ， 内 含 一 个 或 多 个 如 下 类 型 的 结构 (请 见 


















































图 19-2): 
struct inotify event { 
int wd; /* Watch descriptor on which event occurred */ 
uint32_t mask; /* Bits describing event that occurred */ 
uint32 t cookie; /* Cookie for related events (for rename()) */ 
uint32 t len; /* Size of 'name' field */ 
char name |[ ] ; /* Optional null-terminated filename */ 


id 


mask 


cookie 


len 


nme 以 空 字符 结尾 


len 字 节 


以 空 字符 填充 的 可 变 
FHA 


zd 


mask 


cookie 


len 


name 


0 


read() 的 返回 值 总 计 的 宇 节 数 


zd 


mask 


cookie 


len 


name 





19-2: 包含 3 个 inotify event 结构 的 输入 缓冲 区 


字段 wd JRHHACAIE SEAT] ZR PRX TE S VA ECHL EE AL BUDE inotify add watchO If] Jl 
用 返回 。 当 应 用 程序 要 监控 同一 inotify 文件 描述 符 下 的 多 个 文件 和 目录 时 , 字段 wd 3k EHI 
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场 。 应 用 利用 其 所 提供 的 线索 来 判定 发 生 事件 的 特定 文件 或 目录 。( 要 做 到 这 一 点 ， 应 用 程序 
必须 维护 专 有 数据 结构 ， 记 录 监 控 描 述 符 与 路 径 名 之 间 的 关系 。) 
mask 字段 会 返回 描述 该 事件 的 位 掩 码 。 由 表 19-1 所 示 的 Out 列 展示 了 可 出 现 于 mask 中 
的 位 范围 。 还 要 注意 下 列 与 特殊 位 相关 的 更 多 细 攻 。 
e 移 除 监控 项 时 ， 会 产生 IN_IGNORED 事件 。 起 因 可 能 有 两 个 : 其 一 ， 应 用 程序 使 用 
了 inotify_rm_watchO 系 统 调 用 显 式 移 除 监控 项 ; 其 二 ， 因 受 监 控 对 象 补 柚 除 或 其 所 驻 
留 的 文件 系统 遭 外 载 ， 致 使 内 核 隐 式 删 除 监 控 项 。 以 IN ONESHOT 而 建立 的 监控 项 
办 事件 触发 而 遭 日 动 移 除 时 ， 不 会 产生 IN_IGNORED 事件 。 
。 如 果 事 件 的 主体 为 路 径 ， 那 么 除去 其 他 位 以 外 ， 在 mask 中 还 会 设置 IN_ISDIR 位 。 
* IN UNMOUNT 事件 会 通知 应 用 程序 包含 受 监 探 对 象 的 文件 系统 已 遭 番 载 。 访 事件 发 
生 之 后 ， 还 会 产生 包含 IN_IGNORED 置 位 的 附加 事件 。 
e 19.5 市 将 介绍 IN_Q_OVERFLOW， 并 讨论 对 排队 inotify 事件 的 限制 。 
使 用 cookie 字段 可 将 相关 事件 联系 在 一 起 。 目 前 ， 只 有 在 对 文件 重 命 名 时 才 会 用 到 该 字 
段 。 当 这 种 情况 发 生 时 ， 系 统 会 针对 竺 重 命名 文件 所 在 目录 产生 IN MOVED FROM 事件 ， 
然后 ， 还 会 针对 重 命 名 后 文件 的 所 在 目录 生成 IN MOVED TO 事件 。( 辱 仪 是 在 同一 目录 内 
为 文件 改名 ， 系 统 则 会 针对 同一 目录 产生 上 述 两 个 事件 。) 两 个 事件 的 cookie 字段 值 相 等 ， 故 
而 应 用 程序 得 以 将 它们 关联 起 来 。 
当 受 监控 目录 中 有 文件 发 生 事件 时 ，name 字段 返回 一 个 以 空 字 符 结 尾 的 字符 串 ， 以 标识 
该 文件 知 受 监控 对 象 自身 有 事件 发 生 ， 则 不 使 用 name 字段 ， 将 len 字段 置 0。 
len 字段 用 于 表示 实际 分 配给 name FRITI Æ read0 所 返回 的 绥 冲 区 中 ， 存 储 于 
name 内 的 字符 串 结尾 与 下 一 个 inotify_event 结构 的 开始 (请 参见 19.2 市 ) 之 间 ， 可 能 会 有 额外 
填充 字 节 ， 故 而 len 字段 不 可 或 缺 。 单 个 inotify 事件 的 长 度 是 sizeof(struct inotify event)+ len. 
如 果 传 递 给 read() 的 缓冲 区 过 小 ， 无 法 容纳 下 一 个 inotify event 结构 ， 那 么 read0 调 用 将 
以 失败 告终 ， 并 以 EINVAL 错误 问 应 用 程序 报告 这 一 情况 。( 在 2.6.21 之 前 版 本 的 内 核 中 ， 这 
种 情况 下 read0 将 返回 0。 在 改 为 报告 EINVAL 错误 之 后 ， 则 对 编程 错误 的 提示 更 为 清晰 。) 
应 用 程序 可 再 次 以 更 大 的 绥 冲 区 执行 read0 操 作 。 然 而 ， 只 要 确保 缓 锌 区 足以 容纳 至 少 一 个 事 
件 ， 这 一 问题 将 得 以 完全 规避 : 鞭 给 Tead0 的 组 证 区 应 全 少 为 SiZzeofstruct inotify event) 
NAME MAX + 1778, HP NAME MAX 是 文件 名 的 最 大 长 度 ， 此 外 在 加 上 终止 空 字符 使 
(EET. 
采用 的 缓冲 区 大 小 如 大 于 最 小 值 ， 则 可 目 单 个 read0 中 该 取 多 个 事件 ， 效 率 极 局 。 对 inotify 
文件 描述 符 所 执行 的 read0， 将 在 已 发 生 事件 数量 与 缓冲 区 可 容纳 事件 数量 间 取 最 小 值 并 返回 之 。 


针对 文件 描述 符 乌 调用 ioctl(fd, FIONREAD, &numbytes)， 会 返回 其 所 指 代 的 inotify 实例 
ASE 


从 inotify 文件 摘 述 符 中 读 取 的 事件 形成 了 一 个 有 序 队 列 。 打 个 比方 ， 这 样 一 来 ， 对 文件 
重 命 名 时 ， 便 可 保证 在 IN MOVED TO 事件 之 前 能 谈 取 到 IN MOVED FROM 事件 。 

在 事件 队列 的 末尾 退 加 一 个 新 事件 时 ， 如 采 此 新 事件 与 队列 当前 的 尾部 事件 拥有 相同 的 
wd, mask, cookie 和 mask 值 ， 那 么 内 核 会 将 两 者 合并 《以 避免 对 新 事件 排队 )。 之 所 以 这 人 么 
做 ， 是 因为 很 多 应 用 程序 都 并 不 关注 同一 事件 的 反复 出 现 ， 而 丢弃 多 余 的 事件 能 降低 内 核 维 
护 事件 队列 所 需 的 内 存 总 量 。 然 而 ， 这 也 意味 看 使 用 inotify 将 无 法 可 菲 判 定 出 周期 性 事件 的 
发 生 次 数 或 频率 。 
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程序 示例 





虽然 在 前 文中 描述 了 inotify API 的 诸多 细节 ， 但 实际 上 ， 该 API 使 用 起 来 却 烦 为 简单 。 程 


序 清单 19-1 展示 了 对 inotify 的 运用 。 
程序 清单 19-1: 运用 inotify API 


inotify/demo inotify.c 


include «sys/inotify.h» 
#include «limits.h» 
#include "tlpi hdr.h" 


static void /* Display information from inotify event structure */ 
displayInotifyEvent(struct inotify event *i) 
{ 
printf(" wd -X2d; ", i-»wd); 
if (i-»cookie > 0) 
printf("cookie =%4d; ", i-»cookie); 
printf("mask - "); 
if (i-»mask & IN ACCESS) printf("IN ACCESS "); 
if (i-»mask & IN ATTRIB) printf("IN ATTRIB "); 
if (i-»mask & IN CLOSE NOWRITE) printf("IN CLOSE NOWRITE "); 
if (i-»mask & IN CLOSE WRITE) printf("IN CLOSE WRITE "); 
if (i-»mask & IN CREATE) printf("IN CREATE "); 
if (i-»mask & IN DELETE) printf("IN DELETE "); 
if (i-»mask & IN DELETE SELF) printf("IN DELETE SELF "); 
if (i-»mask 8 IN IGNORED) printf("IN IGNORED "); 
if (i-»mask & IN ISDIR) printf("IN ISDIR "); 
if (i-»mask & IN MODIFY) printf("IN MODIFY "); 
if (i-»mask & IN MOVE SELF) printf("IN MOVE SELF "); 
if (i-»mask & IN MOVED FROM)  printf("IN MOVED FROM "); 
if (i-»mask & IN MOVED TO) printf("IN MOVED TO "); 
if (i-»mask & IN OPEN) printf("IN OPEN "); 
if (i-»mask & IN Q OVERFLOW) ^ printf("IN Q OVERFLOW "); 
if (i-»mask & IN UNMOUNT) printf("IN UNMOUNT "); 
printf("Nn"); 
if (i-»len » 0) 
printf(" name = %s\n", i-»name); 
j #define BUF LEN (10 * (sizeof(struct inotify event) + NAME MAX + 1)) 
int 
main(int argc, char *argv[]) 
int inotifyFd, wd, j; 
char buf[BUF LEN]; 
ssize t numRead; 
char *p; 
struct inotify event *event; 
if (argc < 2 || stremp(argv[1], "--help") == O) 
usageErr("Xs pathname... Nn", argv[0]); 
(D inotifyFd = inotify init(); /* Create inotify instance */ 


if (inotifyFd -- -1) 
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errExit("inotify init"); 


for (j = 1; j < argc; j++) f 


wd = inotify add watch(inotifyFd, argv[j], IN ALL EVENTS); 


if (wd -- -1) 


errExit("inotify add watch"); 


printf("Watching %s using wd %d\n", argv[j], wd); 


/* Read events forever */ 


buf, BUF LEN); 


printf("Read Xld bytes from inotify fd\n", (long) numRead); 


/* Process all of the events in buffer returned by read() */ 


p += sizeof(struct inotify event) + event-»len; 


} 
for (55) 1 
numRead - read(inotifyFd, 
if (numRead == 0) 
fatal("read() from inotify fd returned 0!"); 
if (numRead == -1) 
errExit("read"); 
for (p = buf; p < buf + numRead; ) 1 
event - (struct inotify event *) p; 
displayInotifyEvent(event); 
} 
} 


exit(EXIT SUCCESS); 


inotify/demo inotify.c 





程序 清单 19-1 中 程序 将 执行 以 下 步骤 。 
使 用 inotify init), &]£ inotify LRO. 
使 用 inotity add watch. GERATEN. 每 个 


以 下 shell 会 





执行 无 限 循环 。 


监控 项 都 将 监控 所 有 可 能 发 生 的 事件 。 


- 从 inotify 描述 符 读 取 事件 缓冲 区 G@)。 


- 调用 displayInotifyEventO AŽ, 








对 两 个 目录 进行 监控 。 

$ ./demo inotify diri dir2 & 
[1] 5386 

Watching diri using wd 1 
Watching dir2 using wd 2 


然后 ， 执 行 某 些 命 仿 ， 从 而 在 两 个 目录 中 产生 事件 。 先 使 用 cat(1) 创 建 一 个 文件 : 


$ cat > dir1/aaa 
Read 64 bytes from inotify fd 
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以 显示 上 述 缓冲 区 中 各 inotify_event £i 
会 话 演示 了 对 程序 清单 19-1 所 列 程序 的 人 使用。 首先， 在 后 人 台 运 








wd = 1; mask = IN CREATE 


name - aaa 
wd - 1; mask - IN OPEN 
name - aaa 
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由 后 人 台 程 序 所 生成 的 上 述 输出 表明 ，read0 读 取 了 包含 两 个 事件 的 缓冲 区 。 继 续 在 该 文件 
中 执行 菜 些 输入 操作 ， 然 后 输入 end-of-file FIFE: 


Hello world 
Read 32 bytes from inotify fd 
wd = 1; mask = IN MODIFY 
name = aaa 
Type Control-D 
Read 32 bytes from inotify fd 
wd - 1; mask - IN CLOSE WRITE 
name - aaa 


接 下 来 ， 将 该 文件 转移 至 另 一 个 受 监 控 的 目录 ， 同 时 对 其 重新 命名 。 这 会 产生 两 个 事件 ， 
一 个 对 应 于 文件 的 源 目 录 (监控 描述 符 1)， 另 一 个 对 应 于 文件 的 目标 目 孙 〈 监 控 摘 述 符 2)。 
$ mv dir1/aaa dir2/bbb 


Read 64 bytes from inotify fd 
wd = 1; cookie = 548; mask = IN MOVED FROM 


name - aaa 
wd = 2; cookie = 548; mask = IN MOVED TO 
name - bbb 


以 上 两 个 事件 共享 相同 的 cookie 值 ， 允 许 应 用 程序 将 它们 联系 起 来 。 

当 在 其 中 一 个 受 监控 目录 下 创建 子 目 录 时 ， 由 此 产生 的 事件 掩 码 会 置 IN_ISDIR 位 ， 以 示 
该 事件 的 对 象 是 一 目录 。 

$ mkdir dir2/ddd 

Read 32 bytes from inotify fd 


wd - 1; mask - IN CREATE IN ISDIR 
name - ddd 


此 处 ， 再 次 提醒 大 家 ，inotify 监控 是 非 递 归 的 。 如 采 应 用 程序 有 意 对 新 创建 的 子 目 录 进 
行 监控 ， 则 需 进 一 步 执行 motify_add_watchO 系 统 调用 ， 并 指明 子 目 录 的 路 径 名 。 

最 后 ， 将 其 中 一 个 受 监控 目录 删除 : 

$ rmdir diri 

Read 32 bytes from inotify fd 


wd = 1; mask = IN DELETE SELF 
wd = 1; mask = IN IGNORED 


系统 会 生成 最 后 一 个 事件 ， 以 通知 应 用 程序 ， 内 核 已 从 监控 列表 中 删除 该 监控 项 。 











19.5 ”队列 限制 和 /proc 文件 


对 inotify 事件 做 排队 处 理 ， 需 要 消耗 内 核 内 存 。 正 因 如 此 ， 内 核 会 对 inotify 机 制 的 操作 
施 以 各 种 限制 。 超 级 用 户 可 配置 /proc/sys/fs/inotify 路 径 中 的 3 个 文件 来 调整 这 些 限制 : 














max queued events 

调用 inotify_init0) 时 ,使 用 该 值 来 为 新 inotify 实例 队列 中 的 事件 数量 设置 上 限 。 一 旦 超出 
这 一 上 限 ， 系 统 将 生成 N_Q_OVERFLOW 事件 ， 并 丢弃 多 余 的 事件 。 洲 出 事件 的 wd 字段 值 
A la 
max_user_instances 

对 由 每 个 真实 用 户 ID 创建 的 inotify 实例 数 的 限制 值 。 


max. user watches 
对 由 每 个 真实 用 户 ID 创建 的 监控 项 数量 的 限制 值 。 
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这 3 个 文件 的 典型 默认 值 分 别 为 16384. 128 和 8192。 


19.6 


监 探 文 件 的 旧 有 系统 : dnotify 


Linux 还 为 监控 文件 事件 提供 了 故 一 种 机 制 。 访 机 制 名 为 dnotiy， 问 世 于 内 核 2.4 版 本 ， 
但 inotify B&H: “Y”. AHT inotify，dnotify 存在 如 下 局 限 性 。 

















dnotify 机 制 通 过 回应 用 程序 发 送信 号 来 通告 事件 。 使 用 信和 号 作为 通告 机 制 ， 会 使 应 用 
程序 的 设计 复杂 化 (请 参见 22.12 节 )。 这 也 使 得 在 函数 库 中 使 用 dnotify 变 得 困难 ， 
因为 调用 该 函数 的 程序 可 能 会 改变 对 通告 信号 的 处 置 〈disposition)。 而 inotify 机 制 则 不 
使 用 信号。 

dnotify 的 监控 单元 为 目录 。 只 要 对 该 目录 下 的 任 一 文件 执行 了 任何 操作 ， 系 统 都 会 通 
知 应 用 程序 。 相 形 之 下 ，inotify 的 监控 对 象 则 既 可 以 是 单个 文件 ， 也 能 是 目录 。 

为 监控 目录 ，dnotify 需要 应 用 程序 为 该 目录 打开 文件 摘 述 符 。 使 用 文件 描述 符 会 导致 
两 个 问题 。 其 一 ， 由 于 程序 处 于 运行 中 ， 将 无 法 番 载 包含 此 目录 的 文件 系统 。 其 二 ， 
因为 每 个 目录 都 需要 一 个 文件 摘 述 符 ， 所 以 应 用 程序 最 终 可 能 会 消耗 大 量 文件 描述 
^f. If] inotify 不 使 用 文件 描述 符 ， 故 而 可 以 避免 上 述 问 题 。 

与 inotify 相 比 ， 由 dnotify 提供 的 与 文件 事件 相关 的 信息 不 够 精确 。 当 位 于 受 监控 目 
录 下 的 文件 发 生 改变 时 ，dnotify 只 会 通知 有 事件 发 生 ， 但 不 会 说 明 事件 具体 涉及 了 哪 
个 文件 。 因 此 ， 应 用 程序 必须 通过 绥 存 目录 内 容 来 进行 判断 。 此 外 ， 针 对 已 发 生 事件 的 
类 型 ，inotify 所 提供 的 信息 也 比 dnotify 更 详细 。 

在 菏 些 情况 下 ，dnotify 不 文 持 可 徘 的 文件 事件 通告 机 制 。 









































在 fentl(2) 手 册页 中 对 F_NOTIFY 操作 的 描述 部 分 ， 以 及 内 核 源 但 Documentation/dnotify.txt 中 ， 
都 可 找到 有 关 dnotify 的 更 多 信息 。 


19.7 





TY 


/AN 一口 








当 一 组 受 监控 的 文件 或 目录 有 事件 发 生 ( 对 文件 的 打开 、 关 闭 、 创 建 、 删 除 、 修 改 以 及 
重 命 名 等 操作 ) 时 ，Linux 专 有 的 inotify 机 制 可 让 应 用 程序 获得 通知 。inotify 机 制 取 代 了 较 老 























的 dnotify 机 制 。 
19.8 J 
19-1. 编写 一 个 程序 ， 针 对 其 命令 行 参 数 所 指定 的 目录 ， 记 录 所 有 的 文件 创建 、 删 除 和 改 
名 操作 。 该 程序 应 能 够 监控 指定 目录 下 所 有 子 目录 中 的 事件 。 获 得 所 有 子 目 录 的 列 
表 需 使 用 nftwO0 CAJ 18.9 节 )。 当 在 目录 树 下 添加 或 删除 了 子 目录 时 ， 受 监控 的 
子 目 录 集 合 应 能 保持 同步 更 新 。 
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本 章 和 接 下 来 的 两 章 将 讨论 信号 。 虽 然 基本 概念 较为 简单 ， 但 因为 要 涵 凋 大 量 细 节 ， 所 
以 篇 幅 较 长 。 

本 草包 括 以 下 主题 。 

。 Wis RENS. 

。 VERRIHEAJXERU IET S FINES. DL ERE IS 2 — ERES TR s DIET] AR EEURLHI o 

。 进程 在 默认 情况 下 对 信号 的 啊 应 方式 ， 以 及 进程 改变 对 信号 啊 应 方式 的 手段 ， 特 别 是 
借助 于 信号 处 理 右 程序 的 手段 ， 即 程序 收 到 信号 时 去 目 动 调用 的 函数 ， 由 程序 员 定 义 。 

。 使 用 进程 信号 掩 码 来 阻 窒 信 与 ， 以 及 等 行 信号 的 相关 概念 。 

。 如 何 暂 停 进 程 的 执行 ， 并 等 竺 信和 号 的 到 达 。 









































20.1 概念 和 概述 


(信号 是 事件 发 生 时 对 进程 的 通知 机 制 有 时 也 称 之 为 软件 嘻 断 。 信 号 与 便 件 中 断 的 相似 
之 处 在 于 打 断 了 程序 执行 的 正常 流程 ， 大 多 数 情 况 下 ， 无 法 预测 信号 到 达 的 精确 时 间 。 

一 个 (上 共有 合适 权限 的 ) 进程 能 够 癌 另 一 进程 友 送 信号 。 信 号 的 这 一 用 法 可 作为 一 种 同 
步 技术 ， 甚 全 是 进程 间 通 信 APC) 的 原始 形式 。 进 程 也 可 以 同上 自身 发 送信 号 。 然 而 ， 发 往 进 
程 的 诸多 信号 ， 通 音 都 是 源 于 内 核 。 引 发 内 核 为 进程 产生 信号 的 各 闫 事件 如 下 。 

e 便 件 发 生 寞 弟 ， 即 便 件 检测 到 一 个 错误 条 件 并 通知 内 核 ， 随 即 再 由 内 核发 送 相应 信和 与 

给 相关 进程 。 便 件 寞 常 的 例子 包括 执行 一 条 异常 的 机 器 语言 指令 ， 诸 如 ， 被 0 除 ， 或 
者 引用 了 无 法 访问 的 内 存 区 域 。 

。 用 户 键入 了 能 够 产生 信号 的 终 疹 特殊 字符 。 其 中 包括 中 新 字符 《〈 通 闻 是 Control-C)、 

暂停 学 从 (通常 是 Control-Z )。 

e 发 生 了 软件 事件 。 例 如 ， 和 针对 文件 摘 述 和 从 的 输出 变 为 有 效 ， 调 整 了 终端 窗口 大 小 ， 定 

时 器 到 期 ， 进 程 执 行 的 CPU 时 间 超 限 ， 或 者 该 进程 的 某 个 子 进程 退出 。 
针对 每 个 信号 ， 都 定义 了 一 个 唯一 的 (小 ) 整数 ， 从 1 开始 顺序 展开 。<signal.h> 以 SIGxxxx 
形式 的 符号 名 对 这 些 整 数 做 了 定义 。 由 于 每 个 信号 的 实际 编号 随 系 统 不 同 而 不 同 ， 所 以 在 程序 中 
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总 是 使 用 这 些 符号 名 。 例 如 ， 当 用 户 键入 中 断 字 符 时 ， 将 传递 给 进程 SIGINT 信号 《信和 号 编号 
为 2 和 
信号 分 为 两 大 类 。 人 第 一 组 用 于 内 核 回 进程 通知 事件 ， 构 成 所 谓 传统 或 者 标准 信号 。Linux 中 
标准 信号 的 编号 范围 为 1 一 31。 本 章 将 描述 这 些 标准 信号 。 另 一 组 信号 由 实时 信和 号 构成 ， 其 与 
标准 信号 的 兰 异 将 在 22.8 万 中 描述 。 
言 号 因 某 些 事件 而 产生 。 信 和 号 产生 后 ， 会 于 稍 后 被 传递 给 茶 一 进程 ， 而 进程 也 会 采取 茶 
些 措施 来 吗 应 信和 号。 在 产生 和 到 达 期 间 ， 信 号 处 于 等 待 (pending) 状态 。 
通常 ,一旦 (内 核 ) 接 下 来 要 调度 该 进程 运行 ， 等 竺 信号 会 马上 送 达 ， 或 者 如 果 进 程 正 在 
运行 ， 则 会 立即 传递 信号 《例如 ， 进 程 癌 目 身 发 送信 号 )。 然 而 ， 有 时 需要 确保 一 段 代 码 不 为 
传递 来 的 信号 押 中 断 。 为 了 做 到 这 一 点 ， 可 以 将 信号 添加 到 进程 的 信号 掩 码 中 一 一 目前 会 阻塞 
该 组 信号 的 到 达 。 如 果 所 产生 的 信号 属于 阻 守 之 列 ， 那 么 信号 将 保持 等 待 状态， 直 全 稍 后 对 其 
解除 阻 玫 〈 从 信号 掩 但 中 移 除 )。 进 程 可 使 用 各 种 系统 调用 对 其 信号 掩 码 添加 和 移 除 信 和 号。 
信号 到 达 后 ， 进 程 视 具 体 信 号 执行 如 下 默认 操作 之 一 。 
。 忽略 信号 : 也 束 是 说 ， 内 核 将 信号 丢弃 ， 信 号 对 进程 没有 产生 任何 影响 (进程 永远 都 
不 知道 曾经 出 现 过 该 信号 )。 
e Zik CRIE) 进程 : 这 有 时 是 指 进程 着 终 止 ， 而 不 是 进程 因 调用 exit0 而 发 生 的 正 
第 终止 。 
e 产生 核心 转 储 文件 ， 同 时 进程 终止 : 核心 转 储 文件 包含 对 进程 虚拟 内 存 的 镜像 ， 可 将 
其 加 载 到 调试 右 中 以 检 和 三 进程 终止 时 的 状态 。 
e 停止 进程 : 暂 仿 进程 的 执行 。 
e 于 之 前 暂 仿 后 再 度 恢复 进程 的 执行 。 
除了 根据 特定 信号 而 采取 默认 行为 之 外 ， 程 序 也 能 改变 信号 到 达 时 的 啊 应 行为 。 也 将 此 
称 之 为 对 信号 的 处 置 (disposition) 设置 。 程 序 可 以 将 对 信号 的 处 置 设 置 为 如 下 之 一 。 
e 采取 默认 行为 。 这 适用 于 撤销 之 前 对 信号 处 置 的 修改 、 恢 复 其 默认 处 置 的 场景 。 
e 忽略 信号 。 这 适用 于 默认 行为 为 终止 进程 的 信号。 
e 执行 信号 处 理 器 程序 。 
言 号 处 理 喜 程序 是 由 程序 员 编 写 的 函数 ， 用 于 为 啊 应 传递 来 的 信号 而 执行 适当 任务 。 例 
如 ，shell 为 SIGINT 信号 《由 中 断 字 符 串 Control-C 产生 ) 提供 了 一 个 处 理 器 程序 ， 令 其 停止 
当前 正在 执行 的 工作 ,并 将 控制 返回 到 〈shell 的 ) 主 输 入 循环 ， 并 再 次 癌 用 户 呈 现 shell 提示 符 。 
通知 内 核 应当 去 调用 某 一 处 理 占 程序 的 行为 ， 通 常 称 之 为 安装 或 者 建立 信 与 处 理 器 程序。 调 
用 信和 与 处 理 器 程序 以 啊 应 传递 来 的 信 写 ， 则 称 之 为 信号 已 处 理 (handled),， 或 者 已 捕获 Caught). 
请 注意 ， 无 法 将 信号 处 置 设置 为 终止 进程 或 者 转 储 核心 《除非 这 是 对 信和 号 的 默认 处 置 )。 
效 末 最 为 近似 的 是 为 信号 安 闭 一 个 处 理 吉 程序 ， 并 于 其 中 调用 exit0 或 者 abort(). abort() P Zi 
(21.2.2 ^H) 为 进程 产生 一 个 SIGABRT 信号 ， 该 信号 将 引发 进程 转 储 核心 文件 并 终止 。 


Linux 特有 的 /proc/PID/status 文件 包含 有 各 种 位 掩 人 码 邹 段 ， 通 过 检查 这 些 扒 人 码 可 以 人 确定 
进程 对 信号 的 处 理 。 位 掩 码 以 十 六 进 制 数 形式 显示 ,最低 有 效 位 代表 信号 1， 相 临 的 左边 一 
位 代表 信号 2， 以 此 类 推 。 这 些 字 段 分 别 为 SigPnd (基于 线程 的 等 待 信号 )、ShdPnd (进程 
级 等 待 信号， 始 于 Linux 2.6)、SigBlk《〈 阻 塞 信 号 )、SigIgn〈 忽 略 信 号 ) 和 SigCgt (捕获 信 
写 )。(33.2 节 曾 述 了 多 线程 进程 对 信号 的 处 理 ， 这 将 有 助 于 淤 清 SigPnd 与 ShdPnd 之 间 的 
2:55.) 使 用 ps(1) 命 令 的 各 种 选项 也 能 获得 相同 信息 。 
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言 写 在 UNIX 实现 中 出 现 很 早 ， 诞生 之 后 又 历经 变 音 。 在 早期 实现 中 ,， 信 号 在 特定 场景 
下 有 可 能 会 丢失 ( 即 ， 没 有 传递 到 目标 进程 ;。 此 外 ， 尽 管 系统 提供 了 执行 关键 代码 时 阻 
塞 信号 传递 的 机 制 ， 但 阻塞 有 时 也 不 大 可 靠 。4.2BSD 利用 所 谓 可 靠 信号 解决 了 这 些 问 题 。 
(BSD 在 创新 上 还 更 进一步 ， 增 加 了 额外 信和 号 来 文 持 shell 作业 控制 ， 请 参考 34.7 8.) 

System V 后 来 也 为 信号 增加 了 可 靠 语义 ， 但 采用 的 模型 与 BSD 无 法 兼容 。 这 一 不 兼容 性 
直到 POSIX.1-1990 标准 出 人 台 后 才 得 以 解决 。 访 标准 针对 可 靠 信号 所 采取 的 规范 主要 基于 BSD 
模型 。 

22.7 节 将 就 可 靠 和 不 可 靠 信 号 的 细节 展开 讨论 ，22.13 节 则 简要 说 明了 老 版 BSD 和 System V 
的 信号 API. 














20.2 ”信号 类 型 和 默认 行为 


此 前 曾 提 及 ，Linux 对 标准 信号 的 编号 为 1 一 31。 然 而 ，Linux 于 signal(7) 手 册页 中 列 出 的 
言 号 名 称 却 超出 了 31 个 。 名 称 超出 的 原因 有 多 种 。 有 些 名 称 只 是 其 他 名 称 的 同义词 , 之 所 以 定 
义 是 为 了 与 其 他 UNIX 实现 你 持 源 公 兼 容 。 其 他 名 称 虽 然 有 定义 ， 但 却 并 未 使 用 。 以 下 列表 
介绍 了 各 种 信和 号。 
SIGABRT 

当 进 程 调用 abort0 函 数 (21.2.2 $) 时 ， 系 统 回 进程 发 送 该 信号 。 默 认 情 况 下 ， 该 信号 会 终 
止 进程 ， 并 产生 核心 转 储 文 件 。 这 实现 了 调用 abort0 的 预期 目标 ， 产 生 核 心 转 储 文件 用 于 调试 。 
SIGALRM 

经 调用 alarm() setitimerO M i EWK se Ia EA, PRECII IE VAR m. KE 
人 需 是 根据 挂钟 时 间 进 行 计 时 的 〈 即 人 类 对 逝去 时 间 的 概念 )。 更 多 细节 参见 23.1 市 。 
SIGBUS 

产生 该 信号 《〈 总 线 错 误 ，bus error) 即 表示 发 生 了 茶 种 内 存 访问 错误 。 如 49.4.3 市 所 述 ， 
当 使 用 由 mmapO 所 创建 的 内 存 映 射 时 ， 如 果 试 图 访问 的 地 址 超出 了 底层 内 存 映 射 文件 的 结 
尾 ， 那 么 将 产生 该 错误 。 
SIGCHLD 

当 父 进程 的 某 一 子 进程 终止 〈 或 者 因为 调用 了 exitD)， 或 者 因为 被 信号 杀 死 ) WP. (AH) 
将 回 父 进程 发 送 访 信号 。 当 父 进 程 的 某 一 子 进程 因 收 到 信号 而 停止 或 恢复 时 ， 也 可 能 会 问 父 
进程 发 送 该 信号 。 详 情 请 参考 26.3 节 。 
SIGCLD 

与 SIGCHLD 信和 号 同 义 。 
SIGCONT 

将 访 信 号 发 送 给 已 停止 的 进程 ， 进 程 将 会 恢复 运行 〈 即 在 之 后 某 个 时 间 点 重新 获得 调度 )。 
当 接 收 信号 的 进程 当前 不 处 于 停止 状态 时 ， 默 认 情 况 下 将 忽略 该 信号 。 进 程 可 以 捕获 该 信号 ， 
以 便 在 恢复 运行 时 可 以 执行 某 些 操 作 。 关 于 该 信号 的 更 多 细 廊 请 参考 22.2 WA 34.7 市。 
SIGEMT 

UNIX 系统 通 第 用 该 信号 来 标识 一 个 依赖 于 实现 的 便 件 错误 。Linux 系统 仅 在 Sun SPARC 
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实现 中 使 用 了 该 信号 。 后 绥 EMT W ADRAR Cemulator trap), Digital PDP-11 的 汇编 程序 
助 记 符 之 一 。 
SIGFPE 

该 信号 因 特 定 类 型 的 算术 错误 而 产生 ， 比 如 除 以 0。 后 级 FPE 是 浮 点 异 香 的 缩写 ， 不 过 
整 型 算术 错误 也 能 产生 该 信号 。 该 信号 于 何 时 产生 的 精确 细节 取决 于 便 件 架构 和 对 CPU fs 
制 寄 存 器 的 设置 。 例 如 ， 在 x86-32 WAF, HARA 0 总 是 产生 SIGFPE 信号 ， 但 是 对 浮 
点 数 除 以 0 的 处 理 则 取决 于 是 否 司 用 了 FE DIVBYZERO +. WRH T iZ OEH 
feenableexcept()), JI TEGERE 0 也 将 产生 SIGFPE fi. «WW, ERES ERG IEEE 
PEER CIGAJEKIITE pu RUEIO. S Eu BA fenv(3) 手 册页 和 <fenv.h> 文 件 。 


SIGHUP 

和 党 终 应 断 开 《挂机 大 有 时， 将 发 送 该 信号 给 终 端 控制 进程 8。34.6 节 将 描述 控制 进程 的 概念 
以 及 产生 SIGHUP 信号 的 各 种 环境 。SIGHUP 信号 还 可 用 于 守护 进程 《比如 ，init、httpd 和 inetd). 
许多 守护 进程 会 在 收 到 SIGHUP 信号 时 重新 进行 初始 化 并 重读 配置 文件 。 借 助 于 显 式 执行 kill 
命令 或 者 运行 同等 功效 的 程序 或 脚本 ， 系 统管 理 员 可 向 守护 进程 手工 发 送 SIGHUP 信号 来 触 
发 这 些 行为 。 









































SIGILL 
如 朱 进 程 试 图 执行 非法 “ 即 格式 不 正确 ) 的 机 器 语言 指令 ， 系 统 将 癌 进 程 发 送 该 信和 号。 
SIGINFO 


在 Linux 中 ， 该 信号 名 与 SIGPWR 信号 名 同 义 。 在 BSD 系统 中 ， 键 入 Control-T 可 产生 
SIGINFO 信号 ， 用 于 获取 前 台 进 程 组 的 状态 信息 。 
SIGINT 


SIGIO 

利用 fentl0 系 统 调用 ， 即 可 于 特定 类 型 (诸如 终 痢 和 套 接 字 〉 的 打开 文件 捅 述 符 发 生 VO 
SEEN PIER. 63.3 节 将 就 此 特性 做 进一步 说 明 。 
SIGIOT 

fr Linux 中 ， 该 信号 名 与 SIGABRT 信号 同 义 。 在 其 他 一 些 UNIX 实现 中 ， 该 信号 表示 发 
生 了 由 实现 定义 的 硬件 错误 。 
SIGKILL 

此 信号 为 “ 必 杀 (sure kill)” 信 和 号， 处 理 器 程序 无 法 将 其 阻塞 、 忽 略 或 者 捕获 ， 故 而 “一 
击 必 杀 ” 总 能 终止 进程 。 
SIGLOST 

Linux 中 存在 该 信号 名 ， 但 并 未 加 以 使 用 。 在 其 他 一 些 UNIX KMP, WRI NFS 服 
FERRER, M NFS 客户 问 却 未 能 章 狐 获得 由 本 地 进程 所 持 有 的 锁 ， 那 么 NFS 
客户 端 将 向 这 些 进 程 发 送 此 信号 。(CNFS 规范 并 未 对 该 特性 进行 标准 化 。) 
SIGPIPE 

当 某 一 进程 试图 向 管道 、FIFO 或 套 接 字 写 入 信息 时 ， 如 果 这 些 设 备 并 无 相应 的 阅读 进程 ， 
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那么 系统 将 产生 该 信和 号。 之 所 以 如 此 ， 通 党 是 因为 阅读 进程 已 经 关闭 了 其 作为 IPC 通道 的 文 
件 接 述 符 。 更 多 细节 请 参考 44.2 节 。 
SIGPOLL 

该 信号 从 System V 派生 而 来 ， 与 Linux 中 的 SIGIO 信号 同 义 。 
SIGPROF 

由 setitimer() Ui] Hj. (AJL 23.1 节 ) 所 设置 的 性 能 分 析 定 时 器 刚 一 过 期 ， 内 核 就 将 产生 该 信 
号 。 性 能 分 析 定 时 器 用 于 记录 进程 所 使 用 的 CPU 时 间 。 与 虚拟 定时 器 不 同 ( 参 见 下 面 的 
SIGVTALRM 信号 )， 人 性 能 分 析 定 时 器 在 对 CPU 时 间 计 数 时 会 将 用 户 态 与 内 核 态 都 包含 在 内 。 
SIGPWR 

这 是 电源 故 隐 信号 。 当 系统 配备 有 不 间断 电源 CUPS) 时 ， 可 以 设置 守护 进程 来 监控 电源 
发 生 故 障 时 备用 电池 的 剩余 电量 。 如 果 电 池 电 量 行将 耗 尽 〈 长 时 间 停 电 之 后 )， 那 么 监控 进程 
会 将 该 信号 发 往 init 进程 ， 而 后 者 则 将 其 解读 为 快速 、 有 序 关 闭 系统 的 一 个 请 求 。 
SIGQUIT 

当 用 户 在 键盘 上 键入 退出 字符 (通常 为 Control-0 时 ， 该 信号 将 发 往 前 台 进 程 组 。 默 认 
情况 下 ， 该 信号 终止 进程 ， 并 生成 可 用 于 调试 的 核心 转 储 文件 。 进 程 如 果 陷 入 无 限 循环 ， 或 
者 不 再 响应 时 ， 使 用 SIGQUIT 信和 号 就 很 合适 。 键 入 Control\， 再 调用 gdb 调试 器 加 载 刚 才 生 
成 的 核心 转 储 文件 ， 接 看 用 backtrace 命令 来 获取 堆栈 跟踪 信息 ， 束 能 发 现 正在 执行 的 是 程序 
的 哪 部 分 代码 。([Matlo 人 2008] 描 述 了 gdb 的 用 法 。) 
SIGSEGV 

这 一 信号 非常 种 见 ， 当 应 用 程序 对 内 存 的 引用 无 效 时 ， 吏 会 产生 该 信号 。 引 起 对 内 存 无 
效 引 用 的 原因 很 多 ， 可 能 是 因为 要 引用 的 页 不 存在 〈 例 如， 该 页 位 于 堆 和 栈 之 间 的 未 映射 区 
域 )， 或 者 进程 试 狗 更 新 只 读 内 存 《〈《 比 如 ， 程 序 文 本 段 或 者 标记 为 上 只 恋 的 一 块 映 射 内 存 区 域 ) 
中 某 一 位 置 的 内 容 ， 又 或 者 进程 企图 在 用 户 态 〈 参 见 2.1 节 ) 去 访问 内 核 的 部 分 内 存 。C 语言 
中 引发 这 些 事件 的 往往 是 解 引 用 的 指针 里 包含 了 错误 地 址 〈 例 如 ， 未 初始 化 的 指针 )， 或 者 传 
递 了 一 个 无 效 参 数 供 函数 调用 。 该 信号 的 命名 源 于 术语 “ 段 违例 ”。 






















































































SIGSTKFLT 
signal(7) 手 册页 中 将 其 记载 为 “ 协 处 理 器 栈 错 误 ” Linux 对 该 信号 作 了 定义 ; 但 并 未 加 以 

使 用 。 

SIGSTOP 





这 是 一 个 必 停 (sure stop) 信和 号， 处理 器 程序 无 法 将 其 阻塞 、 忽 略 或 者 捕获 ， 故 而 总 是 能 
停止 进程 。 
SIGSYS 

如 果 进 程 发 起 的 系统 调用 有 误 ， 那 么 将 产生 该 信号 。 这 意味 着 系统 将 进程 执行 的 指令 视 
为 一 个 系统 调用 陷阱 trap)， 但 相关 的 系统 调用 编号 却 是 无 效 的 《参见 3.1 节 )。 
SIGTERM 

这 是 用 来 终止 进程 的 标准 信号 ， 也 是 kill 和 killall 命令 所 发 送 的 默认 信号 。 用 户 有 时 会 使 
用 Kill-KILL 或 者 kill-9 显 式 向 进程 发 送 SIGKILL 信号 。 然 而 ， 这 一 做 法 通常 是 错误 的 。 精 心 
设计 的 应 用 程序 应 当 为 SIGTERM 信号 设置 处 理 器 程序 ， 以 便于 其 能 够 预先 清除 临时 文件 和 释 
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放 其 他 资源 ， 从 而 全 身 而 退 。 发 送 SIGKILL 信号 可 以 杀 掉 某 个 进程 ， 从 而 绕 开 了 SIGTERM 
言 号 的 处 理 需 程序 。 因 此 ， 总 是 应 该 首先 答 试 使 用 SIGTERM 信号 来 终止 进程 ， 而 把 SIGKILL 信 
写作 为 最 后 手段 ， 去 对 付 那些 不 响应 SIGTERM 信号 的 失控 进程 。 
SIGTRAP 

该 信号 用 来 实现 断 点 调试 功能 以 及 strace(]) 命 令 《〈《 附 录 A) 所 执行 的 跟 躁 系统 调用 功能 
更 多 信息 参见 ptrace(2) 手 册页 


SIGTSTP 

这 是 作业 控制 的 停止 信号 ， 当 用 户 在 键盘 上 输入 挂 起 字符 〈 通 常 是 Control-Z) 时 ， 将 发 
送 该 信号 给 前 合 进 程 组 ， 使 其 停止 运行 。 第 34 章 详 细 摘 述 了 进程 组 〈 作 业 ) 和 作业 控制 ， 以 及 
程序 应 在 何 时 以 及 如 何 去 处 理 该 信号 。 该 信号 名 源 目 “终端 停止 Cterminal stop)” 的 术语 。 


SIGTTIN 
在 作业 控制 shell 下 运行 时 ， 帮 后 从 进程 组 试图 对 终端 进行 read0 操 作 ， 终 痛 张 动 程 序 则 
将 回访 进程 组 有 发送 此 信和 号。 该 信 吕 默认 将 保 止 进程 。 


SIGTTOU 

该 信号 的 目的 与 SIGTTIN 信号 类 似 , THESE] E e TENER mdi a» TETE NV Tb shell 
下 运行 时 ， 如 果 对 终端 启用 了 TOSTOP 终端 输出 停止 ) 选 项 (可 REGEL stty tostop 命令 )， 
而 东 一 后 从 进程 组 试图 对 终 冰 进行 write BRE: C 34.7.1 市 )， 那 么 终端 驱动 程序 将 问 该 进 
FEHR SIGTTOU 信和 号。 该 信号 默认 将 停止 进程 。 


SIGUNUSED 

顾名思义 ， 该 信号 没有 使 用 。 在 Linx 2.4 及 其 后 续 版 本 中 ， 访 信号 名 在 很 多 架构 中 与 
SIGSYS 信号 同 义 。 换 语 之 ， 尽 官 信号 名 还 保持 癌 后 兼容 ， 但 信号 编写 在 这 些 架构 中 不 再 处 于 
未 使 用 状态 。 



















































































SIGURG 
系统 发 送 该 信 己 给 一 个 进程 ， 表 示人 套 接 子 上 存在 之 外 (也 称 作 紧 急 ) 数据 (参见 61.13.1 5). 
SIGUSR1 





该 信号 和 SIGUSR2 信号 供 程序 员 目 定义 使 用 。 内 核 绝 不 会 为 进程 产生 这 些 信 号 。 进 程 可 
以 使 用 这 些 信号 来 相互 通知 事件 的 发 生 ， 或 是 彼此 同步 。 在 早期 的 UNIX 实现 中 ， 这 是 可 供 
应 用 随意 使 用 的 仅 有 的 两 个 信号 。( 实 际 上 ， 进 程 间 可 以 相互 发 送 任何 信号 ， 但 如 果 内 核 也 为 
进程 产生 了 同类 信号 ， 这 两 种 情况 就 有 可 能 产生 混 消 。) 现代 UNIX 实现 则 提供 了 很 多 实时 
信号 ， 也 可 用 于 程序 员 目 定义 的 目的 《参见 22.8 节 )。 


SIGUSR2 
参见 对 SIGUSRI fr R . 


SIGVTALRM 
调用 setitimer() CJ, 23.1 市 ) Y LB zd E INE 98 0 — 5139], PARU EVA s HEU. 
定时 需 计 录 的 是 进程 在 用 户 态 所 使 用 的 CPU 时 间 。 


SIGWINCH 
在 窗口 环境 中 ， 当 终端 窗口 太 寸 发 生变 化 时 《如 62.9 节 所 述 ， 要 么 是 由 于 用 户 手动 调 





























326 Linux/UNIX 系统 编程 手册 ( 上 册 ) 
异步 社区 会 员 flyman150(2410757683 (9 qq.com) EF 尊重 版 权 


整 了 大 小 ， 要 么 是 因为 程序 调用 ioctlO 对 大 小 做 了 调整 )， 会 癌 前 台 进 程 组 发 送 该 信号 。 借 
助 于 为 该 信号 安装 的 处 理 器 程序 ， 诸 如 vi 和 less 之 类 的 程序 会 在 窗口 尺寸 调整 后 重新 绘制 
输出 。 


SIGXCPU 
当 进 程 的 CPU 时 间 超 出 对 应 的 资源 限制 时 (参见 36.3 节 对 RLIMIT_CPU 的 描述 )， 将 发 
送 此 信号 给 进程 。 
SIGXFSZ 
如 果 进 程 因 试 图 增 大 文件 (调用 write gk. truncate) 而 突破 对 进程 文件 大 小 的 资源 限制 
(参见 36.3 1*4 RLIMIT FSIZE 的 摘 述 ) 时 ， 那 么 将 发 送 此 信号 给 进程 。 
表 20-1 总 结 了 Linux 下 与 信号 相关 的 一 系列 信息 。 关 于 此 表 ， 请 注意 以 下 几 点 。 
e 信 与 编写 列 所 示 为 在 不 同 便 件 架构 下 对 信号 的 编写。 除非 男 有 说 明 ， 信 号 在 所 有 架构 
中 编号 相同 。 信 号 编号 在 架构 上 的 差异 会 在 括号 中 予以 说 明 ， 所 涉及 的 架构 包括 Sun 
SPARC, SPARC64 (S), HP/Compagq/Digital Alpha (A), MIPS (WA 和 HP PA-RISC (P). 
此 列 中 的 undef 表示 此 符号 在 所 示 架 构 中 未 定义 。 
e SUSv3 列 则 表示 SUSv3 是 否定 义 了 该 信和 号。 
e 默认 列 显示 了 信和 号 的 默认 行为 。term 表示 信和 号 终止 进程 ，core 表示 进程 产生 核心 转 储 
文件 并 退出 ，ignore 表示 忽略 该 信号 ，stop 表示 信号 停 上 了 进程 ，cont 表示 信号 恢复 
Íf—^t^ufibR ERE. 









































某 些 前 面 列 出 的 信号 并 未 见 诸 于 表 20-1， 如 SIGCLD (SIGCHLD 信号 的 同义词 )、 
SIGINFO (未 使 用 )、SIGIOT (SIGABRT 信和 号 的 同义词 )、SIGLOST (未 使 用 ) 和 SIGUNUSED 
(在 许多 架构 中 是 SIGSYS 信号 的 同义词 )。 








表 20-1: Linux 信号 


awm CR [mam | [9 
[mwm uw — Ames — | [em 














wm o wem e em 
mae | o CE je 
mmu hp ee | m 
mam p — — ees | o [em 
mau | | —— 
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CENE 
om 
mmwr 5 — wma | s [m — 
mem pooo pem | oh Dm 
meme [oerna wee | e wm 
emm [s — — -"pmum —— | - em — 
sure — [marmem es [oe pm 
CT | Me | n Dem 
sase srame nenas | c [em — 
[womum [asoras Tamen | om 


针对 表 20-1 PRR S RUSRATTOM, REAA FILAR. 
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在 Linux 2.2 中 ， 信 号 SIGXCPU, SIGXFSZ, SIGSYS 和 SIGBUS 的 默认 行为 是 终止 
进程 ， 但 不 会 产生 核心 转 储 文件 。 自 内 核 2.4 以 后 ，Linux 实现 满足 了 SUSv3 的 要 求 ， 
这 些 信 号 不 但 会 引发 进程 终止 ， 也 将 生成 核心 转 储 文件 。 在 其 他 儿 个 UNIX 实现 中 ， 
对 信号 SIGXCPU 和 SIGXFSZ 的 处 理 方式 与 Linux 2.2 相同 。 

在 其 他 的 UNIX 实现 中 ， 对 SIGPWR 信号 的 默认 行为 通 钊 是 将 其 忽略 。 

JLA UNIX 实现 〈 特 别 是 BSD 衍生 系统 ) 默认 情况 下 将 忽略 SIGIO fi. 

虽然 SIGEMT 信和 号 尚未 获得 任何 标准 的 接纳 ， 但 却 得 到 大 多 数 UNIX 实现 的 文 持 。 然 
而 ， 在 其 他 实现 中 ， 该 信号 通常 会 导致 进程 终止 并 产生 核心 转 储 文件 。 

SUSvI 将 SIGURG 信号 的 默认 行为 定义 为 终止 进程 ， 这 也 是 一 些 较 老 UNIX 实现 的 默 
认 做 法 。 而 SUSv2 则 采用 了 现行 规范 〈 将 其 忽略 )。 











1 详 者 注 : 即 后 台 进 程 组 。 
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20.3 ”改变 信号 处 置 : signal() 





UNIX 系统 提供 了 两 种 方法 来 改变 信和 号 处 置 : signal() 和 sigaction()。 本 市 接 述 的 signal() RA 
调用 ， 是 设置 信号 处 置 的 原始 API， 上 所 提供 的 接口 比 sigaction(0) 简 单 。 另 一 方面 ，sigaction() 
提供 了 signalO 所 不 具备 的 功能 。 进 一 步 而 言 ，signalO 的 行为 在 不 同 UNIX 实现 间 存 在 差 开 《22.7 
他 )， 这 也 意味 看 对 可 移植 性 有 上 所 退 求 的 程序 绝 不 能 使 用 此 调用 来 建立 信号 处 理 喜 函数 。 故 此 ， 
sigaction(O) 是 建立 信号 处 理 融 的 首选 API (强力 推荐 )。 目 20.13 下 介绍 了 sigaction0 调 用 的 用 




















法 之 后 ， 本 书 示例 将 一 律 采用 该 调用 来 建立 信号 处 理 器 程序 。 





signal() 疯 数 虽 然 记录 在 Linux 手册 页 的 第 2 部 分 ， 但 实际 却 被 实现 为 一 个 基于 sigaction0 系 


统 调用 的 glibc PE pA. 





#include «signal.h» 


void ( *signal(int sig, void (*hamdler)(int)) ) (int); 


Returns previous signal disposition on success, or SIG ERR on error 











这 里 需要 对 signal0) 函 数 的 原型 做 一 些 解 释 。 第 一 个 参数 sig, b Uds ESTE DU ELIT TH. dn 
号 ， 第 二 个 参数 handler， 则 标识 信号 抵达 时 所 调用 函数 的 地 址 。 该 函数 无 返回 值 (void)， 并 接 








收 一 个 整 型 参数 。 因 此 ， 信 号 处 理 器 水 数 一 般 具 有 以 下 形式 : 
void 
handler(int sig) 
/* Code for the handler */ 
} 


20.4 节 将 描述 处 理 硕 函数 中 sig 参数 的 目的 。 





signal0 的 返回 值 是 之 前 的 信号 处 置 。 像 handler 参数 一 样 ， 这 是 一 枚 指针 ， 所 指向 的 是 带 
有 一 个 整 型 参数 日 无 返回 值 的 函数 。 换 诗 之 ， 编 写 如 下 代码 ， 可 以 暂时 为 信号 建立 一 个 处 理 





项 图 数 ， 然 后 再 将 信和 号 处 置 重 置 为 其 本 来 面目 : 
void (*oldHandler)(int); 
oldHandler = signal(SIGINT, newHandler); 
if (oldHandler -- SIG ERR) 


errExit(" signal"); 


/* Do something else here. During this time, if SIGINT is 
delivered, newHandler will be used to handle the signal. */ 


if (signal(SIGINT, oldHandler) -- SIG ERR) 
errExit(" signal"); 


到 这 一 点 ， 必 须 使 用 sigaction(). 


针对 信号 处 理 占 函数 指针 做 如 下 类 型 定义 ， 将 有 助 于 理解 signal] 78: 
typedef void (*sighandler t)(int); 
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使 用 signal0， 将 无 法 在 不 改变 信号 处 置 的 同时 ， 还 能 获取 到 当前 的 信和 号 处 置 。 要 想 做 
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signalO 原 型 可 以 改写 成 如 下 形式 : 
sighandler t signal(int sig, sighandler t handler); 








准 的 sighandler t 数据 类 型 。 


在 为 signal() 指 定 handler 参数 时 ， 可 以 以 如 下 值 来 代替 消 数 地 址 : 
SIG DFL 

将 信号 处 置 重 置 为 默认 值 CK 20-1)。 这 适用 于 将 之 前 signalO 调 用 所 改变 的 信号 处 置 
还 原 。 
SIG_IGN 

忽略 该 信号 。 如 果 信 和 号 专 为 此 进程 而 生 ， 那 么 内 核 会 默默 将 其 丢弃 。 进 程 其 至 从 未 知道 
曾经 产生 了 该 信号。 

调用 signal0 成 功 将 返回 先前 的 信号 处 置 ， 有 可 能 是 先前 安装 的 处 理 器 函数 地 址 ， 也 可 能 
是 常量 SIG_DFL 和 SIG_IGN 之 一 。 如 果 调 用 失败 ，signal0 将 返回 SIG ERR. 

















20.4 ”信号 处 理 器 简介 


HS ABPRESREEY OBRA fi ATEA 是 当 指定 信号 传递 给 进程 时 将 会 调用 的 一 个 函数 。 
本 节 摘 述 了 信号 处 理 占 的 基本 原理 ， 而 第 21 章 将 继续 做 详细 介绍 。 

调用 信号 处 理 器 程序 ， 可 能 会 随时 打上 断 主 程序 流程 ， 内 核 代 表 进 程 来 调用 处 理 吉 程序 ， 
当 处 理 需 返回 时 ， 主 程序 会 在 处 理 右 打上 断 的 位 置 恢 复 执 行 。 这 一 工作 序列 可 用 图 20-1 来 加 
以 说 明 。 

















主 程序 
程序 开始 
内 核 代表 进程 调用 信号 处 理 器 程序 
信号 处 理 器 
信号 到 达 O pm i 
© © 
Y 执行 信号 处 理 
Went a NI Ss | 器 程序 的 代码 
LP | 
程序 从 中 断 点 ! 返回 





恢复 执行 


exi ) 





20-1: 信号 到 达 并 执行 处 理 器 程序 











虽然 信号 处 理 器 程序 几乎 可 以 为 所 欲 为 ， 但 一 般 而 言 ， 设 计 应 力求 简单 。21.1 节 将 对 这 
一 点 展开 论述 。 
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程序 清单 20-1. 为 SIGINT 信号 安装 一 个 处 理 器 程序 


signals/ouch.c 


include «signal.h» 
include "tlpi hdr.h" 


static void 
sigHandler(int sig) 


{ 
printf("0uch!\n"); /* UNSAFE (see Section 21.1.2) */ 


int 
main(int argc, char *argv[]) 


int j; 


if (signal(SIGINT, sigHandler) == SIG ERR) 
errExit("signal"); 


for (j = 0; ; je) { 
printf("XdNn", j); 
sleep(3); /* Loop slowly... */ 


——— Siga. C 

程序 清单 20-1 MRA A ERR DERETA SIGINT 信号 而 建立 。 当 
键入 中 断 字 符 〈 通 币 为 Control-C) 时 ， 终 端 驱 动 程序 将 产生 该 信号 。 处 理 器 只 是 简单 打印 一 
Z& YH A, 随即 返回 。 

主 程序 会 持续 循环 。 每 次 欠 代 ， 程 序 都 将 递增 计数 器 值 并 将 其 打印 出 来 ， 然 后 休眠 几 秘 
钟 。( 为 了 控 这 种 方式 休眠 ， 程 序 使 用 了 sleepO 冰 数 ， 设 函数 会 令 调 用 者 处 于 暂 集 状态 ， 持 续 
时 间 则 由 指定 的 秒 数 决定 。 该 函数 将 在 23.4.1 广 中 进行 揪 述 。) 

运行 程序 清单 20-1 中 程序 的 结 末 如 下 : 

$ ./ouch 

0 Main program loops, displaying successive integers 

Type Control-C 

Ouch! Signal handler is executed, and returns 

1 Control has returned to main program 

2 

Type Control-C again 

Ouch! 

3 


Type Control-* (the terminal quit character) 
Quit (core dumped) 


内 核 在 调用 信号 处 理 需 程 序 时 ， 会 将 引发 调用 的 信号 编号 作为 一 个 整 型 参数 传递 给 处 理 
器 函数 。( 就 是 程序 清单 20-1 中 处 理 器 函数 的 sig 参数 )。 如 果 信 和 号 处 理 器 程序 只 捕获 一 种 类 
型 的 信号 ， 那 么 这 个 参数 几乎 无 用 。 然 而 ， 如 朱 安 狠 相 同 的 处 理 磊 来 捕获 不 同 突 型 的 信号 ， 那 
么 驶 可 以 利用 此 参数 来 判定 引发 对 处 理 右 调用 的 是 何 种 信和 号 。 

程序 清单 20-2 中 程序 展示 了 这 一 思路 , 为 SIGINT 和 SIGQUIT 信号 建立 了 同一 处 理 器 程 
序 。( 当 键入 终端 退出 字符 时 ， 通 常 为 Control\， 终 端 驱 动 程序 将 产生 SIGQUIT 信和 号 。) 处 理 
融 程 序 代 码 通过 检 奉 sig 参数 来 区 分 这 两 种 信号 ， 并 为 每 种 信号 采取 不 同 措施 。main0 冰 数 则 
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使 用 pauseOr&2x C2 20.14 THRHR) 来 阻塞 进程 ， 直 至 捕获 到 信号。 
如 下 shell 会 话 日 志 演示 了 对 该 程序 的 使 用 : 


$ ./intquit 

Type Control-C 

Caught SIGINT (1) 

Type Control-C again 

Caught SIGINT (2) 

and again 

Caught SIGINT (3) 

Type Control 

Caught SIGQUIT - that's all folks! 


程序 清单 20-1 和 程序 清单 20-2 都 在 信号 处 理 需 程序 中 使 用 了 printfOES2ZIOK osi As MKA 
的 应 用 程序 一 般 绝 不 会 在 信号 处 理 器 程序 中 使 用 stdio 函数 ，21.1.2 节 将 束 其 原因 进行 讨论 。 然 而 ， 本 
书 各 种 示例 仍然 会 在 信号 处 理 需 程序 中 调用 printf0 函 数 ， 作 为 观察 处 理 占 程序 调用 的 一 种 僻 单 手段 。 


程序 清单 20-2: 为 两 个 不 同 信和 号 建立 同一 处 理 闹 函数 




















signals/intquit.c 


include «signal.h» 
include "tlpi hdr.h" 


static void 
sigHandler(int sig) 


static int count - 


/* UNSAFE: This handler uses non-async-signal-safe functions 
(printf(), exit(); see Section 21.1.2) */ 


if (sig == SIGINT) 1 
count; 
printf("Caught SIGINT (%d)\n", count); 
return; /* Resume execution at point of interruption */ 


j 


/* Must be SIGOUIT - print a message and terminate the process */ 


printf("Caught SIGQUIT - that's all folks!Nn"); 
exit(EXIT SUCCESS); 


j 


int 
main(int argc, char *argv[]) 
/* Establish same handler for SIGINT and SIGOUIT */ 
if (signal(SIGINT, sigHandler) -- SIG ERR) 
errExit(" signal"); 
if (signal(SIGQUIT, sigHandler) -- SIG ERR) 


errExit("signal"); 


for (5;) /* Loop forever, waiting for signals */ 
pause(); /* Block until a signal is caught */ 


signals/intquit.c 
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20.5 


发 送信 号: kill() 











与 shell 的 kill 命令 相关 似 ， 一 个 进程 能 够 使 用 KillO 系 统 调用 癌 另 一 进程 友 送 信和 号。( 之 所 
以 选择 kil 作为 术语 ， 是 因为 早期 UNIX 实现 中 大 多 数 信号 的 稚 认 行为 是 终止 进程 。) 








#include «signal.h» 


int kill(pid t pid, int sig); 


Returns 0 on success, or - 1 on error 





pid 参数 标识 一 个 或 多 个 目标 进程 ， 而 sig 则 指定 了 要 发 送 的 信和 号。 如 何 解释 pid， 要 视 以 
下 4 种 情况 而 定 。 








如 果 pid 大 于 0， 那么 会 发 送信 号 给 由 pid 指定 的 进程 。 
WE pid 等 于 0， 那么 会 发 送信 号 给 与 调用 进程 同 组 的 每 个 进程 ， 包 括 调用 进程 自身 。 
(SUSv3 声明 ， 除 去 “一 组 未 予 明 确 的 系统 进程 ”之 外 ， 应 将 信号 发 送 给 同一 进程 组 
中 的 所 有 进程 ， 昌 这 一 排除 条 件 同样 适用 于 余下 的 两 种 情况 。) 

如 果 pid 小 于 -1， 那 么 会 向 组 ID 等 于 该 pid 绝对 值 的 进程 组 内 所 有 下 属 进 程 发 送 
信号 。 向 一 个 进程 组 的 所 有 进程 发 送信 号 在 shell 作业 控制 中 有 特殊 用 途 (参见 
34.7 "8. 

如 果 pid 等 于 -1, 那么 信号 的 发 送 范围 是 : 调用 进程 有 权 将 信号 发 往 的 每 个 目标 进程 ， 
除去 init (进程 ID 为 1) 和 调用 进程 自身 。 如 果 特 权 级 进程 发 起 这 一 调用 ， 那 么 会 发 
送信 号 给 系统 中 的 所 有 进程 ， 上 述 两 个 进程 除外 。 显 而 易 见 ， 有 时 也 将 这 种 信号 发 送 
方式 称 之 为 广播 信号 。(SUSv3 并 未 要 求 将 调用 进程 排除 在 信号 的 接收 范围 之 外 ，Linux 
此 处 所 遵循 的 是 BSD 系统 的 语义 。) 















































如 果 并 无 进程 与 指定 的 pid 相 匹配 ， 那 么 kil0 调 用 失败 ， 同 时 将 errno 置 为 ESRCH “AE 
此 进程 ”)。 
进程 要 发 送信 号 给 万 一 进程 ， 还 需要 适当 的 权限 ， 其 权限 规则 如 下 。 




















特权 级 《CAP_KILL) 进程 可 以 向 任何 进程 发 送信 号。 

以 root 用户 和 组 运行 的 init 进程 (进程 号 为 1 )， 是 一 种 特例 ， 仪 能 接收 已 安装 了 处 理 
器 函数 的 信号 。 这 可 以 防止 系统 管理 员 意 外 杀 死 init 进程 一 一 这 一 系统 运作 的 基石 。 
如 图 20-2 所 示 ， 如 果 发 送 者 的 实际 或 有 效用 户 ID 匹配 于 接受 者 的 实际 用 户 ID 或 者 
保存 设置 用 户 ID(saved set-user-id)， 那 么 非特 权 进 程 也 可 以 同 男 一 进程 发 送信 与 。 利 
用 这 一 规则 ， 用 户 可 以 向 由 他 们 启动 的 set-user-ID 程序 发 送信 号 ， 而 无 需 考 虑 目标 进程 
有 效用 户 ID 的 当前 设置 。 将 目标 进程 有 效用 户 ID 排除 在 检查 范围 之 外 ， 这 一 举措 的 辅 
助 作用 在 于 防止 用 户 某 甲 向 用 户 某 乙 的 进程 发 送信 号 ， 而 该 进程 正在 执行 的 set-user-ID 
程序 又 属于 用 户 茶 甲 。(SUSv3 要 求 强制 执行 图 20-2 所 示 的 规则 ， 但 如 kill(2) 手 册页 所 
述 ，Linux 内 核 在 2.0 版 本 之 前 所 遵循 的 规则 略 有 不 同 。) 

SIGCONT 信号 需要 特殊 处 理 。 无 论 对 用 户 ID 的 检查 结果 如 何 ， 非 特权 进程 可 以 向 同 
一 会 话 中 的 任何 其 他 进程 发 送 这 一 信和 号。 利用 这 一 规则 ， 运 行 作业 控 制 的 shell 可 以 重 
局 已 停止 的 作业 《进程 组 )， 即 使 作业 进程 已 经 修改 了 它们 的 用 户 ID 。( 亦 即 ， 使 用 



























































1 WWE: 参考 APUEv2， 其 实 束 是 由 系统 实现 决定 的 意思 ， 再 次 吧 视 SUS 的 学 客 笔法 。 
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9.7 TH BIS AR SEU OK OUOEACTEd8., NEU CA ARRETE o ) 


Jt iE FE 接收 进程 





| saved set-user-ID saved set-user-ID | 


———— 表示 如 果 ID 匹 配 ， 那 么 发 送 者 
有 权 间 接收 者 发 送信 息 号 


20-2: 非特 权 进 程 发 送信 号 所 需 的 权限 





如 果 进 程 无 权 发 送信 号 给 所 请 求 的 pid， 那 么 kill0 调 用 将 失败 ， 且 将 erno Ej EPERM. 若 pid 
所 指 为 一 系列 进程 《 即 pid 是 负 值 ) 时 ， 只 要 可 以 问 其 中 之 一 发 送信 号 ， 则 kill0 调 用 成 功 。 
程序 清单 20-3 中 展示 了 killOB HE. 


20.6 ”检查 进程 的 存在 


killO0 系 统 调用 还 有 男 一 重 功 用 。 若 将 参数 sig 指定 为 0( 即 所 谓 空 信号 )， 则 无 信号 发 送 。 
相反 ，Kil0O 仅 会 去 执行 错误 检查 ， 碍 看 是 否 可 以 癌 目 标 进程 发 送信 号 。 从 另 一 角度 来 看 ， 这 
意味 着 ， 可 以 使 用 空 信号 来 检测 具有 特定 进程 ID 的 进程 是 否 存 在 。 若 发 送 空 信号 失败 ， 有 errno 
为 ESRCH， 则 表明 目标 进程 不 存在 。 如 末 调 用 失败 ， 且 erno 为 EPERM (表示 进程 存在 ， 但 
无 权 问 目标 进程 发 送信 号 ) 或 者 调用 成 功 ( 有 权 癌 进程 发 送信 号 )， 那 么 束 表 示 进 程 存在 。 

验证 一 个 特定 进程 ID 的 存在 并 不 能 保证 特定 程序 仍 在 运行 。 因 为 内 核 会 随 看 进程 的 生 炎 
而 循环 使 用 进程 DD。 而 一 段 时 间 之 后 ,同一 进程 ID 所 指 罗 怕 是 男 一 进程 了 。 此 外 ,特定 进程 
ID 可 能 存在 ， 但 是 一 个 僵尸 〈 亦 即 ， 进 程 已 死 ， 但 其 父 进程 尚未 执行 wait0 来 获取 其 终止 状 
态 ， 如 26.2 节 所 述 )。 

还 可 使 用 各 种 其 他 技术 来 检查 某 一 特定 进程 是 否 正在 运行 ， 其 中 包括 如 下 技术 。 

。 wait() 系 统 调用 : 第 26 章 将 摘 述 这 些 调用 。 这 些 调用 仅 用 于 监控 调用 者 的 子 进程 。 

e 信号 量 和 排他 文件 锁 : 如 条 进程 持续 持 有 有 茶 一 信号 量 或 文件 锁 ， 并 且 一 直 处 于 被 监 控 
状态 ， 那 么 如 能 获取 到 信和 号 量 或 锁 时 ， 即 表明 该 进程 已 经 终止 。 第 47 章 和 第 S3 R 
描述 信号 量 ， 第 55 章 将 描述 文件 锁 。 

e 诸如 管道 和 FIFO 之 类 的 IPC 通道 : 可 对 监控 目标 进程 进行 设置 ， 令 其 在 自身 生命 周 
期 内 持 有 对 通道 进行 号 操作 的 打开 文件 描述 符 。 同 时 ， 令 监控 进程 持 有 针对 通道 进行 
读 操 作 的 打开 文件 描述 符 ， 且 当 通 道 写 入 端 关 闭 时 (遭遇 文件 结束 符 )， 即 可 获知 监 
控 目 标 进 程 已 经 终止 。 监 探 进程 对 此 情况 的 判定 ， 既 可 借助 于 对 上 自 号 文件 描述 符 的 读 
取 ， 也 可 采用 第 63 章 所 述 的 描述 符 监 探 技 术 之 一 。 

e /proc/PID 接口 : 例如 ， 如 果 进 程 ID 为 12345 的 进程 存在 ， 那 么 目录 /proc/12345 将 存 
在 ， 可 以 发 起 诸如 stat0 之 类 的 调用 来 进行 检查 。 

除去 最 后 一 项 之 外 ， 循 环 使 用 进程 ID 不 会 影响 上 述 所 有 技术 。 

程序 清单 20-3 展示 了 kill0 的 用 法 。 该 程序 接受 两 个 命令 行 参数 ， 分 别 为 信号 编写 和 进程 

ID， 并 使 用 kill0 将 该 信号 发 送 给 指定 进程 。 如 果 指 定 了 信号 0〈 空 信号 )， 那 么 程序 将 报告 目 
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标 进程 是 合 存 在 。 


20.7 ”发 送信 号 的 其 他 方式 : raise() 和 killpg() 
有 时 ， 进 程 需要 问 上 自身 发 送信 号 (34.7.3 市 束 有 此 一 例 )。raiseO0 冰 数 就 执行 了 这 一 任务 。 











#include «signal.h» 


int raise(int sig); 


Returns 0 on success, or nonzero on error 








在 单线 程 程 序 中 ， 调 用 raiseO0 相 当 于 对 kill0 的 如 下 调用 : 

kill(getpid(), sig); 

文 持 线程 的 系统 会 将 raise(sig) 9: HL : 

pthread kill(pthread self(), sig) 

332.3 prix J pthread_kill0 函 数 ， 但 目前 仪 需 了 解 一 点 束 已 足够 ,该 实现 意味 看 将 信号 
传递 给 调用 raise0O) 的 特定 线程 。 相 比 之 下 ，kill(getpid(), sig) 调 用 会 发 送 一 个 信号 给 调用 进程 
并 可 将 该 信号 传递 给 该 进程 的 任 一 线程 。 


raise) Zi EJ F C89。C 语言 标准 不 包含 诸如 进程 ID 之 类 的 操作 系统 细节 ，raise() 
函数 之 所 以 得 以 定义 ， 是 因为 该 函数 不 需要 引用 进程 ID 。 


当 进 程 使 用 raise) (或 者 kil0) 回 目 且 发 送信 号 时 ， 信 号 将 立即 传递 《 即 ， 在 raise0 返 回 
调用 者 之 前 )。 

注意 ，raise0 出 错 将 返回 非 0 值 〈 不 一 定 为 -1)。 调 用 raise0 唯 一 可 能 发 生 的 错误 为 EINVAL, 
Bl sig 无 效 。 因 此 ， 在 任何 指定 了 茶 一 SIGxxxx 第 量 的 位 置 ， 都 未 检查 该 函数 的 返回 状态 


程序 清单 20-3: 使 用 kill 系统 调用 
































signals/t kill.c 


include «signal.h» 
include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


int s, sig; 


if (argc != 3 || strcemp(argv[1], "--help") == 0) 
usageErr("Xs sig-num pid\n", argv[O0]); 


sig = getInt(argv[2], 0, "sig-num"); 


s - kill(getLong(argv[1], 0, "pid"), sig); 


if (sig !- 0) 1 
if (s -- -1) 
errExit("kill"); 
} else { /* Null signal: process existence check */ 
if (s == 0) { 
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printf("Process exists and we can send it a signalWn"); 
] else { 
if (errno -- EPERM) 
printf("Process exists, but we don't have " 
"permission to send it a signal'n"); 
else if (errno -- ESRCH) 
printf("Process does not exist n"); 
else 
errExit("kill"); 


j 


exit(EXIT SUCCESS); 


j 
signals/t kill.c 





killpg() 函 数 癌 菏 一 进程 组 的 所 有 成 员 友 壕 一 个 信号 。 





#include «signal.h» 


int killpg(pid t pgrp, int sig); 


Returns 0 on success, or -1 on error 








killpgO 调 用 相当 于 对 kill0 的 如 下 调用 : 

kill(-pgrp, sig); 

如 采 指 定 pgrp 的 值 为 0， 那么 会 问 调 用 者 所 属 进 程 组 的 所 有 进程 用 送 此 信号 。SUSv3 对 
此 未 作 规范 ， 但 大 多 数 UNIX 实现 对 该 情况 的 处 理 方 式 与 Linux 相同 。 





20.8 TTA SIHA 

FANE Sg HB EXTHAIaSSRSTIBERE]. AER FAH sys_siglist 中 。 例 如 ， 可 以 
用 sys_siglist[SIGPIPE] 来 获取 对 SIGPIPE fii^ CEREM) 的 摘 述 。 然 而 ， 较 之 于 直接 引用 
sys siglist 数组 ， 还 是 推荐 使 用 strsignalOrR Zi. 





























#define BSD SOURCE 
#include «signal.h» 


extern const char *const sys siglist||]; 


#define GNU SOURCE 
include <string.h> 


char *strsignal(int sig); 


Returns pointer to signal description string 














strsignal()EK Zi] sig 参数 进行 边界 检查 ,然后 返回 一 枚 指针 ， 指 问 针 对 该 信号 的 可 打印 插 
述 字 人 符 串 ， 或 者 是 当 信 号 编号 无 效 时 指 同 销 误 字符 串 。( 在 其 他 一 些 UNIX 实现 中 ，strsignal() 
PR ZI E sig ZG RII.) 

除去 边界 检查 之 外 ，strsignalO0 国 数 较 之 于 直接 引用 sys siglist 数组 的 另 一 优势 是 对 本 地 
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(locale) 设置 敏感 〈10.4 节 )， 所 以 显示 信号 描述 时 会 使 用 本 地 语言 。 

程序 清单 20-4 中 所 示 为 使 用 strsignal0 的 例子 之 一 。 

psignal0 函 数 〈 在 标准 错误 设备 上 ) 所 示 为 msg 参数 所 给 定 的 字符 串 ， 后 面 跟 有 一 个 冒号 ， 
随后 是 对 应 于 sig 的 信号 描述 。 和 strsignal0 一 样 ，psignalO 函 数 也 对 本 地 设置 敏感 。 


#include «signal.h» 

















void psignal(int sig, const char *msg); 











尽管 SUSv3 并 未 将 psignal0、strsignal0 和 sys siglist 纳入 标准 ， 但 还 是 有 许多 UNIX 实现 
支持 它们 。(SUSv4 中 加 入 了 对 psignal0 和 strsignalO 的 规范 。) 


20.9 A5% 
许多 信号 相关 的 系统 调用 都 需要 能 表示 一 组 不 同 的 信号 。 例 如 ，sigaction0) 和 sigprocmask() 
允许 程序 指定 一 组 将 由 进程 阻 豆 的 信号 ， 而 SigpendingO 则 返回 一 组 目前 正在 等 待 送 达 给 一 进 
程 的 信号 。(〈 稍 后 将 搞 述 这 些 系 统 调 用 。) 
多 个 信号 可 使 用 一 个 称 之 为 信号 集 的 数据 结构 来 表示 ， 其 系统 数据 类 型 为 sigset t.» SUSv3 
规定 了 一 系列 函数 来 操纵 信号 集 ， 现 在 将 摘 述 这 些 函 数 。 
像 在 大 多 数 UNIX 实现 中 一 样 ，sigset t 数据 类 型 在 Linux 中 是 一 个 位 掩 码 。 然 而 ，SUSvV3 
对 此 并 无 要 求 。 使 用 其 他 一 些 类 型 的 结构 来 表示 信号 集 也 是 有 可 能 的 。SUSv3 仪 要 求 可 对 
sigset t 类 型 赋值 即 可 。 因 此 ， 必 须 使 用 某 些 标量 类 型 (比如 一 个 整数 ) 或 者 一 个 C 语言 结 
构 〈 也 许 包 含 了 一 个 整 型 数组 ) 来 实现 该 类 型 。 
sigemptysetO 函 数 初 始 化 一 个 未 包含 任何 成 员 的 信号 集 。sigfillsetO 函 数 则 初始 化 一 个 信和 号 
集 ， 使 其 包含 所 有 信号 〈 包 括 所 有 实时 信和 号 )。 


#include «signal.h» 





















































int sigemptyset(sigset t *set); 
int sigfillset(sigset t *set); 


Both return 0 on success, or -1 on error 











必须 使 用 sigemptysetO 或 者 sigfillset0 来 初始 化 信号 集 。 这 是 因为 C 语言 不 会 对 目 动 变量 进 
行 初始 化 ， 并 且 ， 借 助 于 将 静态 变量 初始 化 为 0 的 机 制 来 表示 空 信号 集 的 作法 在 可 移植 性 上 
存在 问题 ， 因 为 有 可 能 使 用 位 掩 码 之 外 的 结构 来 实现 信和 与 集 。( 出 于 同一 原因 ， 为 将 信和 与 集 标 
记 为 空 而 使 用 memset(3) 函 数 将 其 内 容 清 零 的 做 泛 也 不 正确 。) 

言 号 集 初始 化 后 ， 可 以 分 别 使 用 sigaddsetO 〇 和 sigdelset() K ft [8] —^ P 4 t HP AS IM Bo ES ER 
EAM Ee 


include «signal.h» 
































int sigaddset(sigset t *set, int sig); 
int sigdelset(sigset t *set, int sig); 








Both return 0 on success, or -1 on error 








在 sigaddset() 和 sigdelset()!, sig 参数 均 表 示 信 和 号 编号 。 
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sigismemberO 函 数 用 来 测试 信号 sig 是 否 是 信号 集 set 的 成 员 。 





#include «signal.h» 


int sigismember(const sigset t *se/, int sig); 


Returns 1 if sig is a member of set, otherwise 0 








如 果 sig 是 set 的 一 个 成 员 ， 那 么 sigismemberO PR ZicÉ RIP] 1 (true)， 否 则 返回 0 (false)。 
GNU C 库 还 实现 了 3 个 非 标准 函数 ， 是 对 上 述 信号 集 标准 函数 的 补充 。 





#define GNU SOURCE 
#include <signal.h> 


int sigandset(sigset t *set, sigset t *left, sigset t *right); 
int sigorset(sigset t *dest, sigset t */eft, sigset t *right); 

Both return 0 on success, or -1 on error 
int sigisemptyset(const sigset t *set); 


Returns 1 if sig is empty, otherwise 0 











IX LE PRACDUAT T UH FES e 

e SigandsetO 将 left 集 和 right 集 的 交集 置 于 dest 集 。 

e sigorset() 将 left EFM right 集 的 并 集 置 于 dest 集 。 

e F set 集 内 未 包含 信号 ， 则 SigisemptysetO 返 回 true, 





示例 程序 


程序 清单 20-4 所 示 为 使 用 本 市 介绍 的 函数 来 编写 的 函数 ， 供 本 书后 续 各 程序 调用 。 第 一 
个 函数 printSigsetO) 显 示 了 指定 信 写 集 的 成 员 信号 。 该 函数 使 用 了 定义 于 <signal.h> 文 件 中 的 
NSIG 利 量 ， 其 值 等 于 信号 最 大 编号 加 1。 当 获取 信号 集成 员 时 ， 会 在 训 试 所 有 信号 编号 的 循 
环 中 将 该 值 作 为 循环 上 限 。 
虽然 SUSv3 并 未 定义 NSIG， 但 是 大 多 数 UNIX 实现 都 支持 这 一 常量 。 只 不 过 ， 要 想 


使 其 可 见 ， 可 能 需要 使 用 特定 于 实现 的 编 诺 项 选项 。 例 如 ， 在 Linux 中 ， 就 必须 定义 如 下 
功能 测试 宏 之 一 : BSD SOURCE. SVID SOURCE 或 者 GNU SOURCE。 





















































利用 printSigsetO 函 数 ，printSigMaskO 和 printPendingSigsO 函 数 分 别 用 于 显示 进程 的 信号 手 码 
和 当前 处 于 等 待 状态 的 信号 集 .这 两 个 函数 还 分 别 使 用 了 sigprocmaskO 和 sigpending0 系 统 调用 
sigprocmask() 和 sigpending() 系 统 调用 将 分 列 在 20.10 市 和 20.11 F P F AHR. 


程序 清单 20-4: 显示 信号 集 的 函数 


signals/signal functions.c 


define GNU SOURCE 

include <string.h> 

#include «signal.h» 

&include "signal functions.h" /* Declares functions defined here */ 
include "tlpi hdr.h" 


/* NOTE: All of the following functions employ fprintf(), which 
is not async-signal-safe (see Section 21.1.2). As such, these 
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functions are also not async-signal-safe (i.e., beware of 
indiscriminately calling them from signal handlers). */ 


void /* Print list of signals within a signal set */ 
printSigset(FILE *of, const char *prefix, const sigset t *sigset) 
{ 


int sig, cnt; 


cnt = 0; 
for (sig = 1; sig < NSIG; sig++) { 
if (sigismember(sigset, sig)) { 
cnt++; 
fprintf(of, "%s%d (%s)\n", prefix, sig, strsignal(sig)); 


j 


if (cnt -- 0) 
fprintf(of, "%s<empty signal set»An", prefix); 
} 


int /* Print mask of blocked signals for this process */ 
printSigMask(FILE *of, const char *msg) 


sigset t currMask; 


if (msg !- NULL) 
fprintf(of, "5s", msg); 


if (sigprocmask(SIG BLOCK, NULL, &currMask) -- -1) 
return -1; 


printSigset(of, "NtNt", &currMask); 


return 0; 


} 


int /* Print signals currently pending for this process */ 
printPendingSigs(FILE *of, const char *msg) 


sigset t pendingSigs; 


if (msg !- NULL) 

fprintf(of, "Xs", msg); 
if (sigpending(&pendingSigs) == -1) 
return -1; 


printSigset(of, "\t\t", 8pendingSigs); 
return 0; 


signals/signal functions.c 


20.10 1&8 51883 (H3E[a- f) 


内 核 会 为 每 个 进程 维护 一 个 信号 掩 码 ， 即 一 组 信号 ， 并 将 阻 豆 其 针对 该 进程 的 传递 。 如 
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末 将 遭 阻 塞 的 信号 发 送 给 某 进 程 ， 那 么 对 该 信号 的 传递 将 延 后 ， 直 至 从 进程 信号 掩 码 中 移 除 
该 信号 ， 从 而 解除 阻 故 为 止 。( 由 33.2.1 市 可 知 ， 信 和 号 掩 人 码 实 际 属于 线程 属性 ， 在 多 线程 进程 
中 ， 每 个 线程 都 可 使 用 pthread_sigmask0 〇 函数 来 独立 检查 和 修改 其 信和 与 掩 人 码 。) 
癌 信 号 掩 码 中 添加 一 个 信号 ， 有 如 下 儿 种 方式 。 
e 当 调 用 信和 号 处 理 器 程序 时 ， 可 将 引发 调用 的 信号 目 动 添加 到 信和 号 掩 但 中 。 是 否 友 生 这 
一 情况 ， 要 视 sigaction() 函 数 在 安装 信号 处 理 避 程序 时 所 使 用 的 标志 而 定 。 
e 使 用 sigaction() 函 数 建 并 信号 处 理 占 程序 时 ， 可 以 指定 一 组 额外 信号 ， 当 调用 该 处 理 
颖 程序 时 会 将 其 阻 符 。 
e 使 用 sigprocmask() 系 统 调用 ， 随 时 可 以 显 式 站 信号 掩 人 码 中 添加 或 移 除 信号 。 
对 前 两 种 情况 的 讨论 将 推迟 到 20.13 节 对 sigaction0 函 数 的 介绍 之 后 ， 现 在 先 来 讨论 
sigprocmaskO 函 数 。 


























#include «signal.h» 


int sigprocmask(int kow, const sigset t *set, sigset t *oldset); 


Returns 0 on success, or -1 on error 











使 用 sigprocmaskO 函 数 既 可 修改 进程 的 信号 掩 码 ， 又 可 获取 现 有 掩 码 ， 或 者 两 重 功效 兼 
Ii. how 参数 指定 了 sigprocmaskO 函 数 想 给 信和 号 掩 码 带 来 的 变化 。 
SIG BLOCK 

将 set 指向 信号 集 内 的 指定 信号 添加 到 信号 掩 码 中 。 换 言 之 ,将 信号 掩 码 设置 为 其 当前 值 
和 set 的 并 集 。 
SIG UNBLOCK 

将 set 指 问 信号 集中 的 信号 从 信号 掩 码 中 移 除 。 即 使 要 解除 阻 罕 的 信号 当前 并 未 处 于 阻塞 
状态 ， 也 不 会 返回 错误 。 
SIG SETMASK 

将 set TR ILES ei SS io TER. 

上 述 各 种 情况 下 ， 若 oldset SARIT, WAFA sigset t 结构 缓冲 区 ， 用 于 返回 之 
BU E 5 TER 

如 果 想 获取 信和 号 掩 码 而 又 对 其 不 作 改 动 ， 那 么 可 将 set 参数 指定 为 空 ， 这 时 将 忽略 how 参数 。 

要 想 暂 时 阻止 信号 的 传递 ， 可 以 使 用 程序 清单 20-5 中 所 示 的 一 系列 调用 来 阻塞 信号 ， 然 
后 再 将 信号 掩 码 重 置 为 先前 的 状态 以 解除 对 信号 的 锁定 。 


程序 清单 20-5: 暂时 阻塞 信号 传递 


























sigset t blockSet, prevMask; 
/* Initialize a signal set to contain SIGINT */ 


sigemptyset(&blockSet); 
sigaddset(&blockSet, SIGINT); 


/* Block SIGINT, save previous signal mask */ 


if (sigprocmask(SIG BLOCK, &blockSet, &prevMask) -- -1) 
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errExit("sigprocmask1"); 
/* ... Code that should not be interrupted by SIGINT ... */ 
/* Restore previous signal mask, unblocking SIGINT */ 


if (sigprocmask(SIG SETMASK, &prevMask, NULL) == -1) 
errExit("sigprocmask2"); 














SUSv3 规定 ， 如 果 有 任何 等 待 信号 因 对 sigprocmaskO0 的 调用 而 解除 了 锁定 ， 那 么 在 此 调 
用 返回 前 至 少 会 传递 一 个 信号 。 换 言 之 ， 如 果 解 除了 对 某 个 等 待 信号 的 锁定 ， 那 么 会 立刻 将 
该 信号 传递 给 进程 。 

系统 将 忽略 试图 阻塞 SIGKILL 和 SIGSTOP 信号 的 请 求 。 如 果 试 图 阻塞 这 些 信 号， 
sigprocmaskO 函 数 既 不 会 予以 关注 ， 也 不 会 产生 错误 。 这 意味 看 ， 可 以 使 用 如 下 代码 来 阻塞 除 
SIGKILL 和 SIGSTOP 之 外 的 所 有 信和 号 : 


sigfillset(8blockSet); 
if (sigprocmask(SIG BLOCK, &blockSet, NULL) -- -1) 
errExit("sigprocmask"); 





























20.11 处 于 等 待 状态 的 信号 


如 条 东 进 程 接受 了 一 个 该 进程 正在 阻 赛 的 信号 ， 那 么 会 将 该 信号 填 加 到 进程 的 等 符 信 号 
集中 。 当 《〈 且 如 果 ) 之 后 解除 了 对 该 信和 二 的 锁定 时 ， 会 随 之 将 信号 传递 给 此 进程 。 为 了 确定 | 
可 以 使 用 sigpending()。 


#include «signal.h» 

















int sigpending(sigset t *set); 


Returns 0 on success, or -1 on error 

















sigpendingO 系 统 调用 为 调用 进程 返回 处 于 等 竺 状态 的 信号 集 ， 并 将 其 置 于 set 指 问 的 
sigset t 结构 中 。 随 后 可 以 使 用 20.9 THR sigismember() PG ZO f £x. set. 

T RA USC ONES ES C PILAR EE, MA A JS E ROSE f S DET, KAR SGT EJ Ab LO KD 
理 信 和 号。 这 项 技术 虽然 不 经 党 使 用 ， 但 还 是 存在 一 个 应 用 场景 ， 即 将 对 信和 与 的 处 置 置 为 
SIG IGN, 或 者 SIG_DFL (如 果 信 号 的 默认 行为 是 忽略 ),， 从 而 阻止 传递 处 于 等 待 状态 的 信号 。 
因此 ， 会 将 信号 从 进程 的 等 竺 信号 集中 移 除 ， 从 而 不 传递 该 信号 。 














20.12 ”不 对 信号 进行 排队 处 理 


等 行 信号 集 只 是 一 个 掩 码 ， 仪 表明 一 个 信号 是 盏 发 生 ， 而 未 表明 其 发 生 的 次 数 。 换 言 之 ， 
如 果 同 一 信号 在 阻塞 状态 下 产生 多 次 ， 那 么 会 将 该 信号 记录 在 等 竺 信号 集中 ， 并 在 稍 后 仪 传 
递 一 次 《标准 信号 和 实时 信号 之 间 的 关 开 之 一 在 于 ， 如 22.8 市 所 述 ， 对 实时 信号 进行 了 排队 
AR.) 

程序 清单 20-6 和 程序 清单 20-7 显示 了 两 个 程序 ， 可 用 于 观察 未 作 排 队 处 理 的 信和 号。 清单 20-6 
的 程序 可 接受 多 达 四 个 命令 行 参 数 ， 如 下 所 示 : 



































第 20 章 信号 : 基本 概念 341 


异步 社区 会 员 flyman150(2410757683@qq.com) EF 尊重 版 权 


$ ./sig sender PID num-sigs sig-num [sig-num-2] 

第 一 个 参数 是 程序 发 送信 号 的 目标 进程 IDP。 第 二 个 参数 则 指定 发 送 给 目标 进程 的 信号 数量 。 
第 三 个 参数 指定 发 往 目 标 进程 的 信号 编号 。 如 采 还 提供 了 一 个 信号 编号 作为 第 四 个 参数 ， 那 么 
当 程 序 发 送 完 之 前 参数 押 指 定 的 信号 之 后 ， 将 发 送 该 信号 的 一 个 实例 。 在 如 下 shell 会 话 示 例 中 ， 
就 使 用 了 最 后 一 个 参数 向 目标 进程 发 送 一 个 SIGINT 信和 号， 发 送 该 信号 的 目的 将 在 稍 后 揭晓 。 


程序 清单 20-6: 发 送 多 个 信号 









































signals/sig sender.c 
#include «signal.h» 


#include "tlpi hdr.h" 
int 
main(int argc, char *argv[]) 


int numSigs, sig, j; 
pid t pid; 


if (argc < 4 || stremp(argv[1], "--help") == 0) 
usageErr("%s pid num-sigs sig-num [sig-num-2]Nn", argv[0]); 
pid = getLong(argv[1], 0, "PID"); 
numSigs - getInt(argv[2], GN GT O, "num-sigs"); 
sig = getInt(argv[3], 0, "sig-num"); 


/* Send signals to receiver */ 


printf(" 45s: sending signal Xd to process Xld %d times Wn", 
argv[0], sig, (long) pid, numSigs); 


for (j = 0; j < numSigs; j++) 
if (kill(pid, sig) == -1) 
errExit("kill"); 


/* If a fourth command-line argument was specified, send that signal */ 


if (argc > 4) 
if (kill(pid, getInt(argv[4], 0, "sig-num-2")) == -1) 
errExit("kill"); 


printf("%s: exitingW", argv[0]); 
exit(EXIT SUCCESS); 


signals/sig sender.c 


程序 清单 20-7 中 程序 则 被 设计 为 去 捕获 程序 清单 20-6 程序 所 发 送 的 信号 并 汇总 其 统计 数 
据 。 该 程序 执行 了 以 下 步骤 。 

e 该 程序 建立 了 单个 处 理 器 程序 来 捕获 所 有 信号 。( 捕 获 SIGKILL 和 SIGSTOP 信和 号 是 
不 可 能 的 ， 不 过 将 忽略 在 尝试 为 这 些 信号 建立 处 理 右 时 所 发 生 的 错误 。) 对 于 大 多 数 
类 型 的 信号 ， 处 理 器 程序 上 只 是 简单 地 使 用 一 个 数组 来 对 信号 计数 。 如 果 收 到 的 信和 号 为 
SIGINT， 那 么 处 理 器 程序 将 对 标志 (gotSigint) 置 位 ， 从 而 使 程序 退出 主 循 环 ( 下 面 所 
描述 的 while AA). (AF volatile 修饰 符 以 及 声明 gotSigint 变量 的 sig atomic t 数据 
类 型 ， 将 在 21.1.3 节 中 解释 其 用 途 。) 

e 如果 提供 有 一 个 命令 行 参 数 给 程序 ， 那 么 程序 对 所 有 信号 的 阻 罕 秒 数 将 由 该 参数 指 
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定 ， 并 且 在 解除 阻塞 之 前 会 显示 待 处 理 的 信号 集 ， 从 而 使 用 户 在 进程 执行 下 和 面 的 步 又 
前 问 其 发 送信 号 。 

e 程序 执行 while 循环 以 消耗 CPU 时 间 ， 直 至 将 gotSigint 标志 置 位 。(20.14 节 和 22.9 
WHR J pause0 和 sigsuspend0 的 用 法 ， 二 者 在 等 竺 信号 到 来 期 间 对 CPU 的 使 用 方式 
都 颇 为 蝇 效 。) 

e 退出 while 循环 后 ， 程 序 显 示 对 所 有 接收 信号 的 计数 。 

首先 使 用 这 两 个 程序 来 展示 的 是 遭 阻 塞 的 信号 无 论 产 生 了 多 少 次 ， 仅 会 传递 一 次 。 这 里 

为 接收 者 指定 了 一 个 睡眠 间 隅 ， 并 在 醒 来 之 前 发 送 所 有 信号。 


$ ./sig receiver 15 & Receiver blocks signals for 15 secs 
[1] 5368 
./sig receiver: PID is 5368 
./sig receiver: sleeping for 15 seconds 
$ ./sig sender 5368 1000000 10 2 Send SIGUSR1 signals, plus a SIGINT 
./sig sender: sending signal 10 to process 5368 1000000 times 
./sig sender: exiting 
./sig receiver: pending signals are: 
2 (Interrupt) 
10 (User defined signal 1) 
./sig receiver: signal 10 caught 1 time 
[1]+ Done ./sig receiver 15 


发 送 程序 的 命令 行 参 数 指定 了 SIGUSRI 和 SIGINT 信号 ， 其 在 Linux/x86 中 的 编号 分 别 
为 10 和 2。 

从 以 上 输出 可 知 ， 即 使 一 个 信号 发 送 了 一 百 万 次 ， 但 仅 会 传递 一 次 给 接收 者 。 

即使 进程 没有 阻 豆 信号 ， 其 所 收 到 的 信号 也 可 能 比 发 送 给 它 的 要 少 得 多 。 如 条 信 号 发 送 速度 
如 此 之 快 ， 以 至于 在 内 核 竹 虑 将 执行 权 调 el 这 些 信 号 就 已 经 到 达 ， 这 时 就 会 发 
生 上 述 情况 ， 从 而 导致 多 次 发 送 的 信号 在 进程 等 符 信 号 集中 只 记录 了 一 次 。 如 果 不 市 任何 命令 行 参 
数 来 执行 程序 清单 20-7 中 程序 〈 因 此 ， mini PHEfR uU. BRAR, MARERA PT: 


$ ./sig receiver & 

[1] 5393 

./sig receiver: PID is 5393 

$ ./sig sender 5393 1000000 10 2 


./sig sender: sending signal 10 to process 5393 1000000 times 
./sig sender: exiting 


./sig receiver: signal 10 caught 52 times 
[1]+ Done ./sig receiver 


TEBURS IS EAUX Lm. — 52 次 。( 捕 获 信 号 的 精确 数目 每 每 个 
同 ， 这 取决 于 和 内核 调度 算法 变 弥 英 测 的 决策 结束 。) 之 所 以 如 此 ， 原 因 在 于 ， 发 送 程序 会 在 每 
次 获得 调度 而 运行 时 发 送 多 个 信号 给 接收 者 。 然 而 ， 当 接收 进程 得 以 运行 时 ， 传 递 来 的 信和 号 
只 有 一 个 ， 因 为 只 会 将 这 些 信号 中 的 一 个 标记 为 等 竺 状态 。 


URH— 
程序 清单 20-7: 捕获 信号 并 对 其 计数 
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signals/sig receiver.c 
#define GNU SOURCE 
#include «signal.h» 


#include "signal functions.h" /* Declaration of printSigset() */ 
#include "tlpi hdr.h" 


static int sigCnt[NSIG]; /* Counts deliveries of each signal */ 
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static volatile sig atomic t gotSigint - 0; 
/* Set nonzero if SIGINT is delivered */ 


static void 
(D handler(int sig) 


{ 
if (sig -- SIGINT) 
gotSigint - 1; 
else 
sigCnt[sig]e; 
} 
int 
main(int argc, char *argv[]) 
{ 
int n, numSecs; 
sigset t pendingMask, blockingMask, emptyMask; 
printf("%s: PID is %ld\n", argv[0], (long) getpid()); 
D for (n = 1; n < NSIG; nex) /* Same handler for all signals */ 


(void) signal(n, handler); /* Ignore errors */ 


/* If a sleep time was specified, temporarily block all signals, 
sleep (while another process sends us signals), and then 
display the mask of pending signals and unblock all signals */ 


e if (argc > 1) { 
numSecs = getInt(argv[1], GN GT 0, NULL); 


sigfillset(&blockingMask); 
if (sigprocmask(SIG SETMASK, &blockingMask, NULL) -- -1) 
errExit("sigprocmask"); 


printf("Xs: sleeping for Xd seconds Wn", argv[0], numSecs); 
sleep(numSecs); 


if (sigpending(&pendingMask) == -1) 
errExit("sigpending"); 


printf("4s: pending signals are: Wn", argv[0]); 
printSigset(stdout, "\t\t", &pendingMask); 


sigemptyset(&emptyMask); /* Unblock all signals */ 
if (sigprocmask(SIG SETMASK, &emptyMask, NULL) -- -1) 
errExit("sigprocmask"); 


} 
© while (!gotSigint) /* Loop until SIGINT caught */ 
continue; 
© for (n = 1; n < NSIG; n++) /* Display number of signals received */ 


if (sigCnt[n] != 0) 
printf("%s: signal %d caught ^d time%s\n", argv[0], n, 
sigCnt[n], (sigCnt[n] == 1) ? "" : "s"); 
exit(EXIT SUCCESS); 


signals/sig receiver.c 
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2013 ”改变 信号 处 置 : sigaction () 


除去 signal(0) 之 外 ，sigaction() 系 统 调用 是 设置 信号 处 置 的 男 一 选择 。 昌 然 sigaction0) 的 用 
法 比 之 signal0 更 为 复杂 ， 但 作为 回报 ， 也 更 具有 灵活 性 。 尤 其 是 ，sigaction0 人 允许 在 获取 信和 号 处 置 
的 同时 无 需 将 其 改变 ， 并 且 ， 还 可 设置 各 种 属性 对 调用 信号 处 理 器 程序 时 的 行为 施 以 更 加 精 
准 的 控制 。 此 外 ， 如 22.7 节 所 述 ， 在 建立 信号 处 理 喜 程序 时 ，sigaction0 较 之 signalO 函 数 可 移 
植 性 更 佳 。 




















#include «signal.h» 


int sigaction(int sig, const struct sigaction *act, struct sigaction *oídact); 


Returns 0 on success, or - 1 on error 


sig 参数 标识 想 要 获取 或 改变 的 信号 编写 .该 参数 可 以 是 除去 SIGKILL 和 SIGSTOP 之 外 的 
4g. 

act 参数 是 一 枚 指针 ， 指 问 描 述 信 号 狐 处 置 的 数据 结构 。 如 果 仪 对 信号 的 现 有 处 置 感 兴趣 ， 
那么 可 将 该 参数 指定 为 NULL。oldact 参数 是 指 问 同一 结构 类 型 的 指针 ， 用 来 返回 之 前 信号 处 
置 的 相关 信息 。 如 果 无 意 获 取 此 类 信息 ， 那 么 可 将 该 参数 指定 为 NULL。act 和 oldact 所 指 问 
的 结构 类 型 如 下 所 示 : 


struct sigaction { 
void  (*sa handler)(int); /* Address of handler */ 

















sigset t sa mask; /* Signals blocked during handler 
invocation */ 
int sa flags; /* Flags controlling handler invocation */ 


void  (*sa restorer)(void); /* Not for application use */ 


T 











sigaction Zi 4 Sz b 92 EGG AE Pr EZ IF] SB 7g 28. EEA 21.4o 


sa handler 字段 对 应 于 signal] handler 参数 。 其 所 指定 的 值 为 信号 处 理 右 函数 的 地 址 ， 亦 
或 是 常量 SIG IGN, SIG DFL 之 一 。 仪 当 sa handler 是 信号 处 理 程序 的 地 址 时 ， 亦 妈 sa handler 
的 取 值 在 SIG IGN 4I SIG DEL 之 外 ， 才 会 对 sa mask 和 sa flags 字段 〈 稍 后 讨论 ) 加 以 处 理 。 
余下 的 字段 sa_restorer， 则 不 适用 于 应 用 程序 (SUSv3 未 予 规定 )。 











sa restorer 字段 仅 供 内 部 使 用 ， 用 以 确保 当 信 和 号 处 理 器 程序 完成 后 ， 会 去 调用 专用 的 
sigreturn(O 系 统 调 用 ， 借 此 来 恢复 进程 的 执行 上 下 文 ， 以 便于 进程 从 信号 处 理 需 中 断 的 位 置 
继续 执行 。 这 一 用 法 的 实例 可 见 诸 于 glibc 源 文件 sysdeps/unix/sysv/linux/i386/ sigaction.c 中 。 


sa mask 字段 定义 了 一 组 信号 ， 在 调用 由 sa. handler 所 定义 的 处 理 喜 程序 时 将 阻塞 该 组 信 
写 。 当 调用 信号 处 理 器 程序 时 ， 会 在 调用 信号 处 理 嚣 之前， 将 该 组 信号 中 当前 未 处 于 进程 掩 
码 之 列 的 任何 信号 自动 添加 到 进程 掩 码 中 。 这 些 信和 与 将 保留 在 进程 掩 码 中 ， 直 人 至 信号 处 理 器 
函数 返回 ， 届 时 将 自动 删除 这 些 信号 。 利 用 sa mask 字段 可 指定 一 组 信号 ， 不 允许 它们 中 断 
此 处 理 器 程序 的 执行 。 此 外 ， 引 发 对 处 理 器 程序 调用 的 信和 号 将 自动 添加 到 进程 信号 掩 码 中 。 
这 意味 着 ， 当 正在 执行 处 理 器 程序 时 ， 如 果 同 一 个 信号 实例 第 二 次 抵达 ， 信 号 处 理 器 程序 将 
不 会 递归 中 断 上 自己 。 由 于 不 会 对 遭 阻塞 的 信和 号 进行 排队 处 理 ， 如 果 在 处 理 吉 程序 执行 过 程 中 
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重复 产生 这 些 信号 中 的 任何 信号 ,，(〈 稍 后 ) 对 信和 号 的 传递 将 是 一 次 性 的 。 

sa flags 字段 是 一 个 位 掩 伺 ， 指 定 用 于 控制 信号 处 理 过 程 的 各 种 选项 。 该 字段 包含 的 位 如 
下 《可 以 相 或 〈|))。 
SA NOCLDSTOP 

1: sig 为 SIGCHLD 信号 ， 则 当 因 接受 一 信号 而 停止 或 恢复 某 一 子 进程 时 ， 将 不 会 产生 此 信 
写 。 参 见 26.3.2 T. 
SA_NOCLDWAIT 

GRF Linux 2.6) sig 为 SIGCHLD 信号 ， 则 当 子 进程 终止 时 不 会 将 其 转化 为 僵尸 。 更 
多 细节 参见 26.3.3 T. 
SA_NODEFER 

捕获 该 信号 时 ， 不 会 在 执行 处 理 需 程序 时 将 该 信号 目 动 添加 到 进程 手 取 中 。SA_NOMASK 
历史 上 曾 是 SA NODEFER 的 代名词 。 之 所 以 建议 使 用 后 者 ， 是 因为 SUSv3 将 其 纳入 规范 。 
SA_ONSTACK 

针对 此 信号 调用 处 理 右 函数 时 ， 使 用 了 由 sigaltstack() kR REE. 2205 21.3 1. 


SA_RESETHAND 

当 捕 获 该 信号 时 ， 会 在 调用 处 理 器 函数 之 前 将 信和 号 处 置 重 置 为 默认 值 〈 即 SIG DFL) GR 
认 情 况 下 ， 信 号 处 理 需 函数 保持 建立 状态 ， 直 至 进一步 调用 sigaction() 将 其 显 式 解除 。) 
SA ONESHOT 历史 上 曾 是 SA. RESETHAND 的 代名词 ， 之 所 以 建议 使 用 后 者 ， 是 因为 SUSv3 
将 其 纳入 规范 。 
































SA RESTART 
目 动 重 局 由 信和 号 处 理 吉 程序 中 断 的 系统 调用 。 人 参见 21.5 5. 
SA_SIGINFO 








调用 信号 处 理 需 程序 时 携带 了 额外 参数 ， 其 中 提供 了 关于 信号 的 深入 信息 。 对 该 标志 的 
描述 参见 21.4 市 。 

SUSv3 定义 了 上 述 所 有 选项 。 

程序 清单 21-1 展现 了 对 sigaction() 的 使 用 。 


20.14 ”等 竺 信号 : pause() 


调用 pause0 将 暂停 进程 的 执行 ， 直 至 信号 处 理 器 函数 中 断 该 调用 为 止 〈 或 者 直人 至 一 个 未 
处 理 信 号 终止 进程 为 止 )。 











#include <unistd.h> 


int pause(void); 








Always returns -1 with errno set to EINTR 


关于 EINTR 错误 的 更 多 信息 。) 
程序 清单 20-2 提供 了 应 用 pauseO 的 一 例子 。 
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在 22.9 5. 22.10 FX 22.11 节 中 ， 可 以 看 到 程序 等 待 信号 时 暂停 执行 的 各 种 其 他 方式 。 


20.15 A 


言 写 是 发 生 某 种 事件 的 通知 机 制 ， 可 以 由 内 核 、 另 二 进程 或 进程 自 喘 发 送 给 进程 。 存 在 
一 系列 的 标准 信号 类 型 ， 每 种 都 有 唯一 的 编号 和 目的 。 

信和 号 传递 通 音 是 卉 步行 为 ， 这 意味 看 信号 中 断 进 程 执行 的 位 置 是 不 可 预测 的 。 有 时 《比如 ， 
便 件 产生 的 信号 )， 信 号 也 可 同步 传递 ， 这 意味 看 在 程序 执行 的 某 一 点 可 以 预期 并 重 现 信号 的 传递 。 

默认 情况 下 ， 要 么 忽略 信和 号， 要么 终止 进程 〈 生 成 或 者 不 生成 核心 转 储 文件 )， 要 么 停止 一 个 
正在 运行 的 进程 ， 要 么 重启 一 个 已 停止 的 进程 。 特 定 的 默认 行为 取决 于 信号 类 型 。 此 外 ， 程 序 可 
以 使 用 signal0 或 者 sigaction0 来 显 式 忽略 一 个 信 写 ， 或 者 建立 一 个 由 程序 员 目 定义 的 信号 处 理 器 
程序 ， 以 供 信号 到 达 时 调用 。 出 于 可 移植 性 考虑 , dudHEIH sigaction-e sz fri 5 RbXESS BAG. 

一 个 “上 其 有 适当 权限 的 ) 进程 可 以 使 用 kil0 辣 为 一 进程 发 送信 和 号。 发 送 空 信和 与 (0) 是 判 
定 特 定 进 程 ID 是 否 在 用 的 方式 之 一 。 

每 个 进程 都 具有 一 个 信号 手 码 ， 代 表 当 前 传递 遭 到 阻塞 的 一 组 信号 。 使 用 sigprocmask() 
可 从 信号 掩 码 中 添加 或 者 移 除 信号 。 

如 采 接 收 的 信号 当前 遭 到 阻塞 ， 那 么 该 信号 将 保持 等 待 状态 ， 直 至 解除 对 其 阻塞 。 系 统 
不 会 对 标准 信号 进行 排队 处 理 ， 也 残 是 说 ， 将 信号 标记 为 等 待 状态 《以 及 后 续 的 传递 ) 只 会 
发 生 一 次 。 进 程 能 够 使 用 sigpendingO0 系 统 调用 来 获取 等 竺 信号 集 〈 用 以 描述 多 个 不 同 信号 的 
数据 结构 )。 

与 signalO0 相 比 ，sigaction(O) 系 统 调用 在 设置 信号 处 置 方面 提供 了 更 多 控制 ， 且 更 具有 灵活 性 。 
首先 ， 可 以 指定 一 组 调用 处 理 喜 函数 时 将 阻塞 的 哲 外 信号 。 此 外 ， 可 以 使 用 各 种 标志 来 控制 调 
用 信号 处 理 器 时 所 友 生 的 行为 。 例 如 ， 局 用 某 些 标记 即 可 选择 旧 有 的 不 可 菲 信 号 语义 (不 阻 吕 
引发 处 理 占 调用 的 信号 ， 在 调用 信号 处 理 右 之 前 束 将 信和 与 处 置 备 置 为 默认 值 )。 

借助 于 pause), HFE PFT, ELE S AAIE. 

更 多 信息 
[Bovet & Cesati, 2005] 和 [Maxwell, 1999] 提 供 了 Linux 信号 实现 的 背景 资料 。[Goodheart & Cox, 


1994] 详 细 说 明了 System V 版 本 4 对 信号 的 实现 。GNU C 子 数 库 手 册 在 线 网 访问 : 
http://www.gnu.org/〉 包含 了 对 信号 的 全 面 描述 。 































































































20.16 ”练习 


20-1. 如 20.3 节 所 指 ， 比 之 signal), sigaction KE & v fii kb PES IS] a EEEE. YS 
用 sigactionO EE AF FTH P. 20-7 程序 (sig receiver.) 中 对 signal() 的 调用 。 

20-2. 编写 一 程序 来 展示 当 将 对 等 竺 信号 的 处 置 改 为 SIG. IGN 时 ， 程 序 绝 不 会 看 到 《〈 捕 
IR) 信和 号 。 

20-3. 编写 一 程序 ， 以 sigaction(0) 来 建立 信号 处 理 器 函数 ， 请 验证 SA RESETHAND 和 
SA NODEFER 标志 的 效果 。 

20-4. 请 用 sigactionO 调 用 来 实现 siginterrupt(). 








第 20 章 信号 : 基本 概念 347 


异步 社区 会 员 flyman150(2410757683 (9 qq.com) EF 尊重 版 权 





信号 : 





承接 上 一 章 ， 本 章 将 继续 介绍 信和 号。 本章 的 描述 重点 是 信号 处 理 需 函数 (handler)， 同 时 
会 拓展 20.4 节 所 发 起 的 讨论 。 本 章 涵 症 主 题 如 下 。 

e 如 何 设 计 信 和 号 处 理 器 函数 ， 其 中 对 可 重 入 性 以 及 异步 信号 安全 函数 的 探讨 必 不 可 少 。 

e 从 信号 处 理 器 函数 中 正 利 返 回 的 各 种 途径 ， 特 别 是 非 本 地 跳 转 技术 的 运用 。 

e 利用 备 选 栈 处 理 信 和 号 。 

。 HET BH SA_SIGINFO 标志 的 sigaction AZt, AB PE aS PUB e 3 BUS LH Ua HM 

的 更 多 详细 信息 。 
o 信号 处 理 咒 函数 如 何 中 断 处 于 阻塞 状态 的 系统 调用 ， 以 及 如 何 重 局 该 系统 调用 。 











21.1 设计 信号 处 理 器 函数 
于 极 而 言 ， 将 信号 处 理 器 函数 设计 得 越 简 单 越 妇 。 其 中 的 一 个 重要 原因 束 在 于 ， 这 将 降 
低 引 发 竞争 条 件 的 风险 。 下 面 是 针对 信号 处 理 器 函数 的 两 种 常见 设计 。 
e 信号 处 理 器 函数 设置 全 局 性 标志 变量 并 退出 。 主 程序 对 此 标志 进行 周期 性 检查 ， 一 旦 
置 位 随即 采取 相应 动作 。( 主 程序 若 因 监控 一 个 或 多 个 文件 描述 符 的 IO 状态 而 无 法 
进行 这 种 周期 性 检查 时 ， 则 可 令 管 号 处 理 器 函数 问 一 专用 管道 写 入 一 个 字 节 的 数据 , 
同时 将 该 管道 的 读 取 端 置 于 主 程序 所 监控 的 文件 描述 符 范 围 之 内 。63.5.2 节 展 示 了 这 
一 技术 的 运用 。) 
e 信号 处 理 需 函数 执行 某 种 类 型 的 清理 动作 ， 接 看 终止 进程 或 者 使 用 非 本 地 跳 转 (21.2.1 
T) 将 栈 解 开 并 将 控制 返回 到 主 程序 中 的 预定 位 置 。 
后 续 各 节 将 会 探讨 这 些 设计 理念 ， 以 及 信号 处 理 需 图 数 设 计 中 的 其 他 一 些 重要 概念 。 


21.1.1 再 论 信和 号 的 非 队列 化 处 理 


20.10 下 已 然 担 及， 在 执行 荣 信 号 的 处 理 器 函数 时 会 阻塞 同类 信号 的 传递 “除非 在 调用 
Sigaction0 时 指定 了 SA_NODEFER 标记 )。 如 来 在 执行 处 理 右 函数 时 (再 次 ) 产生 同类 信号 ， 那 
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言 号 进行 排队 处 理 。 在 处 理 需 函数 执行 期 间 ， 如 果 多 次 产生 同 闫 信号， 那么 仍然 会 将 其 标记 
为 等 竺 状态， 但 稍 后 只 会 传递 一 次 。 

于 号 的 这 种 “失踪 ”方式 无 颖 将 影响 对 信和 号 处 理 融 函 数 的 设计 。 肯 和 匈 ， 无 法 对 信和 号 的 产 
生 次 数 进行 可 菲 计 数 。 其 次 ， 在 为 信和 号 处 理 带 函数 编码 时 可 能 需要 考虑 处 理 同 类 信和 号 多 次 产 
生 的 情况 。26.3.1 节 在 讨论 SIGCHLD 信和 号 时 会 有 相关 示例 。 


21.1.2 ”可 重 入 函数 和 异步 信号 安全 函数 
在 信号 处 理 喜 函数 中 ， 并 非 所 有 系统 调用 以 及 库 函 数 均 可 了 予以 安全 调用 。 要 了 解 来 龙 去 脉 ， 
就 需要 解释 一 下 以 下 两 种 概念 PEA GeentranO. 函数 和 异步 信号 安全 Casync-signal-safe) PAL. 


可 重 入 和 非 可 重 入 函数 


要 解释 可 重 入 函数 为 何 物 ， 首 先 需 要 区 分 单线 程 程序 和 多 线程 程序 。 典 型 UNIX 程序 都 
共有 一 条 执行 线程 ， 贯 穿 程 序 始终 ，CPU 围绕 单条 执行 馆 辑 来 处 理 指 令 。 而 对 于 多 线程 程序 
而 言 ， 同 一 进程 却 存在 多 条 独立 、 并 发 的 执行 馆 辑 流 。 

第 29 章 将 会 展示 如 何 显 式 创建 一 个 包含 多 条 执行 线程 的 程序 。 不 过 ， 多 执行 线程 的 概念 
与 使 用 了 信号 处 理 占 函数 的 程序 也 有 关联 。 因 为 信号 处 理 费 函数 可 能 会 在 任 一 时 后 卉 步 中 断 
程序 的 执行 ， 从 而 在 同一 个 进程 中 实际 形成 了 了 两 条 《 即 主 程序 和 信号 处 理 器 函数 ) Jr. CR 
然 不 是 并 发 ) 的 执行 线程 。 

如 果 同 一 个 进程 的 多 条 线程 可 以 同时 安全 地 调用 某 一 函数 ， 那 么 该 函数 就 是 可 重 入 的 。 
此 处 ,“ 安 全 ”意味 看 ， 无 论 其 他 线程 调用 该 函数 的 执行 状态 如 何 ， 函 数 均 可 产生 预期 结 


SUSv3 对 可 重 入 函数 的 定义 是 ， 函数 由 两 条 或 多 条 线程 调用 时 ， 即 便 是 交叉 执行 ， 其 
效果 也 与 各 线程 以 未 定义 顺序 依次 调用 时 一 致 。 


更 新 全 局 变量 或 静态 数据 结构 的 函数 可 能 是 不 可 重 入 的 。( 只 用 到 本 地 变量 的 函数 肯定 是 可 
EAH.) 如 条 对 函数 的 两 个 调用 《例如 : 分 别 由 两 条 执行 线程 发 起 ) 同时 试图 更 狐 同 一 全 局 变 
量 或 数据 类 型 ， 那 么 二 者 很 可 能 会 相互 干扰 并 产生 不 正确 的 结果 。 例 如 ， 假 设 某 线程 正在 为 一 
链表 数据 结构 添加 一 个 新 的 链表 项 ， 而 另 一 线程 也 正 试 独 更 狐 同一 链表 。 由 于 为 链表 诬 加 新 项 
涉及 对 多 枚 指针 的 更 新 ， 一 旦 另 一 线程 中 断 这 些 步 骤 并 修改 了 相同 的 指针 ， 结 果 就 会 产生 混乱 。 

在 C 语 言 标 准 函 数 库 中 ,这 种 可 能 性 非常 普遍 。 例 如，7.1.3 节 所 提 及 的 malloc0 和 free0 就 维 
护 有 一 个 针对 已 释放 内 存 块 的 链表 ， 用 于 从 堆 中 重新 分 配 内 存 。 如 果 主 程序 在 调用 malloc) 
期 间 为 一 个 同样 调用 malloc0 的 信号 处 理 器 函数 所 中 断 ， 那 么 该 链表 可 能 会 遭 到 破坏。 因此 ， 
mallocO 国 数 族 以 及 使 用 它们 的 其 他 库 函 数 都 是 不 可 重 入 的 。 

还 有 一 些 图 数 库 之 所 以 不 可 重 入 ， 是 因为 它们 使 用 了 经 静态 分 配 的 内 存 来 返回 信息 。 
此 类 函数 (本 书 其 他 地 方 也 有 论 及 ) 的 例子 包括 eryptO. getpwnamO. gethostbynameQ 以 及 
getservbyname()。 如 果 信 号 处 理 器 用 到 了 这 类 函数 ， 那 么 将 会 宪 盖 主 程序 中 上 次 调用 同一 函数 
所 返回 的 信息 (反之 办 然 )。 

将 胡 态 数据 结构 用 于 内 部 记 账 的 函数 也 是 不 可 备 入 的 。 其 中 最 明显 的 例子 就 是 stdio 函数 
库 成 员 (printfO)、scanf0 等 )， 它 们 会 为 绥 冲 区 VO 更 新 内 部 数据 结构 。 所 以 ， 如 果 在 信号 处 
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理事 函数 中 调用 了 printf0, 而 主 程序 义 在 调用 printtO 或 其 他 stdio P2509] EEE T Ak HEA PR ZA 
的 中 断 ， 那 么 有 时 束 会 看 到 奇怪 的 输出 ， 甚 至 导 伊 程序 骨 尝 或 者 数据 的 损坏 。 

即使 并 未 使 用 不 可 重 入 的 库 函 数 ， 可 重 入 问题 依然 不 容 忽 视 。 如 采信 和 号 处 理 套 函数 和 主 
程序 部 要 更 新 由 程序 员 目 定义 的 全 局 性 数据 结构 ， 那 么 对 于 主 程序 而 言 ， 这 种 信号 处 理 器 函 
数 融 是 不 可 重 入 的 。 

如 果 函 数 是 不 可 重 入 的 ， 那 么 其 手册 页 通 种 会 或 明 或 暗 地 给 出 提示 。 对 于 其 中 那些 使 用 
或 返回 饼 态 分 配 变 量 的 函数 ， 需 要 特别 留意 。 


























示例 程序 


程序 清单 21-1 展示 了 函数 eryptO (8.5 市 ) 不 可 重 入 的 本 来 面目 。 该 程序 接受 两 个 字符 串 
作为 命令 行 参数 ， 执 行 步骤 如 下 。 
1. 调用 cyp ERE 1 个 命令 行 参数 中 的 字符 串 ， 并 使 用 strdup0 将 结果 复制 到 独立 绥 冲 区 中 。 
2. 为 SIGINT ffy Ga T Ctrl-C 产生 ) 创建 处 理 占 函数 。 处 理 右 函数 调用 crypt0 加 密 第 2 个 

命令 行 参数 所 提供 的 字符 串 。 
3. 进入 无 限 for 循环 ， 使 用 crypt0 加 密 第 1 个 命令 行 参 数 中 的 字符 串 ， 并 检查 其 返回 字符 串 

与 第 1 步 保存 的 结 采 是 否 一 致 。 

在 不 产生 信号 的 情况 下 , 第 3 步 中 的 检查 结束 将 总 是 匹配 。 然 而 , 一 旦 收 到 SIGINT 信和 号， 
而 主 程序 又 恰 在 for 循环 内 的 cryptO 调 用 之 后 , 字符 串 的 匹配 检查 之 前 遭 到 信号 处 理 器 函数 的 
中 汤 ， 这 时 就 会 发 生字 符 串 不 匹配 的 情况 。 程 序 运 行 结果 如 下 : 

$ ./non reentrant abc def 

Repeatedly type Control-C to generate SIGINT 

Mismatch on call 109871 (mismatch-1 handled-1) 

Mismatch on call 128061 (mismatch-2 handled-2) 

Many lines of output removed 

Mismatch on call 727935 (mismatch-149 handled-156) 

Mismatch on call 729547 (mismatch-150 handled-157) 

Type Control to generate SIGQUIT 

Quit (core dumped) 

由 对 上 述 输出 mismatch 和 handled (EI EG RI AH, TEX EXT DU P. AERE RANA TE main( 
中 的 eryptO TR H] ^5 ^r 4 E EC [8] 2528 si Ef 2) HO RU AXI DC 


程序 清单 21-1: 在 main() 以 及 信和 号 处 理 函 数 中 调用 不 可 重 入 的 函数 


signals/nonreentrant.c 






































#define XOPEN SOURCE 600 
include <unistd.h> 
include «signal.h» 
include <string.h> 
include "tlpi hdr.h" 


static char *str2; /* Set from argv[2] */ 
static int handled = O0; /* Counts number of calls to handler */ 


static void 
handler(int sig) 


crypt(str2, "xx"); 
handled++; 
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int 
main(int argc, char *argv[]) 
char *cr1; 


int callNum, mismatch; 
struct sigaction sa; 


if (argc !- 3) 
usageErr("5s stri str2Nn", argv[0]); 


str2 - argv[2]; /* Make argv[2] available to handler */ 
cr1 - strdup(crypt(argv[1], "xx")); /* Copy statically allocated string 
to another buffer */ 
if (cr1 -- NULL) 
errExit("strdup"); 


sigemptyset(8sa.sa mask); 

sa.sa flags = 0; 

sa.sa handler - handler; 

if (sigaction(SIGINT, &sa, NULL) -- -1) 
errExit("sigaction"); 


/* Repeatedly call crypt() using argv[1]. If interrupted by a 
signal handler, then the static storage returned by crypt() 


will be overwritten by the results of encrypting argv[2], and 
strcmp() will detect a mismatch with the value in 'cri'. */ 


for (callNum = 1, mismatch = 0; ; callNum++) ( 
if (stremp(crypt(argv[1], "xx'), cr1) != 0) { 
mismatch; 
printf("Mismatch on call ^d (mismatch=%d handled-Xd)Nn", 
callNum, mismatch, handled); 


signals/nonreentrant.c 


标准 的 异步 信号 安全 函数 

卉 步 信 号 安全 的 函数 是 指 当 从 信和 二 处 理 右 冰 数 调用 时 ， 可 以 保证 其 实现 是 安全 的 。 如 
末 示 一 国 数 是 可 重 入 的 ， 又 或 者 信号 处 理 喜 函数 无 法 将 其 中 断 时 ， 束 称 该 轴 数 是 异步 信号 安 
AN. 

K 21-1 所 列 为 各 种 标准 要 求实 现 为 寞 步 信 与 安全 的 函数 。 其 中 ， 名 称 后 未 跟 v2 或 v3 F 
符 串 的 函数 是 由 POSIX.1-1990 规定 为 异步 信号 安全 的 。 带 有 V2 标记 的 函数 由 susv2 加 入 ， 市 
有 v3 标记 的 则 由 susv3 加 入 。 个 别 UNIX 实现 可 能 会 将 其 他 茶 坚 函数 实现 为 异步 信号 安全 的 ， 
但 所 有 符合 标准 的 UNIX 实现 都 必须 保证 全 少 表 中 这 些 国 数 是 开 步 信号 安全 的 《假设 由 实现 
来 提供 这 些 函 数 ，Linux 并 未 实现 所 有 这 些 函 数 )。 

SUSv4 对 表 21-1 做 了 如 下 修改 。 

e FIRU FAZI: fpathconf()、pathconf() 和 sysconf()。 

e YA F KZ: execl0、execv()、 faccessat()、 fchmodat()、fchownat()、 fexecve()、 fstatat(、 

futimens()、 linkat()、 mkdirat()、 mkfifoat()、 mknod()、 mknodat()、openat()、readlinkat()、 


renameat()、symlinkat()、unlinkat()、utimensatO 和 utimes()。 
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X 21-1: POSIX.1-1990, SUSv2 和 SUSv3 规定 为 异步 信号 安全 的 逆 数 


_Exit() (v3) 
 exit() 
abort() (v3) 
accept() (v3) 
access() 
aio error() (v2) 
aio return() (v2) 
aio suspend() (v2) 
alarm() 
bind() (v3) 
cfgetispeed() 
cfgetospeed() 
cfsetispeed() 
cfsetospeed() 
chdir() 
chmod() 
chown() 
clock, gettime() (v2) 
close() 
connect() (v3) 
creat() 
dup) 
dup2() 
execle() 
execve() 
fchmod() (v3) 
fchown() (v3) 
fentl() 
fdatasync() (v2) 
fork() 
fpathconf() (v2) 
fstat() 
fsync() (v2) 
ftruncate() (v3) 
getegid() 
geteuid() 
getgid() 
getgroups() 


getpeername() (v3) 


getpgrpO 


getpid() 
getppid() 
getsockname() (v3) 
getsockopt() (v3) 
getuid() 
kill() 
link() 
listen() (v3) 
Iseek() 
Istat() (v3) 
mkdir() 
mkfifo() 
open() 
pathconf() 
pause() 
pipeO 
poll() (v3) 
posix trace event() (v3) 
pselect() (v3) 
raise() (v2) 
read() 
readlink() (v3) 
recv() (v3) 
recvfrom() (v3) 
recvmsg() (v3) 
rename() 
rmdir() 
select() (v3) 
sem, post() (v2) 
send() (v3) 
sendmsg() (v3) 
sendto() (v3) 
setgid() 
setpgid() 
setsid() 
setsockopt() (v3) 
setuid() 
shutdown() (v3) 
sigaction() 
sigaddset() 





sigdelset() 
sigemptyset() 
sigfillset() 
sigismember() 
signal() (v2) 
sigpause() (v2) 
sigpending() 
sigprocmask() 
sigqueue() (v2) 
sigset() (v2) 
sigsuspend() 


sleep() 
socket() (v3) 
sockatmark() (v3) 
socketpair() (v3) 
stat() 
symlink() (v3) 
sysconf() 
tcdrain() 
tcflow() 
tcflush() 
tcgetattr() 
tcgetpgrp() 
tcsendbreak() 
tcsetattr() 
tcsetpgrp() 
time() 


timer getoverrun() (v2) 
timer gettime() (v2) 
timer settime() (v2) 


times() 
umask() 
uname() 
unlink() 
utime() 
wait() 
waitpid() 
write() 

















SUSv3 强调 ， 表 21-1 之 外 的 所 有 函数 对 于 信号 而 言 都 是 不 安全 的 ， 但 同时 指出 ， 仅 当 信 
号 处 理 器 函数 中 断 了 不 安全 函数 的 执行 ， 且 处 理 器 函数 自身 也 调用 了 这 个 不 安全 函数 时 ， 该 


函数 才 是 不 安全 的 。 换 言 之 ， 编 写 信 与 处理 絮 函数 有 如 下 两 种 选择 。 
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e ME RERBA B EEA BOR RC ERES 
。 当主 程序 执行 不 安全 图 数 或 是 去 操作 信号 处 理 吉 函数 也 可 能 更 新 的 全 局 数据 结构 时 ， 
PH SE fri ^o RIPE e 

第 2 种 方法 的 问题 是 ， 在 一 个 复杂 程序 中 ， 要 想 确保 主 程序 对 不 安全 函数 的 调用 不 为 信 
号 处 理 需 图 数 所 中 断 ， 这 有 些 困 难 。 出 于 这 一 原因 ， 通 负 驶 将 上 述 规 则 简化 为 在 信号 处 理 壤 
痕 数 中 绝 不 调用 不 安全 的 函数 。 

如 条 使 用 同一 处 理 融 函 数 来 处 理 多 个 不 同 信号 ， 或 者 在 调用 sigaction0 时 设置 了 
SA NODEFER 标记 ， 那 么 处 理 占 函数 束 有 可 能 中 断 目 己 。 因此， 处 理 紫 函数 如 末 更 新 了 全 
局 《或 静态 ) 变量 ， 即 便 主 程序 不 使 用 这 些 变量 ， 那 么 它们 依然 可 能 是 不 可 重 入 的 。 
































信号 处 理 器 函数 内 部 对 errno 的 使 用 


由 于 可 能 会 更 新 ermo, WHK 21-1 中 函数 依然 会 导致 信号 处 理 堪 函数 不 可 重 入 ， 因 为 它 
们 可 能 会 敢 症 之 前 由 主 程序 调用 函数 时 所 设置 的 errno 值 。 有 一 种 变通 方法 ， 即 当 信和 号 处 理 需 
PR Zi EH] Fx 21-1 所 列 函 数 时 ， 可 在 其 入 口 处 保存 errno 值 ， 并 在 其 出 口 处 恢复 errno WHS 
值 ， 请 看 下 和 面 的 例子 : 


void 
handler(int sig) 




















int savedErrno; 
savedErrno = errno; 
/* Now we can execute a function that might modify errno */ 


errno = savedErrno; 


j 


在 本 书 示例 程序 中 使 用 不 安全 函数 


虽然 printf0 不 是 异步 信号 安全 的 函数 ， 但 却 频 频 现 映 于 本 书 各 种 示例 的 信号 处 理 器 函数 
中 。 之 所 以 如 此 ， 是 因为 在 展示 对 信号 处 理 占 的 调用 ， 以 及 显示 处 理 右 相关 变量 的 内 容 时 ， 
printfO 都 不 失 为 一 种 简明 而 又 便捷 的 方式 。 出 于 类 似 原 因 , 在 信号 处 理 器 函数 中 偶尔 也 会 用 到 
其 他 一 些 不 安全 函数 ， 包 括 其 他 的 stdio 函数 以 及 strsignalO. 

真正 的 应 用 程序 应 当 避 免 在 信号 处 理 右 函数 中 调用 非 卉 步 信 号 安全 的 函数 。 为 了 明确 这 
一 扩 ， 每 当 示 例 的 信号 处 理 费 调用 这 些 函 数 时 ， 代 人 码 注 释 中 部 会 注 明 这 一 用 法 是 不 安全 的 。 

printf("Some message\n"); /* UNSAFE */ 




















21.1.3 全 局 变量 和 sig. atomic. t 数据 类 型 


尽管 存在 可 重 入 问题 ， 有 时 仍 需要 在 主 程序 和 信和 号 处 理 器 冰 数 之 间 共 享 全 局 变量 。 信 和 号 
处 理 器 函数 可 能 会 随时 修改 全 局 变量 一 一 只 要 主 程序 能 够 正确 处 理 这 种 可 能 性 ， 共 享 全 局 变 
量 束 是 安全 的 。 例 如 ， 一 种 第 见 的 设计 是 ， 信 和 号 处 理 髓 函数 只 做 一 件 事 情 ， 议 置 全 局 标 忘 。 
主 程序 则 会 周期 性 地 检查 这 一 标志 ， 并 采取 相应 动作 来 响应 信号 传递 《同时 清除 标志 )。 当 信 
号 处 理 器 函数 以 此 方式 来 访问 全 局 变量 时 ， 应 该 总 是 在 声明 变量 时 使 用 volatile 关键 字 ， 从 而 
防止 编译 器 将 其 优化 到 寄存 器 中 。 
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对 全 局 变量 的 读 写 可 能 不 止 一 条 机 器 指令 ， 而 信号 处 理 器 函数 就 可 能 会 在 这 些 指令 序列 
之 间 将 主 程序 中 断 〈 也 将 此 类 变量 访问 称 为 非 原 子 操作 )。 因 此 ，C 语言 标准 以 及 SUSv3 定义 
了 一 种 整 型 数据 类 型 sig_atomic_ t， 意 在 保证 读 写 操作 的 原子 性 。 因 此 ， 所 有 在 主 程序 与 信号 
处 理 兹 函数 之 间 共 于 的 全 局 变量 都 应 声明 如 下 : 

volatile sig atomic t flag; 

程序 清单 22-5 提供 了 使 用 sig atomic t 数据 类 型 的 一 个 例子 。 

注意 ，C 语言 的 递增 (++) 和 递减 〈--) 操作 符 并 不 在 sig atomic t 所 提供 的 保障 范围 之 
内 。 这 些 操 作 在 人 条 些 便 件 染 构 上 可 能 不 是 原子 操作 (更 多 细 市 请 参考 301 W). EEH 
sig atomic t 变量 时 唯一 所 能 做 的 就 是 在 信号 处 理 器 中 进行 设置 ， 在 主 程序 中 进行 检查 《〈 反 
ZINE] Y. 

C99 和 SUSv3 规定 ， 实 现 应 当 ( 在 <stdint.h> 中 )〉 定义 两 个 常量 SIG ATOMIC. MIN 和 
SIG_AIOMIC_MAX， 用 于 规定 可 赋 给 sig atomic t 类 型 的 值 范 围 。 标 准 要 求 ， 如 来 将 
sig. atomic t 表示 为 有 符号 值 ， 其 范围 至 少 应 该 在 -127 一 127 之 间 ， 如 果 作 为 无 符号 值 ， 则 应 
该 在 0 一 255 之 间 。 在 Linux 中 ， 这 两 个 常量 分 别 等 于 有 符号 32 位 整 型 数 的 负 、 正 极限 值 。 


21.2 终止 信号 处 理 器 函数 的 其 他 方 ; 


目前 为 止 所 看 到 的 信号 处 理 器 函数 都 是 以 返回 主 程序 而 终结 。 不 过 ， 只 是 简单 地 从 信和 号 
处 理 器 函数 中 返回 并 不 能 满足 需要 ， 有 时 候 其 至 没什么 用 处 。(22.4 节 在 讨论 硬件 产生 的 信和 号 
时 会 举 出 这 方面 的 例子 。) 
以 下 是 从 信和 号 处 理 器 函数 中 终止 的 其 他 一 些 方法 。 
o 使 用 _exitO 终 止 进程 。 处 理 器 函数 事先 可 以 做 一 些 清理 工作 。 注意 , 不 要 使 用 exit0 来 终 
止 信号 处 理 器 函数 ， 因 为 它 不 在 表 21-1 所 列 的 安全 函数 中 。 之 所 以 不 安全 ， 是 因为 如 
25.1 广 所 述 ， 该 函数 会 在 调用 _exit0 之 前 刷新 stdio 的 缓冲 区 。 
e 使 用 kill0 发 送信 号 来 杀 掉 进程 〈 即 ， 信 和 号 的 默认 动作 是 终止 进程 )。 
。 从 信号 处 理 器 函数 中 执行 非 本 地 跳 转 。 
e 使 用 abort0 函 数 终止 进程 ， 并 产生 核心 转 储 。 
以 下 各 节 将 会 对 最 后 两 点 做 深入 讨论 。 


21.2.1 在 信号 处 理 器 函数 中 执行 非 本 地 跳 转 

6.8 节 曾 论 及 使 用 setjmpO M longjmp0O 来 执行 非 本 地 跳 转 ， 以 便 从 一 个 函数 跳 转 至 该 函数 
的 东 个 调用 者 。 在 信号 处 理 器 函数 中 也 可 以 使 用 这 种 技术 。 这 也 是 因 便 件 卉 和 音 《 例 如 内 存 访 
问 错误 ) 而 导致 信号 传递 之 后 的 一 条 恢复 途径 ， 人 允许 将 信号 捕获 并 把 控制 返回 到 程序 中 某 个 
特定 位 置 。 例 如 ， 一 旦 收 到 SIGINT 信号 (通常 由 键入 Ctrl-C PÆ), shel 执行 一 个 非 本 地 跳 
转 ， 将 控制 返回 到 主 输入 循环 中 《以 便 读 取 下 一 条 命令 )。 

然而 ， 使 用 标准 longjmpO 函 数 从 处 理 需 函数 中 退出 存在 一 个 问题 。 之 前 曾经 提 及 ， 在 进 
入 信号 处 理 问 函数 时 ， 内 核 会 自动 将 引发 调用 的 信号 以 及 由 act.sa_mask 所 指定 的 任意 信号 添加 
到 进程 的 信号 手 码 中 ， 并 在 处 理 需 函数 正 第 返回 时 再 将 它们 从 撼 码 中 清除 。 

如 果 使 用 longjmp0 来 退出 信号 处 理 器 水 数 ， 那 么 信号 掩 码 会 发 生 什么 情况 呢 ? 这 取决 于 
特定 UNIX 实现 的 血统 。 在 System V 一 肪 中 ，longjmp0 〇 不 会 将 信号 掩 人 码 恢 复 ， 亦 即 在 离开 处 
理 器 函数 时 不 会 对 遭 阻 塞 的 信号 解除 阻塞 。Linux 遵循 System V 的 这 一 特性 。( 这 通常 并 非 所 
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希望 的 行为 ， 因 为 引发 对 信号 处 理 志 调用 的 信和 号 仍 将 保持 阻 竖 状态 。) 在 源 于 BSD 一 胀 的 实现 
中 ，setjmp0 将 信号 掩 码 保存 在 其 env 参数 中 ， 而 信号 掩 码 的 保存 值 由 longjmpO 恢 复 。( 继 承 目 
BSD 的 实现 还 提供 另外 两 个 拥有 System V 语义 的 函数 : | setjimpORI longimpO.2 换言之 ， 使 用 
longjmp(0 来 退出 信号 处 理 需 函数 将 有 损 于 程序 的 可 移植 性 。 
ue 

鉴于 两 大 UNIX 流派 之 间 的 差异 ，POSIX.1-1990 选择 不 对 setjmpOsll longjmpOT fzi ^ HE 
但 处 理 进 行规 范 ， 而 是 定义 了 一 对 新 函数 : sigsetjmpO MI siglongjmpO0， 针 对 执行 非 本 地 跳 转 
时 的 信号 掩 码 进行 显 式 控制 。 


#include <setjmp.h> 














int sigsetjmp(sigjmp buf env, int savesigs); 


Returns 0 on initial call, nonzero on return via siglongjmp() 


void siglongjmp(sigjmp buf emv, int val); 








PEZ. sigsetjmpO 4l siglongjmpO 的 操作 与 sjmpO 和 longjmpO 类 似 。 唯 一 的 区 别 是 参数 env 
的 类 型 不 同 (是 sigjmp_buf 而 不 是 jmp_buf)， 并 且 sigsejmpO 多 出 一 个 参数 savesigs。 如 果 指 定 
savesigs 为 非 0， 那 么 会 将 调用 sigsetjmpO 时 进程 的 当前 信号 掩 码 保 存 于 env 中 ， 之 后 通过 指定 相 
同 env 参数 的 siglongjmp0 调 用 进行 恢复 。 如 果 savesigs 为 0， 则 不 会 保存 和 恢复 进程 的 信号 掩 码 。 

PKZ longjmpO 和 SiglongjmpO 都 不 在 表 21-1 所 列 寞 步 信号 安全 图 数 的 范围 之 内 。 因 为 与 在 信 
写 处 理 颖 中 调用 这 些 气 数 一 样 ， 在 执行 非 本 地 跳 转 之 后 去 调用 任何 非 异步 信号 安全 的 函数 也 需要 
昌 同 样 的 风险 。 此 外 ， 如 果 信 号 处 理 器 函数 中 断 了 正在 更 新 数据 结构 的 主 程序 ， 那 么 执行 非 本 地 
跳 转 退出 处 理 器 函数 后 ， 这 种 不 完整 的 更 狐 动 作 很 可 能 会 将 数据 结构 置 于 不 一 八 状 态 。 规 避 这 一 
问题 的 一 种 技术 是 在 程序 对 敏感 数据 进行 更 新 时 ， 借 助 于 sigprocmask0O 临 时 将 信号 阻塞 起 来 。 


示例 程序 


程序 清单 21-2 展示 了 两 种 类 型 的 非 本 地 跳 转 在 处 理 信 号 掩 码 上 的 差 寞 。 该 程序 为 SIGINT 
创建 处 理 占 函数 ， 并 允许 选择 setimpO+longjmpO 组 合 或 者 sigsetmpO+siglongjmpO 组 合 的 方式 来 
退出 信号 处 理 占 函数 ， 其 体 采 用 何 种 函数 组 合 则 取决 于 程序 编 详 时 是 否 对 宏 USE_SIGSETJMP 
进行 了 定义 。 程 序 会 分 别 在 进入 信 写 处 理 器 函数 时 ， 以 及 非 本 地 跳 转 将 控制 从 信号 处 理 器 交还 
给 主 程序 后 ， 显 示 信号 掩 码 的 当前 设置 
如 果 利 用 longjmpO 来 退出 信号 处 理 占 隙 数 ， 其 结 来 如 下 : 
$ make -s sigmask longjmp Default compilation causes setjmp() to be used 
$ ./sigmask longjmp 
Signal mask at startup: 
«empty signal set» 
Calling setjmp() 
Type Control-C to generate SIGINT 
Received signal 2 (Interrupt), signal mask is: 
2 (Interrupt) 
After jump from handler, signal mask is: 
2 (Interrupt) 
(At this point, typing Control-C again has no effect, since SIGINT is blocked) 
Type Control-* to kill the program 
Quit 
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由 程序 输出 结果 可 知 ， 信 号 处 理 器 函数 调用 longjmp0 之 后 的 信号 掩 人 码 设 置 与 进入 处 理 嚣 
因数 时 保持 一 致 。 


EIR shell 会 话 中 构建 程序 所 使 用 的 makefile 由 随 本 书 发 布 的 源码 提供 。 选 项 -s 告知 make 程 
序 不 要 显示 正在 执行 的 命令 。 使 用 该 选项 意 在 避免 对 会 话 日 志 的 显示 产生 干扰 。([Mecklenbug,， 
2005] 对 GNU make 程序 做 了 说 明 。) 


如 琳 编 详 同 一 源 文件 来 创建 利用 siglongjmpO 退 出 信和 号 处 理 器 函数 的 程序 ， 则 结 采 如 下 : 
$ make -s sigmask siglong;jmp Compiles using cc -DUSE SIGSETJMP 
$ ./sigmask siglongjmp x 
Signal mask at startup: 
«empty signal set» 
Calling sigsetjmp() 
Type Control-C 
Received signal 2 (Interrupt), signal mask is: 
2 (Interrupt) 
After jump from handler, signal mask is: 
«empty signal set» 
在 这 里 ， 没 有 将 SIGINT AE, AA siglongimpOTX £2 T RRE o 1e03. RE, P 
次 按 下 Ctrl-C， 会 再 次 调用 该 信号 处 理 器 函数 。 
Type Control-C 
Received signal 2 (Interrupt), signal mask is: 
2 (Interrupt) 
After jump from handler, signal mask is: 
«empty signal set» 


Type Control-\ to kill the program 
Quit 


由 上 述 输出 可 知 ，siglongjmpO 将 信号 手 码 恢复 到 调用 sigsejmp0O 时 的 值 〈 即 一 个 空 信 号 集 )。 

程序 清单 21-2 还 展示 了 信和 号 处 理 器 函数 执行 非 本 地 路 转 时 的 一 种 实用 技术 。 信 和 号 随时 可 
能 产生 , 所 以 有 可 能 发 生 于 segsetjmpO (或 setjmpOO 设置 跳 转 目标 之 前 。 为 杜绝 这 种 可 能 (这 
将 导致 处 理 器 函数 使 用 未 初始 化 的 env 绥 冲 区 来 执行 非 本 地 跳 转 );， 程 序 局 用 了 守卫 变量 
canJump， 来 表征 env 缓冲 区 的 初始 化 与 否 。 如 果 canJump 不 为 真 〈false)， 处 理 器 函数 将 不 
执行 跳 转 而 直接 返回 。 男 一 种 方法 是 调整 程序 代码 ， 在 创建 信号 处 理 占 函数 之 前 去 调用 
sigsetjmp() (或 setmpO)。 不 过 对 于 复杂 的 程序 而 言 ， 苛 求 这 样 的 步骤 执行 顺序 可 能 会 有 困难 ， 
而 使 用 守卫 变量 也 许 会 更 简单 一 些 。 

注意 ， 在 编写 程序 清单 21-2 程序 时 使 用 #fdef 是 使 其 编码 风格 符合 标准 的 最 简单 的 手段 。 
特别 是 当 无 法 用 下 面 的 运行 时 检查 代码 来 取代 者 fdef 时 。 

if (useSiglongjmp) 

s = sigsetjmp(senv, 1); 
else 


s - setjmp(env); 
if (s == 0) 





















































这 一 做 法 有 违规 范 ， 因为 SUSv3 不 允许 在 赋值 语句 (6.8 节 ) 中 调用 setjmpO 和 sigsetjmpO. 
程序 清单 21-2: 在 信号 处 理 器 函数 中 执行 非 本 地 跳 转 


signals/sigmask longjmp.c 


#define GNU SOURCE /* Get strsignal() declaration from «string.h» */ 
#include «string.h» 
&include «setjmp.h» 
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include «signal.h» 
&include "signal functions.h" /* Declaration of printSigMask() */ 
#include "tlpi hdr.h" 


static volatile sig atomic t canJump - 0; 
/* Set to 1 once "env" buffer has been 
initialized by [sig]setjmp() */ 
#ifdef USE SIGSETJMP 
static sigjmp buf senv; 
#else 
static jmp buf env; 
#endif 


static void 
handler(int sig) 


/* UNSAFE: This handler uses non-async-signal-safe functions 
(printf(), strsignal(), printSigMask(); see Section 21.1.2) */ 


printf("Received signal Xd (%s), signal mask is:\n", sig, 
strsignal(sig)); 
printSigMask(stdout, NULL); 


if (!canJump) 1 
printf("'env' buffer not yet set, doing a simple returnWn"); 
return; 


j 


#ifdef USE SIGSETJMP 
siglongjmp(senv, 1); 

Helse 
longjmp(env, 1); 

#endif 

} 

int 

main(int argc, char *argv[]) 


struct sigaction sa; 
printSigMask(stdout, "Signal mask at startup:\n"); 


sigemptyset(&sa.sa mask); 

sa.sa flags = 0; 

sa.sa handler = handler; 

if (sigaction(SIGINT, &sa, NULL) == -1) 
errExit("sigaction"); 


#ifdef USE SIGSETJMP 
printf("Calling sigsetjmp()Wn"); 
if (sigsetjmp(senv, 1) == 0) 
#else 
printf("Calling setjmp()\n"); 
if (setjmp(env) == 0) 
#endif 
canJump = 1; /* Executed after [sig]setjmp() */ 


else /* Executed after [sig]longjmp() */ 
printSigMask(stdout, "After jump from handler, signal mask is:Wn" ); 
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for (5;) /* Wait for signals until killed */ 
pause(); 


signals/sigmask longjmp.c 


21.2.2 F SAILE: abort() 
PK Zi. abort0 终 止 其 调用 进程 ， 并 生成 核心 转 储 。 


#include <stdlib.h> 








void abort(void); 








PK Zt abortO 通 过 产生 SIGABRT 信号 来 终止 调用 进程 。 对 SIGABRT 的 默认 动作 是 产 
生 核 心 转 储 文件 并 终止 进程 。 调 试 右 可 以 利用 核心 转 储 文件 来 检测 调用 abortO 时 的 程序 
状态 。 

SUSv3 Zik, TEBRA SIGABRT 信号 ，abortO 调 用 均 不 受 影 响 。 同 时 规定 ， 除 
非 进 程 捕获 SIGABRT 信号 后 信号 处 理 右 函数 尚未 返回 ， 否则 abortO 必 须 终 止 进程 。 后 一 句 话 
值得 三 思 。21.2 节 所 描述 的 信号 处 理 喜 函数 终止 方法 中 ， 与 此 相关 的 就 是 使 用 非 本 地 跳 转 退 
出 处 理 器 函数 。 这 一 做 法 将 抵消 abort0 的 效果 。 否 则 ，abort0 将 总 是 终止 进程 。 在 大 多 数 实现 
中 ， 终 止 时 可 确保 发 生 如 下 事件 : FEER hA SIGABRT 信号 后 仍 未 终止 ( 即 ， 处 理 器 
捕获 信号 并 返回 ， 以 便 恢 复 执 行 abort0) )， 则 abort0 会 将 对 SIGABRT 信号 的 处 理 重 置 为 
SIG_DFL， 并 再 度 发 出 SIGABRT 信号 ， 从 而 确保 将 进程 杀 死 。 

如 果 abort0 成 功 终止 了 进程 ， 那 么 还 将 刷新 stdio 流 并 将 其 关闭 。 

程序 清单 3-3 在 错误 处 理 函 数 中 提供 了 使 用 abortO 的 一 个 例子 。 























21.3 在 备 选 栈 中 处 理 信 号 : sigaltstack() 


在 调用 信和 号 处 理 喜 函数 时 ， 内 核 通病 会 在 进程 栈 中 为 其 创建 一 帧 。 不 过 ， 如 果 进 程 对 栈 
的 扩展 突破 了 对 栈 大 小 的 限制 时 ， 这 种 做 法 就 不 大 可 行 了 。 例 如 ， 栈 的 增长 过 大 ， 以 至 于 会 
触及 到 一 族 映 射 内 存 (48.5 0. 或 者 同上 增长 的 堆 ， 又 或 者 栈 的 大 小 已 经 下台 RLIMIT STACK 
(36.3 节 ) 资源 限制 ， 这 些 都 会 造成 这 种 情况 的 发 生 。 

当 进 程 对 栈 的 扩展 试图 突破 其 上 限时 ， 内 核 将 为 该 进程 产生 SIGSEGV 信和 号。 不 过 ， 因 为 
栈 空 间 已 然 耗 尽 ， 内 核 也 就 无 法 为 进程 已 经 安装 的 SIGSEGV. 处 理 器 函数 创建 栈 帧 。 结 果 是 ， 
处 理 喜 函数 得 不 到 调用 ， 而 进程 也 怠 终 止 了 〈SIGSEGY 的 默认 动作 )。 

如 果 希 望 在 这 种 情况 下 确保 对 SIGSEGV 信和 号 处 理 器 函数 的 调用 ， 就 需要 做 如 下 
Are 
1. 4RU— BUR RRR” WATKI, EA AEA R AERE o 
2. 调用 sigaltstack0， 人 千 之 内 核 该 备 选 信号 栈 的 存在 。 

3 在 创建 信号 处 理 需 函数 时 指定 SA ONSTACK fus. 2hBIOB AU PI TZ TE XT EJ AXE SER 

数 创建 栈 帧 。 

利用 系统 调用 sigaltstack0)， 既 可 以 创建 一 个 备 选 信号 栈 ， 也 可 以 将 已 创建 备 选 信号 栈 的 
相关 信息 返回 。 
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include «signal.h» 


int sigaltstack(const stack t *szgsiack, stack t *old sigstack); 





Returns 0 on success, or - 1 on error 





参数 sigstack Hrg In] 2308 Zi FA rS. T TEX DUCI ELS TES Z% old sigstack 1H 
[5] H5) Z4] D] He] FRH E — 6e Xf I BHO. RFE. PORA AN NULL. 
例如 ， 将 参数 sigstack 设 为 NULL 可 以 发 现 现 有 备 选 信号 栈 ， 并 且 不 用 将 其 改变 。 不 为 NULL 
时 ， 这 些 参 数 所 指 疝 的 数据 结构 类 型 如 下 : 

typedef struct { 








void *ss sp; /* Starting address of alternate stack */ 
int ss flags; /* Flags: SS ONSTACK, SS DISABLE */ 
size t ss size; /* Size of alternate stack */ 

} stack t; 





字段 ss sp 和 ss size 分 别 指 定 了 备 选 信号 栈 的 位 置 和 大 小 。 在 实际 使 用 信和 号 栈 时 ， 内 核 
会 将 ss. sp 值 自动 对 齐 为 与 硬件 架构 相 适 宜 的 地 址 边界 。 

备 选 信号 栈 通 常 既 可 以 静态 分 配 ， 也 可 以 在 堆 上 动态 分 配 。SUSv3 规定 将 常量 SIGSTKSZ 
作为 划分 备 选 栈 大 小 的 典型 什 ， 而 将 MINSSIGSTKSZ 作为 调用 信和 号 处 理 右 函数 所 需 的 最 小 值 。 
在 Linux/x86-32 系统 上 ， 分 别 将 这 两 个 值 定 义 为 8192 和 2048. 

内 核 不 会 重新 划分 备 选 栈 的 大 小 。 如 果 栈 溢出 了 分 配给 它 的 空间 ， 就 会 产生 混乱 (例如 ， 
写 变 量 超出 了 对 栈 的 限制 )。 这 通常 不 是 一 个 问题 ， 因 为 一 般 情 况 下 会 利用 备 选 栈 来 处 理 标 准 
栈 溢出 的 特殊 情况 ， 常 第 只 在 这 个 栈 上 分 配 为 数 不 多 的 几 帧 。SIGSEGYV 处 理 器 函数 的 工作 不 是 
在 执行 清理 动作 后 终止 进程 ， 就 是 使 用 非 本 地 跳 转 解 开 标准 栈 。 

ss flags 可 以 包含 如 下 值 之 一 : 


SS ONSTACK 

如 果 在 获取 已 创建 备 选 信号 栈 的 当前 信息 时 该 标志 已 然 置 位 ， 就 表明 进程 正在 备 选 信号 
栈 上 执行 。 当 进程 已 经 在 备 选 信号 栈 上 运行 时 ， 试 图 调用 sigaltstack() 来 创建 一 个 新 的 备 选 信 
号 栈 将 会 产生 一 个 错误 (EPERM)。 
SS_DISABLE 

在 old_sigstack 中 返回 ， 表 示 当 前 不 存在 已 创建 的 备 选 信号 栈 。 如 果 在 sigstack 中 指定 ， 则 
会 禁用 当前 已 创建 的 备 选 信号 栈 。 

程序 清单 21-3 演示 了 备 选 信号 栈 的 创建 和 使 用 。 在 创建 一 个 新 的 备 选 信号 栈 以 及 SIGSEGV 
的 信号 处 理 器 图 数 之 后 ， 程 序 将 调用 一 个 无 限 递归 函数 ， 这 会 导致 栈 汶 出 ， 同 时 系统 会 问 进 
程 发 送 SIGSEGV 信和 号。 运行 该 程序 的 结果 如 下 。 

$ ulimit -s unlimited 


$ ./t sigaltstack 
Top of standard stack is near Oxbffff6b8 


Alternate stack is at 0x804a948-0x804cfff 
Call 1 - top of stack near Oxbffob3ac 

Call 2 - top of stack near Oxbfe1714c 

Many intervening lines of output removed 

Call 2144 - top of stack near 0x4034120c 


Call 2145 - top of stack near Ox4024cfac 
Caught signal 11 (Segmentation fault) 
Top of handler stack near 0x804c860 
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在 这 一 shell 会 话 中 ， 命 令 ulimit 负责 移 除 shell 之 前 可 能 设置 的 任何 RLIMIT. STACK 资 


源 限制 。36.3 节 会 解释 这 种 资源 限制 。 
程序 清单 21-3: 使 用 sigaltstack() 


360 


signals/t sigaltstack.c 


#define GNU SOURCE /* Get strsignal() declaration from «string.h» */ 
include <string.h> 

include «signal.h» 

include "tlpi hdr.h" 


static void 
sigsegvHandler(int sig) 


int x; 


/* UNSAFE: This handler uses non-async-signal-safe functions 
(printf(), strsignal(), fflush(); see Section 21.1.2) */ 


printf("Caught signal Xd (%s)\n", sig, strsignal(sig)); 
printf("Top of handler stack near 410pWn", (void *) &x); 


fflush(NULL); 
 exit(EXIT FAILURE); /* Can't return after SIGSEGV */ 
} 
static void /* A recursive function that overflows the stack */ 
overflowStack(int callNum) 
{ 
char al 100000 ] ; /* Make this stack frame large */ 
printf("Call %4d - top of stack near %10p\n", callNum, &a[0]); 
overflowStack(callNum41); 
} 
int 


main(int argc, char *argv[]) 


stack t sigstack; 
struct sigaction sa; 
int j; 


printf("Top of standard stack is near %10p\n", (void *) àj); 
/* Allocate alternate stack and inform kernel of its existence */ 


sigstack.ss sp - malloc(SIGSTKSZ); 

if (sigstack.ss sp -- NULL) 
errExit("malloc"); 

sigstack.ss size - SIGSTKSZ; 

sigstack.ss flags = 0; 

if (sigaltstack(&8sigstack, NULL) == -1) 
errExit("sigaltstack"); 

printf("Alternate stack is at %10p-%p\n", 

sigstack.ss sp, (char *) sbrk(O) - 1); 


sa.sa handler - sigsegvHandler; /* Establish handler for SIGSEGV */ 
sigemptyset(8sa.sa mask); 
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sa.sa flags - SA ONSTACK; /* Handler uses alternate stack */ 
if (sigaction(SIGSEGV, &sa, NULL) -- -1) 
errExit("sigaction"); 


overflowStack(1); 


signals/t sigaltstack.c 


21.4 SA SIGINFO 标志 


如 果 在 使 用 sigaction0O 创 建 处 理 器 函数 时 设置 了 SA, SIGINFO 标志 , 那么 在 收 到 信和 号 时 处 
理 右 函数 可 以 获取 该 信号 的 一 些 附加 信息 。 为 获取 这 一 信息 ， 需 要 将 处 理 右 录 数 声明 如 下 : 
void handler(int sig, siginfo t *siginfo, void *ucontext); 
如 同 标 准 信号 处 理 占 函数 一 样 ， 第 1 个 参数 sig 表示 信和 号 编写。 第 2 个 参数 siginfo 是 用 于 
提供 信和 号 附加 信息 的 一 个 结构 。 该 结构 会 与 最 后 一 个 参数 ucontext 一 起 ， 在 下 面 做 详细 说 明 。 
因为 上 述 信 号 处 理 器 函数 的 原型 不 同 于 标准 处 理 器 函数 ， 依 照 C 语言 的 类 型 规则 ， 将 无 法 
利用 sigaction 结构 的 sa handler 字段 来 指定 处 理 器 函数 地 址 。 此 时 需要 使 用 另 一 个 字段 : 
Sa_sigaction。 换 言 之 ，sigaction 结构 比 20.13 市 所 展示 的 要 稍微 复 洒 一 些 。 其 完整 定义 如 下 : 
struct sigaction { 
union { 
void (*sa handler)(int); 
void (*sa sigaction)(int, siginfo t *, void *); 
}  sigaction handler; 
sigset t sa mask; 
int sa flags; 
void (*sa restorer)(void); 












































js 


/* Following defines make the union fields look like simple fields 
in the parent structure */ 


#define sa handler — sigaction handler.sa handler 
define sa sigaction sigaction handler.sa sigaction 


结构 sigaction 使 用 联合 体 来 合并 sa. sigaction 和 sa_handler。( 大 部 分 其 他 UNIX 实现 也 采 
用 相同 的 方式 。) 之 所 以 使 用 联合 体 ， 是 因为 对 sigaction0 的 特定 调用 只 会 用 到 其 中 的 一 个 学 
段 。( 不 过 ， 如 果 天 真 地 认为 可 以 彼此 独立 地 设置 sa_handler 和 sa sigaction, 3L HI Be s Sc — 
些 奇怪 的 bug。 可 能 的 原因 是 在 为 不 同 的 信号 创建 处 理 器 函数 时 ， 多 次 对 sigaction() 的 调用 复 
用 了 同一 个 sigaction 结构 。) 

这 里 是 使 用 SA_SIGINFO 创建 信号 处 理 占 函数 的 一 个 例子 : 


struct sigaction act; 








sigemptyset(&act.sa mask); 
act.sa sigaction - handler; 
act.sa flags - SA SIGINFO; 


if (sigaction(SIGINT, &act, NULL) -- -1) 
errExit("sigaction"); 


至 于 使 用 SA. SIGINFO 标志 的 完整 例子 ， 请 参考 程序 清单 22-3 和 程序 清单 23-5， 
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结构 siginfo t 


在 以 SA_SIGINFO 标志 创建 的 信号 处 理 吉 图 数 中 ， 结 构 siginfo t 是 其 第 2 个 参数 ， 格 式 如 下 : 
typedef struct { 


int si signo; /* Signal number */ 

int si code; /* Signal code */ 

int si trapno; /* Trap number for hardware-generated signal 
(unused on most architectures) */ 

union sigval si value; /* Accompanying data from sigqueue() */ 

pid t si pid; /* Process ID of sending process */ 

uid t si uid; /* Real user ID of sender */ 

int si errno; /* Error number (generally unused) */ 

void  *si addr; /* Address that generated signal 
(hardware-generated signals only) */ 

int si overrun; /* Overrun count (Linux 2.6, POSIX timers) */ 

int si timerid; /* (Kernel-internal) Timer ID 
(Linux 2.6, POSIX timers) */ 

long si band; /* Band event (SIGPOLL/SIGIO) */ 

int si fd; /* File descriptor (SIGPOLL/SIGIO) */ 

int si status; /* Exit status or signal (SIGCHLD) */ 

clock t si utime; /* User CPU time (SIGCHLD) */ 

clock t si stime; /* System CPU time (SIGCHLD) */ 


} siginfo t; 

要 获取 <signalh> 对 siginfo t 的 声明 ， 必 须 将 特性 测试 宏 _POSIX_C_SOURCE 的 人 定义 为 
大 于 或 等 于 199309。 

如 同 大 部 分 UNIX 实现 一 样 ， 在 Linux 系统 中 ，siginfo t 结构 的 很 多 字段 都 是 联合 体 ， 
为 对 每 个 信号 而 言 ， 并 非 所 有 字段 都 有 必要 。( 人 参考 <bits/siginfo.h> 中 的 细节 。) 

一 旦 进入 信号 处 理 器 函数 ， 对 结构 siginfo t 中 字段 的 设置 如 下 。 


























si_signo 
n Hsc EL. ARI ARR RANE S a AERA sig 参数 的 值 相同 。 
si_code 
需要 为 所 有 信号 设置 。 如 表 21-2 Biz. MERKE T ATE S RU AR f e 
si value 
该 字段 包含 调用 sigqueue0 发 送信 号 时 的 伴随 数据 。22.8.1 节 将 讨论 sigqueue0。 
si pid 
对 于 经 由 kill0 或 sigqueueO A XS BM eim VACAT. T AGASXEREBUXERE ID. 
si uid 


对 于 经 由 kill0 或 sigqueue0O 发 送 的 信号 ， 该 字段 保存 了 发 送 进程 的 真实 用 户 D. RREZ 
所 以 提供 真实 用 户 ID， 是 因为 其 信息 量 比 之 有 效用 户 ID ENES. PHZ 205 节 所 述 关 于 信 
导 发 送 的 权限 规则 ， 如 果 有 效用 户 ID 授予 发 送 者 发 送信 号 的 权力 ， 那 么 发 送 方 的 用 户 ID 必 
须要 么 为 0〈 特 权 级 用 户 )， 要 么 与 接收 进程 的 真实 用 户 ID 或 者 保存 设置 用 户 ID (saved 
set-user-ID) 相 同 。 这 时 ， 接 收 者 了 解 发 运 者 的 真实 用 户 ID 束 很 有 用 ， 因 为 它 有 可 能 不 同 于 有 
效用 户 ID 例如， 如 果 发 送 者 是 一 个 set-user-ID 程序 )。 


s| errno 
如 果 将 该 字段 置 为 非 0 值 ， 则 其 所 包含 为 一 错误 写 〈 类 似 errno)， 标 志 信 号 的 产生 原因 。 
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Linux 通 和 不 使 用 该 字段 。 
si addr 

仅 针对 由 硬件 产生 的 SIGBUG、SIGSEGV、SIGILL 和 SIGFPE 信号 设置 该 字段 。 对 于 
SIGBUS 和 SIGSEGV 而 言 ， 该 字段 内 含 引发 无 效 内 存 引用 的 地 址 。 对 于 SIGILL 和 SIGFPE 
信号 ， 则 包含 导致 信号 产生 的 程序 指令 地 址 。 

以 下 各 字段 均 属 非 标准 的 Linux 扩展 ， 仅 当 POSIX 定时 器 (23.6 节 ) 到 期 而 产生 信号 传 
XS | E: 

















si timerid 
内 含 供 内 核 内 部 使 用 的 ID， 用 以 标识 定时 器 。 
si overrun 





设置 该 字段 为 定时 器 的 溢出 次 数 。 
仅 当 收 到 SIGIO 信号 (63.3 50 时 ， 才 会 设置 下 面 两 个 字段 。 





si band 
该 字段 包含 与 VO 事件 相关 的 “ 带 事件 ” 值 。( 直 到 glibc 2.3.2, si band 的 类 型 都 是 int 型 。) 
si fd 


该 字段 包含 与 IO 事件 相关 的 文件 插 述 符 编写 。SUSv3 并 未 定义 这 一 字段 ， 不 过 许多 其 
他 实现 都 予以 了 文 持 。 

仅 当 收 到 SIGCHLD 信号 (26.3 节 ) 时 ， 才 会 对 以 下 各 字段 进行 设置 。 
Si status 

该 字段 包含 子 进程 的 退出 状态 ( 当 si code-CLD. EXITED 时 ) 或 者 发 给 子 进程 的 信号 纺 
*y CHI 26.1.3 节 所 述 终止 或 停止 子 进 程 的 信号 编号 )。 
si utime 

该 字段 包含 子 进 程 使 用 的 用 户 CPU 时 间 。 在 版 本 2.6 以 前 ， 以 及 2.6.27 以 后 的 内 核 版 本 
中 ， 对 该 字段 的 度量 以 系统 时 钟 滴 答 除 以 sysconf (_ SC_CLK_TCK) 的 返回 值 作为 基本 单位 。 而 
在 版 本 2.6.27 之 前 的 2.6 内 核 中 则 存在 bug, 该 字段 在 报告 时 间 时 采用 的 度量 单位 为 (可 由 用 户 配 
LJ) jiffy (10.6 55. SUSv3 没有 定义 该 字段 ， 但 许多 其 他 实现 都 子 以 文 持 。 
























































si_stime 

该 字段 包含 了 子 进程 使 用 的 系统 CPU 时 间 。 可 参考 对 si_utime 的 描述 。 同 样 ，SUSv3 并 
未 定义 该 字段 ， 不 过 许多 其 他 实现 都 予以 文 持 。 

si code 字段 提供 了 关于 信和 号 来 源 的 更 多 信息 ， 其 值 如 表 21-2 所 示 。 表 中 第 2 列 列 出 的 信 
号 特有 值 (特别 是 由 硬件 产生 的 4 种 信号 : SIGBUS、SIGSEGV、SIGILL 和 SIGFPE) 不 会 悉 
数 现 喘 于 所 有 的 UNIX 实现 以 及 硬件 架构 之 上 一 一 尽管 Linux 定义 了 所 有 常量 ， 而 且 SUSv3 
也 定义 了 其 中 的 大 部 分 。 

关于 表 21-2 中 所 示 各 值 ， 还 需 注 意 以 下 几 点 附加 说 明 。 

e {E SI KERNEL 和 SLSIGIO 为 Linux MA, ERIR SUSv3 定义 ， 也 未 获 其 他 UNIX 

实现 文 持 。 
e SI SIGIO 仅 在 Linux2.2 中 用 到 。 自 内 核 2.4 起 ，Linux 转 而 采用 表 中 的 POLL _* 常 量 。 
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"S 


X 21-2: 


SI ASYNCIO 异步 IJO (AIO) 操作 已 经 完成 


从 内 核发 送 〈 例 如 ， 来 自 于 终端 驱动 程序 的 信号 ) 


消息 到 达 POSIX JH ANY) A Linux 2.6.6) 
SI QUEUE 利用 sigqueueQ JH P HER HII SERE fs 
任意 (所 有 ) — | 
SIGIO 信号 〈 仅 Linux 2.2 支持 ) 


SIGBUS 硬件 内 存 错 误 ， 动 作为 可 选 〈 自 Linux 2.6.32) 
|BUS MCEERR AR | MCEERR AR |BUS MCEERR AR | 硬件 内 在 昔 误 ， 动 作为 必需 (A Linux 2.6.32) 


对 象 特 有 的 硬件 错误 


CLD CONTINUED 因 SIGCONT 信号 ， 子 进程 得 以 继续 执行 〈 目 Linux 2.6.9) 
|CLD DUMPED — | DUMPED |CLD DUMPED — — | 子 进程 异常 终止， 并 产生 核心 转 储 
CLD EXITED 子 进 程 退 出 

SIGCHLD 
































|CLD KILLED — KILLED CLD_KILLED | 子 进程 异常 终止， 日 不 产生 核心 转 储 


无 效 的 浮 点 操作 

浮 点 结果 不 精确 
SIGFPE - 

协 处 理 器 错误 
SIGILL 
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LO 错误 


设备 断 开 
SIGIO 输入 消息 有 效 
POLL OUT 输出 绥 冲 区 有 效 


SEGV ACCERR 映射 对 象 的 无 效 权 限 
Srov 

DE MAPERR 未 映射 为 对 象 的 地 址 
SIGTRAP 


| TRAP HMBKPT —— HWBKPT | TRAP HWBKPT | BEENI 点 /监测 点 





TRAP TRACE 进程 跟 踩 陷入 


SUSv4 定义 了 功用 与 psignal0 (20.8 33) 相仿 的 psiginfoQ RZ. RAŽ psiginfoO'ri A VÀ 

个 参数 ， 分 别 是 指 问 siginfo t 结构 的 指针 和 一 个 消 奶 字符 串 。 该 函数 在 标准 错误 设备 上 和 输 

HFI RRA, RA RMA F siginfo t 结构 中 的 信号 信息 。glibc H 2.10 版 开始 提供 

psiginfo0 函 数 。 glibc 实现 会 显示 信和 号 的 摘 述 信息 及 来 源 〈 根 据 si_code 学 段 所 示 )， 对 于 某 

些 信 号 ， 还 会 列 出 siginfo t 结构 中 的 其 他 字段 。 函 数 psiginfo0 是 SUSv4 中 的 新 】， 并 非 所 
^ RSCUT EXE. 

















参数 ucontext 


以 SA. SIGINFO frss Pr elc my m MBPS HE —7 2 3X E ucontext, — 38 I8 
ucontext t 类 型 结构 〈 定 义 于 <ucontexth>) 的 指针 。( 因 为 SUSv3 JEZR BUE AZ SUP FE fT 2H 
节 ， 所 以 将 其 定义 为 void 类 型 指针 。) 该 结构 提供 了 所谓 的 用 户 上 下 文 信息 ， 用 于 摘 述 调用 
言 写 处 理 器 水 数 前 的 进程 状态 ,其 中 包括 上 一 个 进程 信号 撼 码 以 及 寄存 器 的 保存 值 , 例如 程 
序 计数 器 (cp) 和 栈 指 针 寄 存 器 (sp)。 信 号 处 理 器 函数 很 少 用 到 此 类 信息 ， 所 以 此 处 也 略 
而 不 论 。 











使 用 结构 ucontext t 的 其 他 函数 有 getcontext(), makecontext(). setcontext() N swapcontext(), 
分 别 对 应 的 功能 是 允许 进程 去 接收 、 创 建 、 改 变 以 及 交换 执行 上 下 文 。( 这 些 操 作 有 点 类 似 
于 setmpO 和 longjmpO， 但 更 为 通用 .可 以 使 用 这 些 函 数 来 实现 协 程 〈coroutines)， 令 进 
程 的 执行 线程 在 两 个 〈 或 多 个 ) 函数 之 间 交 蔡 。SUSv3 规定 了 这 些 函 数 ， 但 将 它们 标记 为 
己 废止 。SUSv4 则 将 其 删 去 ， 并 建议 使 用 POSIX 线程 来 重 写 旧 有 的 应 用 程序 。glibc 手册 页 
提供 了 关于 这 些 函 数 的 深入 信息 
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21.5 ”系统 调用 的 中 上 断 和 重 局 


考虑 如 下 场景 。 
. 为 某 信和 与 创建 处 理 右 函数 。 
2. 发 起 一 个 阻塞 的 系统 调用 (blocking system call)， 例 如 ， 从 终端 设备 调用 的 read0 就 会 阻 
埠 到 有 数据 输入 为 止 。 
3. 当 系 统 调用 站 到 阻塞 时 ， 之 前 创建 了 处 理 喜 函数 的 信号 传递 了 过 来 ， 随 即 引 发 对 处 理 器 函 
数 的 调用 。 
言 号 处 理 器 返回 后 叉 会 发 生 什 么 ? SRBATEROU. ASSURER. 3ff erno Ey EINTR. 
这 是 一 种 有 用 的 特性 。23.3 而 将 会 措 述 如 何 使 用 定时 髓 “〈 会 产生 SIGALRM 信号 ) 来 设置 像 
read0 之 类 阻 竖 系统 调用 的 超时 。 
不 过 ， 更 为 第 见 的 情况 是 希望 遭 到 中 断 的 系统 调用 得 以 继续 运行 。 为 此 ， 可 在 系统 调用 
遭 信号 处 理 器 中 断 的 事件 中 ， 利 用 如 下 代码 来 手动 重 局 系统 调用 。 


while ((cnt = read(fd, buf, BUF SIZE)) == -1 8& errno -- EINTR) 
continue; /* Do nothing loop body */ 














if (cnt -- -1) /* read() failed with other than EINTR */ 
errExit("read"); 

如 果 需 要 频繁 使 用 上 述 代 码 ， 那 么 定义 成 如 下 宏 会 很 方便 : 

#define NO EINTR(stmt) while ((stmt) == -1 88 errno == EINTR); 

使 用 该 宏 ， 可 以 将 早先 对 read0 的 调用 改写 如 下 : 

NO EINTR(cnt = read(fd, buf, BUF SIZE)); 








if (cnt == -1) /* read() failed with other than EINTR */ 
errExit("read"); 


GNU C 库 提 供 了 一 个 〈 非 标准 ) ZZ, 其 作用 与 定义 于 <unistdh> 中 的 NO_EINTRO 相 同 。 
该 安 名 为 TEMP. FAILURE RETRY(, E X RrTESI AZ: GNU. SOURCE 后 即 可 使 用 。 











即使 采用 了 类 似 NO_EINTRO 这 样 的 宏 , 让 信和 号 处 理 器 来 中 断 系统 调用 还 是 颇 为 不 便 ， 因 
为 只 要 有 意 重启 阻塞 的 调用 ， 就 需要 为 每 个 阻塞 的 系统 调用 添加 代码 。 反 之 ， 可 以 调用 指定 
了 SA RESTART 标志 的 sigaction() 来 创建 信号 处 理 器 函数 ， 从 而 令 内 核 代 表 进 程 目 动 重启 系 
统 调 用 ， 还 无 害处 理 系 统 调用 可 能 返回 的 EINTR 错误 。 

标志 SA_RESTART 是 针对 每 个 信号 的 设置 。 换 言 之 ， 人 允许 某 些 信号 的 处 理 器 函数 中 断 阻 
塞 的 系统 调用 ， 而 其 他 系统 调用 则 可 以 目 动 重启 。 





SA RESTART 标志 对 哪些 系统 调用 〈 和 库 函 数 ) 有 效 


不 对 的 是 ， 并 非 所 有 的 系统 调用 都 可 以 通过 指定 SA_RESTART 来 达到 上 自动 重 局 的 目的 。 
究 其 原因 ， 有 部 分 历史 因素 。 
e 4.2BSD 引入 了 重 局 系统 调用 的 概念 ， 包 括 中 断 对 wait0 和 waitpidO 的 调用 ， 以 及 如 下 
IO 系统 调用 : read0、readv0、write0 和 阻塞 的 ioc) ef E. VO 系统 调用 都 是 可 中 断 的 ， 
所 以 只 有 在 操作 “ 慢 速 (slow)” 设 备 时 ， 才 可 以 利用 SA_RESTART piak E 57] d Jn Vid 
用 。 慢 速 设备 包括 终端 (terminal)、 管 道 (pipe), FIFO 以 及 套 接 字 (socket)。 对 于 这 
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些 文件 类 型 ， 各 种 IO 操作 都 有 可 能 堵塞 。( 相 比 之 下 ， 磁 盘 文件 并 未 沦 入 慢 速 设备 之 
列 , 因为 借助 于 组 冲 区 局 速 缓存 , 磁盘 IO 请 求 一 般 都 可 以 立即 得 到 满足 。 当 出 现 磁 盘 VO 
请 求 时 ， 内 核 会 令 该 进程 休眠 ， 直 至 完成 VO 动作 为 止 。) 

其 他 大 量 阻塞 的 系统 调用 则 继承 自 System V, 在 其 初始 设计 中 并 未 提供 重启 系统 调用 
的 功能 。 

















在 Linux 中 ， 如 果 采 用 SA_RESTART 标志 来 创建 系统 处 理 器 函数 ， 则 如 下 阻塞 的 系统 调用 
(以 及 构建 于 其 上 的 库 函 数 ) 在 遭 到 中 断 时 是 可 以 目 动 重启 的 。 





用 来 等 待 子 进程 (26.1 节 ) 的 系统 调用 : waitO. waitpid). wait30. wait40Wl waitid()。 
访问 慢 速 设备 时 的 IO 系统 调用 : read()、readv()、write()、writevO 和 ioctl()。 如 果 在 
收 到 信和 号 时 已 经 传递 了 部 分 数据 ， 那 么 还 是 会 中 断 输入 输出 系统 调用 ， 但 会 返回 成 功 
状态 : 一 个 整 型 值 ， 表 示 已 成 功 传递 数据 的 字数 。 

系统 调用 open0， 在 可 能 阻塞 的 情况 下 《〈 例 如， 如 44.7 节 所 述 ， 在 打开 FIFO 时 )。 
用 于 套 接 衬 的 各 种 系统 调用 : acceptO 、accept(0、connectO 、send(O、sendmsgO、sendtoO)、 
recv(O、recvfrom0 和 recvmsg()。( 在 Linux 中 ， 如 果 使 用 setsockoptO 来 设置 超时 ， 这 
些 系 统 调 用 残 不 会 目 动 重 司 。 更 多 细 下 请 参考 signal(7) 手 册页 。) 

对 POSIX 消息 队列 进行 UO 操作 的 系统 调用 : mq receiveO. mq timedreceive(. 
mq_send0 和 mq. timedsend(. 

用 于 设置 文件 锁 的 系统 调用 和 库 函 数 : flockO、fcntO0 和 lockfO。 

Linux 特有 系统 调用 futex0 的 FUTEX, WAIT 操作 。 

用 于 递减 POSIX 信和 号 量 的 sm_wait0 和 sem_timedwaitO 函 数 。( 在 一 些 UNIX 实现 上 ， 
如 果 设 置 了 SA_RESTART 标志 ，sem_waitO 就 会 重启 。) 

用 于 同步 POSIX 线程 的 图 数 : pthread mutex lock(. pthread mutex trylock(), pthread - 
mutex_timedlock()、pthread_cond_wait() 和 pthread. cond timedwait(). 
































WA 2.622 之 前 ， 不 管 是 否 设置 了 SA RESTART fus, futex0. sem waitO/Ml sem - 
timedwaitO 间 到 中 断 时 总 是 产生 EINTR 错误 。 

以 下 阻 窟 的 系统 调用 (以 及 构建 于 其 上 的 库 函 数 ) 则 绝 不 会 目 动 重 启 〈 即 便 指 定 了 
SA _ RESTART), 








pollO. ppoll(), selectOAI pselect0 这 些 IO 多 路 复 用 调用 。(SUSv3 明文 规定 ， 无 论 设 置 
SA RESTART 标志 与 个， 者 不 对 select0 和 pselectO 遭 处 理 器 函数 中 断 时 的 行为 进行 定义 。) 
Linux 特有 的 epoll_wait() 和 epoll_pwait0 系 统 调用 。 

Linux 特有 的 io. geteventsO z& Zt Ji] HJ « 

操作 System V 消息 队列 和 信号 量 的 阻塞 系统 调用 : semopO. semtimedopO. msgrcvO 
和 msgsnd0。( 虽 然 System V 原本 并 未 提供 目 动 重 司 系统 调用 的 功能 ， 但 在 某 些 UNIX 
实现 上 上， 如果 设置 了 SA_RESTART 标志 ， 这 些 系 统 调用 还 是 会 日 动量 局 。) 

对 inotify 文件 摘 述 和 从 发 起 的 readO 8 H] - 

用 于 将 进程 挂 起 指定 时 间 的 系统 调用 和 库 函 数 : sleep0、nanosleepO0 和 clock nanosleepO. 
特意 设计 用 来 等 竺 某 一 信号 到 达 的 系统 调用 : pause()、sigsuspend()、sigtimedwait() 和 
sigwaitinfo(). 























为 信号 修改 SA RESTART 标志 


PK 


数 SiginterruptO 用 于 改变 信号 的 SA_RESTART 设置 。 
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include «signal.h» 


int siginterrupt(int sig, int flag); 


Returns 0 on success, or -1 on error 








HEK flag JE (1)， 则 针对 信和 号 sig HAREE ASK RO S P RE REUS HIJA. Ul 
A flag 为 假 40)， 那 么 在 执行 了 sig MAREAS KAUZE R BS EUH PER AEH o 

FAX. siginterruptO 的 工作 原理 是 : 调用 sigactionO 获 取信 与 当前 处 置 的 副本 ， 调 整 目 结构 
oldact 中 返回 的 SA_RESTART 标志， 接 看 再 次 调用 sigactionQ2K SUgrfei ^s kb BL. 

SUSv4 标记 sigterruptO 为 已 上 废止， 并 推荐 使 用 sigactionO) 加 以 玲 代 。 











对 于 某 些 Linux 系统 调用 ， 未 处 理 的 停止 信号 会 产生 EINTR 错误 


在 Linux 上 ， 即 使 没有 信和 号 处 理 器 函数 ， 某 些 阻塞 的 系统 调用 也 会 产生 EINTR 错误 。 如 
果 系 统 调用 遭 到 阻塞 ， 并 且 进 程 因 信 号 (SIGSTOP、SIGTSTP、SIGTTIN 或 SIGTTOU) ) 而 停 
止 ， 之 后 义 因 收 到 SIGCONT 信号 而 恢复 执行 时 ， 融 会 发 生 这 种 情况 。 

以 下 系统 调用 和 函数 具有 这 一 行为 ，epoll_pwait()、epoll_wait()、 对 inotify 文件 描述 符 执 
行 的 read0 调 用 、semopO、semtimedopO、sigtimedwaitOD 和 sigwaitinfo()。 

Wf 2.6.24 之 前 ，poll0 也 曾 存 在 这 种 行为 ，2.6.22 Z BH] sem wait(. sem timedwait(), 
futex(FUTEX. WAIT), 2.6.9 之 前 的 msgrcvO0 和 msgsnd0， 以 及 Linux 2.4 及 其 之 前 的 nanosleepO 
也 同样 如 此 。 

ft Linux 2.4 及 其 之 前 的 版 本 中 , 也 可 以 以 这 种 方式 来 中 断 sleep), 但 是 不 会 返回 错误 值 ， 
而 是 返回 休眠 押 剩 余 的 秒 数 。 

这 种 行为 的 结 打 是 ， 如 果 程 序 可 能 因 信和 号 而 俘 止 和 重 局， 那么 瓯 需要 添加 代码 来 重新 局 
动 这 些 系统 调用 ， 即 便 该 程序 并 未 为 俘 止 信号 设置 处 理 器 函数 。 





















































21.6 &ü 


本 章 讨 论 了 影 啊 信 号 处 理 器 函数 操作 与 设计 的 一 系列 因素 。 

由 于 没有 对 信和 号 排队 ， 故 而 在 为 处 理 器 编码 时 ， 有 时 必须 要 考虑 特定 类 型 信号 多 次 发 生 
的 可 能 性 ， 即 使 之 前 信号 只 产生 过 一 次 。 可 重 入 问题 会 影响 到 对 全 局 变量 的 修改 方式 ， 还 限 
制 了 可 从 信号 处 理 器 函数 中 安全 调用 的 函数 光 围 。 

除了 返回 乙 外 ， 信 号 处 理 器 函数 的 终止 还 存在 多 种 其 他 方法 ， 其 中 包括 : WH exitO, Ax 
送信 号 来 终止 进程 CkillO,. raiseQ EX abort0 )， 或 者 执行 非 本 地 跳 转 。 借 助 于 sigsetjmpO 〇 和 
siglongjmp()， 可 以 在 执行 非 本 地 跳 转 时 为 程序 提供 处 理 信号 掩 码 的 显 式 控 制 手段 。 

可 以 使 用 sigaltstackO 来 为 进程 定义 备 选 信号 栈 。 这 是 调用 信号 处 理 克 图 数 时 ， 用 来 符 代 
标准 进程 栈 的 一 块 内 存 。 当 标准 栈 因 增长 过 大 (内 核 会 在 此 时 向 进程 发 送 SIGSEGV 信号) 而 
消耗 至 尽 时 ， 备 选 栈 驶 特别 有 用 。 

如 果 在 调用 sigaction0 时 设置 了 SA, SIGINFO 标志 ， 那 么 所 创建 的 信号 处 理 器 函数 就 能 接 
收 信号 的 附加 信息 。siginfo_t 结构 提供 了 这 些 信 息 ， 其 地 址 则 传递 给 信号 处 理 器 作为 参数 。 

如 条 信号 处 理 器 函数 中 断 了 阻塞 的 系统 调用 ， 系 统 调用 会 产生 EINTR 错误 。 利 用 这 种 特 
性 ， 就 可 以 为 阻塞 的 系统 调用 设置 一 个 定时 器 。 如 果 有 意 ， 可 以 手动 重启 遭 到 中 断 的 系统 调 
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用 。 万 外 ， 在 调用 sigactionO JENE s &EPESSPEZAUN, "DW S SA RESTART Pis HA 
大 部 分 《但 非 全 部 ) 系统 调用 都 将 会 日 动 重 司 。 


更 多 信息 
参考 20.15 节 所 列 信息 来 源 。 


o 








21.7 练习 


21.1. 实现 abort(), 
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下 所 示 。 


。 核心 转 储 文件 。 

e 与 信号 的 传递 、 处 置 及 处 理 相 关 的 特殊 情况 。 

e 信号 的 同步 产生 和 弄 步 产 生 。 

。 信号 的 传递 时 机 及 传递 顺序 。 

。 信号 处 理 右 函数 对 系统 调用 的 中 断 ， 以 及 如 何 目 动 重启 遭 到 中 断 的 系统 调用 。 
。 实时 信号 。 

* 用 sigsuspend() 来 设置 进程 信号 掩 公 并 每 竺 信号 到 达 。 

e 用 sigwaitinfo() (和 sigtimedwaitQ) 同步 等 待 信号 到 达 。 

。 用 signalfd0 从 一 个 文件 描述 符 中 接收 信和 号。 

e WEI BSD hin API 和 System V 版 信和 与 API. 




















22.1 核心 转 储 文件 














特定 信和 号 会 引发 进程 创建 一 个 核心 转 储 文件 并 终止 运行 《参考 表 20-1)。 所 谓 核 心 转 储 十 





内 含 进程 终止 时 内 存 映 像 的 一 个 文件 。( 术 语 core 源 于 一 种 老 迈 的 内 存 技术 。) 将 该 内 存 映 像 
加 载 到 调试 硕 中 ， 即 可 奋 明 信号 到 达 时 程序 代码 和 数据 的 状态 。 

















引发 程序 生成 核心 转 储 文件 的 方式 之 一 是 键入 退出 字符 (通常 为 Control\)， 从 而 生成 


SIGQUIT 信号。 


370 


$ ulimit -c unlimited Explained in main text 

$ sleep 30 

Type Control\ 

Quit (core dumped) 

$ ls -l core Shows core dump file for sleep(1) 
-IW------- 1 mtk users 57344 Nov 30 13:39 core 


本 例 中 ， 当 检测 出 子 进 程 〈 运 行 sleep 命令 的 进程 ) 为 SIGQUIT 信号 所 杀 ， 并 生成 核心 
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转 储 文件 时 ，shell 会 显示 “Quit (core dump)" JH E. 
核心 转 储 文 件 创建 于 进程 的 工作 目录 中 ， 名 为 core。 这 是 核心 转 储 文 件 的 默认 位 置 和 名 
称 。 和 后 ， 将 解释 如 何 改变 这 些 默 认 值 。 


借助 于 许多 实现 所 提供 的 工具 (例如 FreeBSD 和 Solaris 中 的 gcore)， 可 获取 某 一 正在 
运行 进程 的 核心 转 储 文 件 。Linux 系统 也 有 类 似 功 能 ， 使 用 gdb 去 连接 (attach) 一 个 正在 
运行 的 进程 ， 然 后 运行 gcore 命令 。 





不 产生 核心 转 储 文件 的 情况 

以 下 情况 不 会 产生 核心 转 储 文件 。 

。 进程 对 于 核心 转 储 文 件 没 有 写 权 限 。 造 成 这 种 情况 的 原因 有 进程 对 将 要 创建 核心 转 储 
文件 的 所 在 目录 可 能 没有 写 权 限 ， 或 者 古 因为 存在 同名 ( 且 不 可 写 ， 本 或 非常 规 类 
m", Wn, HRR SER) 的 文件 。 

e 存在 一 个 同名 、 可 写 的 普通 文件 ， 但 指 问 该 文件 的 〈( 便 ) 链接 数 超过 一 个 。 

。 将 要 创建 核心 转 储 文 件 的 所 在 目录 并 不 存在 。 

o 把 进程 “核心 转 储 文件 大 小 ”这 一 资源 限制 置 为 0。36.3 市 将 束 这 一 限制 CRLIMIT CORE) 
进行 许 细 讨论 。 上 例 瓯 使 用 了 ulimit 命令 CC shell FX limit 命令 ) 来 取消 对 核心 转 储 
文件 大 小 的 任何 限制 。 

。 将 进程 “可 创建 文件 的 大 小 ”这 一 资源 限制 设置 为 0。36.3 下 将 摘 述 这 一 限制 
(RLIMIT FSIZE )。 

。 对 进程 正在 执行 的 二 进 制 可 执行 文件 没有 读 权限 。 这 样 就 防止 了 用 户 借助 于 核心 转 储 
文件 来 获取 本 无 法 读 取 的 程序 代码 。 

e 以 只 读 方 式 挂 载 当前 工作 目 孙 所 在 的 文件 系统 ， 或 者 文件 系统 空间 已 满 ， 又 或 者 i-node 
资源 耗 尽 。 还 有 一 种 情况 ， 即 用 户 已 经 达到 其 在 该 文件 系统 上 的 配额 限制 。 

e Set-user-ID (set-group-ID) 程序 在 由 非 文件 属 主 〈 或 属 组 ) 执行 时 ， 不 会 产生 核心 转 
储 文 件 。 这 可 以 防止 恶意 用 户 将 一 个 安全 程序 的 内 存 转 储 出 来 ， 再 针对 诸如 密码 之 类 
的 敏感 信息 进行 刺探 。 





















































dumpable 标志 。 当 非 文 件 属 主 (或 属 组 ) 运行 set-user-ID (set-group-ID) 程序 时 ， 如 设置 
该 标志 即 可 生成 核心 转 储 文件 。PR_SET_DUMPABLE 操作 始 见于 Linux 2.4， 更 多 详细 信息 
参见 prctl(O2) 手 册页 。 另 外 ， 始 于 内 核 版 本 2.6.13， 针 对 set-user-ID 和 set-group-ID 进程 是 否 
产生 核心 转 储 文件 ，/proc/sys/fs/suid_dumpable 文件 开始 提供 系统 级 控制 。 详 情 参见 proc(5) 
TA. 


始 于 内 核 版 本 2.6.23, JH] Linux 特有 的 /proc/PID/coredump filter， 可 以 对 写 入 核心 转 储 
文件 的 内 存 映 射 类 型 〈 第 49 章 将 解释 内 存 映 射 ) 施 以 进程 级 控制 。 该 文件 中 的 值 是 一 个 4 rf 
码 ， 分 别 对 应 于 4 种 类 型 的 内 存 映 射 : 私有 匿名 映射、 私有 文件 映射 、 共 旦 匿名 映射 以 及 共 
享 文件 映射 。 文 件 默认 值 提 供 了 传统 的 Linux 行为 : 仅 对 私有 匿名 映射 和 共享 匿名 映射 进行 转 
ffo TEZI core(5) 手 册页 。 





1 详 者 注 : 指 不 生成 核心 转 储 文件 。 
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为 核心 转 储 文件 命名 : /proc/sys/kernel/core pattern 


从 Linux 版 本 2.6 开始 ， 可 以 根据 Linux 特有 的 /proc/sys/kernel/core pattern 文件 所 包含 的 
格 陈 化 字符 串 来 控制 对 系统 上 生成 的 所 有 核心 转 储 文件 的 命名 。 默 认 情 况 下 ， 访 文件 所 含 字 
从 串 为 core。 特 权 级 用 户 可 以 将 该 文件 内 容 定 义 为 包含 表 22-1 所 列 的 任 一 格式 说 明 符 ， 行 
实际 命名 时 再 以 表 中 右 列 所 示 相 应 值 加 以 替换 。 此 外 ， 人 允许 字符 串 中 包含 斜 线 O. MAZ, 
处 在 控制 范 于 之 内 的 ， 不 仅 包 括 核 心 文件 的 名 称 ， 还 包括 核心 文件 的 所 在 《绝对 或 相对 ) 目 
录 。 蔡 换 所 有 格式 说 明 符 后， 由 此 生成 的 路 径 名 字符 串 长 度 全 多 可 达 128 个 字符 (Linux 2.6.19 
之 前 为 64 个 字符 )， 超 出 部 分 将 予以 鹤 断 。 

Linux 从 内 核 版 本 2.6.19 开始 文 持 core pattern 文件 的 为 一 种 语法 。 如 果 该 文件 包含 一 个 以 
trs OD 为 首 的 学 符 串 ， 那 么 会 将 该 文件 的 剩余 字符 串 视 为 一 个 程序 ， 其 可 选 参数 可 包含 
K 22-1 所 示 的 % 说 明 符 一 一 当 进 程 转 储 核心 文件 时 ， 将 执行 该 程序 。 并 且 会 将 核心 转 储 至 该 
程序 的 标准 输入 ， 而 非 一 个 文件 。 详 情 请 参考 core(5) 手 册页 。 
































其 他 一 些 UNIX 实现 也 提供 了 类 似 于 core pattern 的 机 制 。 例 如 ， 在 BSD 一 派 中 ， 会 
将 程序 名 退 加 到 文件 名 尾部 ， 形 如 core.progname。Solaris 提供 了 一 个 工具 (coreadm)， 人 允许 
由 用 户 来 选择 核心 转 储 文件 的 名 称 和 存放 目录 。 


表 22-1: 服务 于 /proc/sys/kernel/core_pattern 的 文件 说 明 符 


对 核心 文件 大 小 的 资源 软 限 制 〈 字 贡 数 ， 始 于 Linux 2.6.24) 
可 执行 文件 名 (不 含 路 径 前 级 ) 

遭 转 储 进程 的 实际 组 ID 

主机 系统 的 名 称 


齐 转 储 进程 的 进程 ID 
导致 进程 终止 的 信号 编号 
转 储 时 间 ， 始 于 Epoch， 以 秒 为 单位 
齐 转 储 进程 的 实际 用 户 ID 


单个 % 字 符 





222 传递、 处 置 及 处 理 的 特殊 情况 
本 节 讨 论 了 针对 特定 信号 ， 适 用 于 其 传递 、 人 处 置 以 及 处 理 方面 的 特殊 规则 。 


SIGKILL 和 SIGSTOP 


SIGKILL 信号 的 默认 行为 是 终止 一 个 进程 ，SIGSTOP 信号 的 默认 行为 是 停止 一 个 进 
程 ， 二 者 的 默认 行为 均 无 法 改变 。 当 试图 用 signal0 和 sigaction() 来 改变 对 这 些 信号 的 处 置 
时 ， 将 总 是 返回 错误 。 同 样 ， 也 不 能 将 这 两 个 信和 与 阻 旺 。 这 是 一 个 深思 熟 虑 的 设计 决定 。 
不 允许 修改 这 些 信号 的 默认 行为 ,这 也 意味 看 总 是 可 以 利用 这 些 信号 来 杀 死 或 者 停止 一 个 
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失控 进程 。 


SIGCONT 和 停止 信号 


如 前 所 述 ， 可 使 用 SIGCONT 信和 号 来 使 某 些 〈 因 接收 SIGSTOP, SIGTSTP, SIGTTIN 和 
SIGTTOU 信和 号 而 ) 处 于 停止 状态 的 进程 得 以 继续 运行 。 由 于 这 些 停 止 信号 具有 独特 目的 ， 所 
以 在 某 些 情况 下 内 核对 它们 的 处 理 方式 将 有 别 于 其 他 信和 号 。 

如 果 一 个 进程 处 于 停止 状态 ， 那 么 一 个 SIGCONT 信号 的 到 来 总 是 会 促使 其 恢复 运行 ， 即 
使 该 进程 正在 阻塞 或 者 忽略 SIGCONT 信号。 该 特性 之 所 以 必要 ， 是 因为 如 果 要 恢复 这 些 处 于 
停止 状态 的 进程 ， 舍 此 之 外 别 无 他 法 。( 如 果 处 于 停止 状态 的 进程 正在 阻塞 SIGCONT 信号， 并 且 
已 经 为 SIGCONT 信和 号 建立 了 处 理 器 函数 ， 那 么 在 进程 恢复 运行 后 ， 只 有 当 取 消 了 对 SIGCONT 
的 阻塞 时 ， 进 程 才 会 去 调用 相应 的 处 理 器 函数 。) 


如 果 有 任 一 其 他 信号 发 送 给 了 一 个 已 经 停止 的 进程 ， 那 么 在 进程 收 到 SIGCONT 信号 
而 恢复 运行 之 前 ， 信 号 实际 上 并 未 传递 。SIGKILL 信号 则 属于 例外 ， 因 为 该 信号 总 是 会 杀 
死 进程 ， 即 使 进程 目前 处 于 停止 状态 。 


每 当 进 程 收 到 SIGCONT 信号 时 ， 会 将 处 于 等 待 状态 的 停止 信号 丢弃 《 即 进程 根本 不 知道 
这 上 蔡 信和 号)。 相 反 ， 如 朱 任 何 停止 信号 传递 给 了 进程 ， 那 么 进程 将 目 动 丢 弃 任 何 处 于 等 待 状态 
的 SIGCONT 信和 号。 之 所 以 采取 这 上 坚 步 又 ， 意 在 防止 乙 前 发 送 的 一 个 停止 信号 会 在 随后 撤销 
SIGCONT 信和 号 的 行为 ， 反 之 外 然 。 


由 终 疾 产生 的 信号 各 已 被 忽略 ， 则 不 应 改变 其 信号 处 置 

如 果 程 序 在 执行 时 发 现 ， 已 将 对 由 终 问 产 生 信 号 的 处 置 置 为 了 SIG IGN (忽略 )， 那 么 程 
序 通常 不 应 试图 去 改变 信和 号 处 置 。 这 并 非 系 统 的 便 性 规定 ， 而 是 编写 应 用 程序 时 所 应 遵循 的 
惯例 ，34.7.3 市 将 解释 其 理由 。 与 之 相关 的 信号 有 : SIGHUP、SIGINT、SIGQUIT、SIGTTIN、 
SIGTTOU 和 SIGTSTP。 
















































































22.3 可 中 上 断 和 不 可 中 上 断 的 进程 睡眠 状态 


前 文 曾 指出 ，SIGKILL 和 SIGSTOP 信号 对 进程 的 作用 是 立竿见影 的 。 对 于 这 一 论断 ， 此 
处 要 加 入 一 条 限制 。 内 核 经 常 需要 令 进 程 进 入 休眠 ， 而 休眠 状态 又 分 为 两 种 。 
e TASK INTERRUPTIBLE: 进程 正在 等 待 采 一 事件 。 例 如 ， 正 在 等 竺 终 疹 输 入 ， 等 行 
数据 写 入 当前 的 空 管道 ,或 者 等 待 System V 信号 量 值 的 增加 。 进 程 在 该 状态 下 所 耗费 
的 时 间 可 长 可 短 。 如 果 为 这 种 状态 下 的 进程 产生 一 个 信号 ， 那 么 操作 将 中 断 ， 而 传递 来 
的 信号 将 唤醒 进程 。ps(1) 命 令 在 显示 处 于 TASK INTERRUPTIBLE 状态 的 进程 时 ， 会 
HI STAT CHERS) 字段 标记 为 字母 S。 
。 TASK_UNINTERRUPTIBLE: 进程 正在 等 待 某 些 特定 类 型 的 事件 ， 比 如 磁盘 VO 的 完 
成 。 如 果 为 这 种 状态 下 的 进程 产生 一 个 信号 ， 那 么 在 进程 摆脱 这 种 状态 之 前 ， 系 统 将 
不 会 把 信号 传递 给 进程 。ps() 命 令 在 显示 处 于 TASK UNINTERRUPTIBLE 状态 的 进 
程 时 ， 会 将 其 STAT 字段 标记 为 字母 D。 
因为 进程 处 于 TASK UNINTERRUPTIBLE 状态 的 时 间 通 第 转瞬 即 逝 ， 所 以 系统 在 进程 及 
离 该 状态 时 传递 信号 的 现象 也 不 易于 被 发 现 。 然 而 ， 在 极 少数 情况 下 ， 进 程 可 能 会 因 硬 件 故 
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B. NFS 问题 或 者 内 核 缺 陷 而 在 该 状态 下 保持 排 起 。 这 时 ，SIGKILL 将 不 会 终止 挂 起 进程 。 
如 果 问 题 诱因 无 法 得 到 解决 ， 那 么 束 只 能 通过 和 草 启 系统 来 消炎 该 进程 。 
大 多 数 UNIX 系 统 实现 都 支持 TASK INTERRUPTIBLE 和 TASK UNINTERRUPTIBLE 状态。 
从 内 核 2.6.25 开始 ，Linux 加 入 第 三 种 状态 来 解决 上 述 挂 起 进程 的 问题 。 
e TASK KILLABLE: 该 状态 类 似 于 TASK UNINTERRUPTIBLE， 但 是 会 在 进程 收 到 
一 个 致命 信号 〈 即 一 个 杀 死 进程 的 信号 ) 时 将 其 唤醒 。 在 对 内 核 代 人 码 的 相关 部 分 进行 
改造 后 ， 束 可 使 用 该 状态 来 避免 各 种 因 进 程 挂 起 而 重启 系统 的 情况 。 这 时 ， 癌 进程 发 
送 一 个 致命 信号 就 能 杀 死 进程 。 为 使 用 TASK KILLABLE 而 进行 代码 改造 的 首 个 内 
核 模块 是 NFS。 

















22.4 人 硬件 产生 的 信和 号 


硬件 异常 可 以 产生 SIGBUS、SIGFPE、SIGILL， 和 SIGSEGV 信号 ， 调 用 Kill0 函 数 来 发 送 
此 类 信和 号 是 另 一 种 途径 ， 但 较为 少见 。SUSv3 规定 ， 在 硬件 异常 的 情况 下 ， 如 果 进 程 从 此 类 信 
写 的 处 理 占 函数 中 返回 ， 亦 或 进程 忽略 或 阻 寨 了 此 类 信号 ， 那么 进程 的 行为 未 定义 。 原 因 如 下 。 

e 从 信号 处 理 器 中 返回 : 假设 机 器 语言 指令 产生 了 上 述 信 号 之 一 ， 并 因此 而 调用 了 信和 号 
处 理 器 水 数 。 当 从 处 理 器 疯 数 正常 返回 后 ， 程 序 会 尝试 从 其 中 断 处 恢复 执行 。 可 当初 
引发 信号 产生 的 恰恰 正 是 这 条 指令 ， 所 以 信号 会 再 次 “光临 >”。 故事 的 结局 通常 是 ， 
程序 进入 无 限 循环 ， 重 复 调 用 信和 号 处 理 器 函数 。 

e 忽略 信号 : 忽略 因 硬 件 而 产生 的 信号 于 情理 不 合 ， 试 想 算 术 异 常 之 后 ， 程 序 应 当 如 何 
继续 执行 呢 ? 无 法 明确 。 当 由 于 便 件 异常 而 产生 上 述 信号 之 一 时 ，Linux 会 强制 传递 
信和 号， 即使 程序 已 经 请 求 忽略 此 类 信号 。 

e 阻塞 信和 与 。 与 上 一 种 情况 一 样 ， 阻 窜 因 人 硬件 而 产生 的 信号 也 不 合 情 理 : 不 清楚 程序 随 
后 应 当 如 何 继 续 执行 。 在 2.4 以 及 更 早 的 版 本 中 ，Linux 内 核 仅 会 将 阻塞 硬件 产生 信和 号 
的 种 种 企图 一 一 忽略 ， 信 号 无 论 如 何 都 会 传递 给 进程 ， 随 后 要 么 进程 终止 ， 要么 信号 
处 理 器 会 捕获 信号 一 一 在 程序 安装 有 信号 处 理 器 的 情况 下 。 始 于 Linux 2.6， 如 果 信 和 号 
遭 到 阻塞， 那么 该 信号 总 是 会 立刻 杀 死 进程 ， 即 使 进程 已 经 为 此 信号 安装 了 人 处理 器 印 
数 。( 对 于 因 硬 件 而 产生 的 信号 ，Linux 2.6 之 所 以 会 改变 对 其 处 于 阻塞 状态 下 的 处 理 
方式 ， 是 由 于 Linux 2.4 的 行为 中 隐藏 有 缺陷 ， 并 可 能 在 多 线程 程序 中 引起 死 锁 。) 






















































































随 本 书 发 布 源码 中 的 signals/demo SIGFPE.c 程序 束 展 示 了 忽略 或 者 阻 蛙 SIGFPE 信号 
的 后 末 ， 或 者 可 正 第 返回 的 处 理 右 将 其 捕获 的 结 





正人 确 处 理 便 件 产 生 信和 号 的 方法 有 二 : 要 么 接受 信号 的 默认 行为 (进程 终止 ); 要 么 为 其 编 
写 不 会 正常 返回 的 处 理 器 消 数 。 除 了 正常 返回 之 外 ,终结 处 理 器 执行 的 手段 还 包括 调用 _exit() 
以 终止 进程 ， 或 者 调用 siglongjmp() (21.2.1 155, 确保 将 控制 传递 回程 序 中 (产生 信号 的 指令 
位 置 之 外 ) 的 某 一 位 置 。 


22.5 ”信号 的 同步 生成 和 异步 生成 


前 文 已 然 论 及 ， 进 程 一 般 无 法 预测 其 接收 信和 写 的 时 间 。 要 证 实 这 一 点 ， 需 要 对 信号 的 同 
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截止 目前 所 探讨 的 均 属于 信和 号 的 腊 步 生 成 ， 即 引发 信 写 产生 无论 信 号 发 送 者 是 内 核 还 
征 万 一 进程 ) 的 事件 ， 其 发 生 与 进程 的 执行 无 天 。( 例 如 ， 用 户 输入 中 断 字 人 符 ， 或 者 子 进 程 终 
止 。) 对 于 异步 产生 的 信号 ， 本 布 起 始 处 的 论断 并 非 虚 言 。 

然而 ， 有 时 候 信 号 的 产生 是 由 进程 本 吴 的 执行 造成 的 ， 前 面 束 曾 提 及 两 个 这 样 的 例子 。 

。 执行 特定 的 机 器 语言 指令 ,可 导致 便 件 异 癌 ,并 因此 而 产生 22.4 节 所 述 的 便 件 产生 信 

*y (SIGBUS, SIGFPE, SIGILL, SIGSEGV 和 SIGEMT )。 

。 进 和 在 可 以 使 用 raiseO0、Kill0 或 者 KillpgOI8] HH ELE f 5 e 

在 这 些 情 况 下 ， 信 号 的 产生 就 是 同步 的 一 一 会 立即 传递 信号 《除非 该 信号 遭 到 阻塞 ， 但 
还 要 参考 22.4 市 就 阻 喉 便 件 产生 信号 而 展开 的 讨论 )。 换 言 之 , 本 节 开 始 处 的 论断 则 并 不 成 立 。 
对 于 同步 产生 的 信号 而 言 ， 其 传递 不 但 可 以 预测 ， 而 且 可 以 重 现 。 

注意 ， 同 步 是 对 信号 产生 方式 的 描述 ， 并 不 针对 信号 本 喘 。 所 有 的 信号 既 可 以 同步 产生 《〈 例 
如 ， 进 程 使 用 KillO 辐 目 身 发 送信 号 )， 也 可 以 异步 产生 《例如 ， 由 马 一 进程 使 用 kill0 来 发 送信 和 号)。 


22.6 ”信号 传 速 的 时 机 与 顺序 


本 市 的 主题 有 二 。 其 一 ， 具 体 于 何 时 去 传递 一 个 处 于 等 行 状态 的 信号 ; 其 二 ， 对 于 多 个 
遭 到 阻塞 ， 且 处 于 等 竺 状态 的 信号 一 旦 同时 解除 阻塞 ， 将 会 发 生 什 么 情况 ? 


何 时 传递 一 个 信和 号? 

如 22.5 节 所 述 ， 同 步 产生 的 信号 会 立即 传递 。 例 如 ， 硬 件 异 常会 触发 一 个 即时 信号 ， 而 当 
进程 使 用 raiseO0 回 目 身 发 送信 号 时 ， 信 号 会 在 raiseO 调 用 返回 前 天 已 经 发 出 。 

当 开 步 产 生 一 个 信号 时 ， 即 使 并 未 将 其 阻塞 ， 在 信号 产生 和 实际 传递 之 间 仍 可 能 会 存在 
一 个 《瞬时 ) 延迟 。 在 此 期 间 ， 信 和 号 处 于 等 和 状 态 。 这 是 因为 内 核 将 等 竺 信和 号 传递 给 进程 的 
时 机 是 ， 该 进程 正在 执行 ， 且 发 生 由 内 核 态 到 用 户 态 的 下 一 次 切换 时 。 实 际 上 ， 这 意味 痢 在 
以 下 时 刻 才 会 传递 信号 。 

。 进程 在 前 度 超 时 后 ， 和 再度 获 得 调度 时 《“ 即 ， 在 一 个 时 间 毛 的 开始 处 )。 

。 系统 调用 完成 时 《信和 号 的 传递 可 能 引起 正在 阻 终 的 系统 调用 过 早 完 成 )。 


解除 对 多 个 信号 的 阻塞 时 ， 信 号 的 传递 顺序 

如 果 进 程 使 用 sigprocmask() 解 除了 对 多 个 每 得 信号 的 阻塞 ， 那 么 所 有 这 些 信号 会 并 即 传 
递 给 该 进程 。 

S.H ATHY Linux 实现 而 言 ，Linux 内 核 按照 信号 编号 的 升序 来 传递 信号 。 例 如 ， 如 果 对 处 
于 等 待 状态 的 信号 SIGINT 〈 信 和 号 编号 为 2) 和 SIGQUIT (信号 编号 为 3) 同时 解除 阻塞 ， 那 
么 无 论 这 两 个 信号 的 产生 次 序 如 何 ，SIGINT 都 将 先 于 SIGQUIT 而 传递 。 

然而 ， 也 不 能 对 传递 〈 标 准 ) 信号 的 特定 顺序 产生 任何 依赖 ， 因 为 SUSv3 规定 ， 多 个 信 
写 的 传递 顺序 由 系统 实现 决定 。( 该 条 球 仪 适用 于 标准 信号 。 如 22.8 节 所 述 ， 实 时 信和 号 的 相关 
标准 规定 ， 对 于 解除 阻塞 的 实时 信和 号 而 言 ， 其 传递 顺序 必须 得 到 保障 。) 

当 多 个 解除 了 阻 窜 的 信号 正在 等 待 传递 时 ， 如 果 在 信号 处 理 右 函数 执行 期 间 发 生 了 内 核 
态 和 用 户 态 之 间 的 切换 ， 那 么 将 中 断 此 处 理 器 函数 的 执行 ， 转 而 去 调用 第 二 个 信号 处 理 器 函 
数 〈 如 此 递 进 )， 如 图 22-1 所 示 。 
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主 程序 l. 解除 对 处 于 等 待 状态 的 信号 SIGINT 和 SIGQUIT 的 阻塞 
2. 内 核 调 用 SIGINT 售 号 的 处 理 器 图 数 


3. SIGINT 处 理 器 函数 发 起 了 一 个 系统 调用 
4, 内 核 调用 SIGQUIT 信 号 的 处 理 程序 
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22-1: 对 多 个 解除 阻塞 信号 的 传递 


22.7 ”signal() 的 实现 及 可 移植 性 


本 市 展示 了 如 何 使 用 sigaction(0) 来 实现 signal). 实现 虽 然 位 单 明 了 , 但 还 需要 顾及 这 一 事 
实 ， 由 于 历史 治 半 和 UNIX 实现 乙 间 的 兰 异 ，signalO 曾 具有 各 种 不 同 的 语义 。 盛 其 是 ， 信 号 的 
早期 实现 并 不 可 知 ， 这 意味 看 : 
e 刚 一 进入 信号 处 理 堪 ， 会 将 信号 处 置 重 置 为 其 默认 行为 。( 这 对 应 于 20.13 fH 
SA RESETHAND 标志 。) 要 想 在 同一 信号 “有 再 上 度 光 临 ” 时 再 次 调用 该 信号 处 理 器 函 
数 ， 程 序 员 必 须 在 信和 号 处 理 器 内 部 调用 signal0， 以 显 式 重建 处 理 器 函数 。 这 种 情况 存 
年 一 个 问题 : 在 进入 信号 处 理 器 和 重建 处 理 器 之 间 存 在 一 个 短暂 的 窗口 期 ， 而 如 果 同 
一 信号 在 此 期 间 再 度 来 弄 ， 那 么 将 只 能 按照 其 默认 处 置 来 进行 处 理 。 
e 在 信号 处 理 融 执行 期 间 ， 不 会 对 新 产生 的 信和 号 进行 阻 豆 。( 这 对 应 于 20.12 节 摘 述 的 
SA NODEFER 标志 。) 这 意味 看 ， 如 果 在 某 一 信号 处 理 右 函数 执行 期 间 ， 同 类 信号 再 
度 光 顾 ， 那 么 将 对 该 处 理 器 函数 进行 递归 调用 。 假 定 一 串 信号 中 彼此 的 时 间 间 陋 足 够 
短 ， 那 么 对 处 理 器 函数 的 递归 调用 将 可 能 导致 堆栈 溢出 。 
除了 不 可 菲 之 外 ， 早 期 的 UNIX 实现 并 未 提供 系统 调用 的 目 动 重 局 功能 〈 即 ，21.5 市 所 
X SA_RESTART 标志 的 相关 行为 )。 
42BSD 针对 可 徘 信 号 的 实现 纠正 了 这 些 限制 ， 其 他 一 些 UNIX 实现 也 纷纷 效仿 。 然 而 ， 时 
至 今日 , 这 些 早期 语义 依然 存在 于 System V 的 signal0 实 现 之 中 。 更 有 其 者, 诸如 SUSv3 和 C99 
之 类 的 当代 标准 对 signalO0 的 这 些 方面 也 有 意 不 予 规范 。 
整合 上 述 信息 ， 对 signal0 的 实现 如 程序 清单 22-1 所 示 。 该 实现 默认 将 提供 信号 的 现代 语 
义 。 如 果 编 译 时 市 有 -DOLD_SIGNAL 选项 ， 那 么 将 提供 早期 的 不 可 车 信和 号 语义 ， 且 不 能 月 用 
系统 调用 的 目 动 重 局 功能 。 


程序 清单 22-1: signal() 的 实现 之 一 










































































signals/signal.c 
include «signal.h» 


typedef void (*sighandler t)(int); 
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sighandler t 
signal(int sig, sighandler t handler) 
Í 


struct sigaction newDisp, prevDisp; 


newDisp.sa handler - handler; 
sigemptyset(&newDisp.sa mask); 
#ifdef OLD SIGNAL 
newDisp.sa flags - SA RESETHAND | SA NODEFER; 
#else 
newDisp.sa flags = SA RESTART; 
#endif 


if (sigaction(sig, &newDisp, &prevDisp) == -1) 
return SIG ERR; 


else 
return prevDisp.sa handler; 


signals/signal.c 


glibc 的 一 些 细 市 


BEA HE, glibc 对 signalO 库 函数 的 实现 也 历经 变化 。 较 新 版 本 〈glibc 2 及 更 高 版 本 ) 
的 函数 库 默 认 提 供 现 代 语义 。 而 老 版 本 则 提供 早期 的 不 可 和 菲 (System V-A 语义 。 





Linux 内 核 将 signal0 实 现 为 系统 调用 ， 并 提供 较 老 的 、 不 可 菲 语 义 。 然 而 ，glibc 库 则 
利用 sigaction0 实 现 了 Signal0 库 函数 ， 从 而 将 signal0 系 统 调用 劳 路 。 








如 采 执 总 在 现代 glibe 版 本 中 使 用 不 可 徘 信 号 语义 ， 那 么 可 以 显 式 以 〈 非 标准 的 ) 
sysv signalO PK ZA OE NRX signalO B ys Hj o 





#define GNU SOURCE 
include «signal.h» 


void ( *sysv signal(int szg, void (*handler)(int)) ) (int); 


Returns previous signal disposition on success, or SIG ERR on error 








sysv signal) PA ŽA% signal() 函 数 相同 。 

各 编译 程序 时 并 未 定义 BSD SOURCE 特性 测试 安 ， 则 glibe 会 隐 式 将 所 有 signalO 调 用 重新 
定义 为 sysv_signalO 调 用 ， 永 即 局 用 signal0 的 不 可 靠 语 义 。 默 认 情 况 下 会 定义 BSD SOURCE, 
但 是 (除非 显 式 定 义 了 _BSD_SOURCE) 如 条 编译 程序 时 定义 了 诸如 _SVID_ SOURCE 或 
_XOPEN SOURCE 之 类 的 其 他 特性 测试 安 ， 那 么 对 BSD SOURCE 的 默认 定义 将 会 失效 。 


sigaction() 是 建立 信号 处 理 器 的 首选 API 

WF EX System V 与 BSD 之 间 (以 及 glibc 新 老 版 本 之 间 ) 的 可 移植 性 问题 ， 应 当 坚 
持 使 用 sigactionQifü 4E signal0 来 建立 信号 处 理 器 ， 这 不 失 为 一 种 稳妥 之 举 。 本 书 剩 下 部 分 都 
将 遵循 这 一 做 法 。( 另 一 种 选择 是 ， 编 写 类 似 于 程序 清单 22-1 的 signalO0 版 本 ， 精 确 设 定 所 
需要 的 标志 ， 供 应 用 程序 内 部 使 用 。) 不 过 ， 还 应 注意 ， 使 用 signal0 将 信号 处 置 设置 为 
SIG IGN 或 者 SIG. DFL 的 手法 具有 恨 好 的 可 移植 性 《程序 也 更 为 简短 )， 所 以 也 很 常用 。 
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22.8 ”实时 信号 


定义 于 POSIX.1b 中 的 实时 信号 ， 意 在 弥补 对 标准 信号 的 诺 多 限制 。 较 之 于 标准 信号 ， 其 
优势 如 下 所 示 。 
e 实时 信号 的 信和 号 范围 有 所 扩大 ， 可 应 用 于 应 用 程序 自 定义 的 目的 。 ape fei rn n] pe 
应 用 随意 使 用 的 信号 仅 有 两 个 : SIGUSR1 和 SIGUSR2。 

。 对 实时 信号 所 采取 的 是 队列 化 管理 。 如 采 将 东 一 实时 信号 的 多 个 实例 发 送 给 一 进程 ， 
那么 将 会 多 次 传递 信号 。 相 反 ， 如 末 东 一 标准 信号 已 经 在 等 待 茶 一 进程 ， 而 此 时 即使 
再 次 癌 该 进程 发 送 此 信号 的 实例 ， 信 号 也 只 会 传递 一 次 。 

e 当 及 达 一 个 实时 信号 时 ， 可 为 信号 指定 伴随 数据 《一 整 型 效 或 者 指针 值 )， 供 接收 进 
程 的 信号 处 理 器 获取 。 

。 不 同 实 时 信号 的 传递 顺序 得 到 保 隐 。 如 果 有 多 个 不 同 的 实时 信号 处 于 等 竺 状态 ， 那 么 
将 率先 传递 具有 最 小 编号 的 信号 。 换 言 之 ， 信 号 的 编号 越 小 ， 其 优先 级 越 高 。 如 条 是 
同一 闫 型 的 多 个 信号 在 排队 ， 那 么 信号 《以 及 伴随 数据 ) 的 传递 顺序 与 信号 发 送 来 时 
的 顺序 保持 一 致 。 

SUSv3 要 求 ， 实 现 所 提供 的 各 种 实时 信号 不 得 少 于 _ POSIX_RISIG_MAX (定义 为 8) 个 。 
Linux 内 核 则 定义 了 32 个 不 同 的 实时 信和 号， 编号 抑 围 为 32 一 63。<signal.h> 头 文件 押 定 义 的 
RTSIG MAX 币 量 则 表征 实时 信和 号 的 可 用 数量 ， 而 此 外 所 定义 的 种 量 SIGRTMIN 和 
SIGRTMAX 则 分 别 表示 可 用 实时 信号 编写 的 最 小 值 和 最 大 值 。 













































































采用 LinuxThreads 线程 实现 的 系统 将 SIGRTMIN 定义 为 35 (而 非 32)， 这 是 因为 
LinuxThreads 内 部 使 用 了 前 三 个 实时 信号。 而 采用 NPTL 线程 实现 的 系统 则 将 SIGRTMIN 定 
义 为 34， 因 为 NPTL 内 部 使 用 了 前 两 个 实时 信号 。 


对 实时 信和 号 的 区 分 方式 有 别 于 标准 信号 ， 不 绸 依赖 于 所 定义 稼 量 的 不 同 。 然 而 ， 程 序 员 
不 应 将 实时 信号 编号 的 整 型 值 在 应 用 程序 代码 中 写 死 ， 因 为 实时 信和 号 的 范围 因 UNIX. 实现 的 
不 同 而 各 异 。 与 之 相反 ， 指 代 实 时 信号 编号 则 可 以 采用 SIGRITMIN+x 的 形式 。 例 如 ， 表 达 式 
(SIGRTMIN +1) LER SR SEIN fs m e 

注意 ，SUSv3 并 未 要 求 SIGRTMAX 和 SIGRTMIN 是 简单 的 整数 值 。 可 以 将 其 定义 为 函 
Zi ORIZ Linux 中 那样 )。 这 也 意味 着 ， 不 能 编写 如 下 代码 以 供 预 处 理 器 处 理 : 

#if SIGRTMIN+100 > SIGRTMAX /* WRONG! */ 


#error "Not enough realtime signals" 
itendif 


相反 ， 必 须 在 运行 时 执行 等 效 检 碍 。 


对 排队 实时 信号 的 效 量 限 制 
排队 的 实时 信号 《及 其 相关 数据 ) 需要 内 核 维 护 相 应 的 数据 结构 ， 用 于 罗列 每 个 进程 的 
排队 信号 。 由 于 这 些 数 据 结构 会 消耗 内 核 内 存 ， 故 而 内 核对 排队 实时 信号 的 数量 设置 了 限制 。 
SUSv3 允许 实现 为 每 个 进程 中 可 排队 的 (各 类 ) 实时 信和 号 数量 设置 上 限 ， 并 要 求 其 不 得 
少 于 POSIX SIGQUEUE MAX (定义 为 32)。 实 现 可 借助 于 对 SIGQUEUE MAX 常量 的 定义 
来 表示 其 所 人 允许 的 排队 实时 信号 数量 。 发 起 如 下 调用 也 能 获得 这 一 信息 : 
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lim = sysconf( SC SIGQUEUE MAX); 

各 系统 使 用 的 glibe 库 厂 本 在 2.4 之 前 ， 则 该 调用 返回 -1。 从 glibe 2.4 开始 ， 其 返回 值 由 
内 核 版 本 决定 。 在 Linux 2.6.8 之 前 ， 调 用 将 返回 Linux 专 有 文件 /proc/sys/kernel/rtsig-max 中 的 
值 。 访 文件 所 定义 为 针对 所 有 进程 中 可 能 排队 的 实时 信号 总 数 的 系统 级 限制 。 默 认 全 为 1024， 
不 过 特权 级 进程 可 以 对 其 进行 修改 。 全 于 当前 的 排队 实时 信和 号 总 数 ， 可 以 从 Linux 专 有 的 
/proc/sys/kernel/rtsig-nr 文件 中 读 取 。 

从 版 本 2.6.8 开始 ，Linux 取消 了 这 些 /proc 文件 。 取 而 代 之 的 是 资源 限制 RLIMIT - 
SIGPENDING (36.3 节 )。 针 对 茶 个 特定 实际 用 户 ID 下 辖 的 所 有 进程 ， 该 限制 限定 了 其 可 排 
队 的 信和 号 总 数 。sysconfO 调 用 从 glibc2.10 版 本 开始 返回 RLIMIT SIGPENDING 限制 。( 至 于 正 
竺 等 等 某 一 进程 的 实时 信号 数量 ， 可 以 从 Linux 专 有 文件 /proc/PID/status 中 的 SigQ 字段 谈 取 。) 


使 用 实时 信号 
为 了 能 让 一 对 进程 收发 实时 信号 ，SUSv3 提出 以 下 儿 点 要 求 。 
。 发 送 进程 使 用 sigqueue0 系 统 调用 来 发 送信 号 及 其 伴随 数据 。 


























使 用 killO、killpgO0 和 raiseO 调 用 也 能 发 送 实 时 信和 号。 然而， 全 于 系统 是 侍 会 对 利用 此 
类 接口 所 发 送 的 信号 进行 排队 处 理 ，SUSvV3 规定 ， 由 具体 实现 决定 。 这 些 接口 在 Linux 中 会 
对 实时 信和 号 进行 排队 ， 但 在 其 他 许多 UNIX 实现 中 ， 情 况 则 不 然 。 





。 要 为 该 信号 建立 了 一 个 处 理 器 函数 ， 接 收 进程 应 以 SA_SIGINFO 标志 发 起 对 sigaction() 
的 调用 。 因 此 ， 调 用 信号 处 理 占 时 就 会 附带 额外 参数 ， 其 中 之 一 是 实时 信号 的 伴随 数据 。 











在 Linux 中 ， 即 使 接收 进程 在 建立 信号 处 理 右 时 并 未 指定 SA_SIGINFO 标记 ， 也 能 对 
实时 信号 进行 队列 化 定理 (但 在 这 种 情况 下 ， 将 不 可 能 获得 信 写 的 伴随 数据 )。 然 而 ，SUSvV3 
也 不 要 求实 现 确 你 这 一 行为 ， 所 以 依赖 这 一 点 将 有 损 于 应 用 的 可 移植 性 。 











22.8.1 发 送 实 时 信号 
系统 调用 sigqueue() 将 由 sig 指定 的 实时 信号 发 送 给 由 pid 指定 的 进程 。 


#define POSIX C SOURCE 199309 
#include «signal.h» 














int sigqueue(pid t pid, int sig, const union sigval value); 
Returns 0 on success, or -1 on error 
使 用 sigqueueO 发 送信 号 所 需要 的 权限 与 Kill) 《参见 20.5 $) 的 要 求 一 致 。 也 可 以 发 送 
空 信号 《〈 即 信号 0)， 其 语义 与 kill0 中 的 含义 相同 。( 不 同 于 kilO0，sigqueueO 不 能 通过 将 pid 
指定 为 负 值 而 向 整个 进程 组 发 送信 与 。) 
程序 清单 22-2: 使 用 sigqueue() 发 送 实 时 信号 














signals/t sigqueue.c 


#define POSIX C SOURCE 199309 
#include «signal.h» 
include "tlpi hdr.h" 


—— 
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int 
main(int argc, char *argv[]) 


{ 
int sig, numSigs, j, sigData; 
union sigval sv; 


if (argc < 4 || stremp(argv[1], "--help") == 0) 
usageErr("Xs pid sig-num data [num-sigs]Wn", argv[0]); 


/* Display our PID and UID, so that they can be compared with the 
corresponding fields of the siginfo t argument supplied to the 
handler in the receiving process */ 


printf("%s: PID is %ld, UID is XldWn", argv[O0], 
(long) getpid(), (long) getuid()); 


sig - getInt(argv[2], 0, "sig-num"); 
sigData - getInt(argv[3], GN ANY BASE, "data"); 
numSigs = (argc > 4) ? getInt(argv[4], GN GT 0, "num-sigs") : 1; 


for (j = 0; j < numSigs; j++) 1 
sv.sival_int = sigData + j; 
if (sigqueue(getLong(argv[1], 0, "pid"), sig, sv) == -1) 
errExit("sigqueue %d", j); 


} 


exit(EXIT_SUCCESS); 


signals/t_sigqueue.c 


参数 value 指定 了 信号 的 伴随 数据 ， 有 具有 以 下 形式 : 

union sigval { 
int sival int; /* Integer value for accompanying data */ 
void *sival ptr; /* Pointer value for accompanying data */ 


}; 

对 该 参数 的 解释 则 取决 于 应 用 程序 ， 由 其 选择 对 联合 体 (union) 中 的 sival int 属性 还 是 
sival ptr 属性 进行 设置 。sigqueueO 中 很 少 使 用 sival_ptr， 因 为 指针 的 作用 范围 在 进程 内 部 ， 对 
于 为 一 进程 几乎 没有 意义 。 该 字段 得 以 一 展映 手 之 处 ， 应 该 是 在 使 用 sigval 联合 体 的 其 他 函数 
中 ， 诸 如 23.6 节 的 POSIX 计时 器 和 52.6 节 的 POSIX 消息 队列 通知 。 

包括 Linux 在 内 的 儿 个 UNIX 实现 定义 了 与 union sigval 同 义 的 数据 类 型 sigval t. 95 
而 ， 该 类 型 既 未 获得 SUSv3 接纳 ， 也 没有 得 到 其 他 实现 的 文 持 。 对 可 移植 性 有 所 要 求 的 应 
用 程序 应 当 避 免 使 用 。 

一 旦 触及 对 排队 信号 的 数量 限制 ，sigqueueO 调 用 将 会 失败 。 同 时 将 errno 置 为 EAGAIN， 
以 示 需 要 再 次 发 送 该 信号 〈 在 当前 队列 中 某 些 信 号 传递 之 后 的 某 一 时 间 点 )。 

程序 清单 22-2 提供 了 sigqueue0 的 应 用 示例 。 该 程序 最 多 接受 4 个 参数 ， 其 中 前 3 项 为 必 
填 项 : 目标 进程 ID、 信 号 编号 以 及 伴随 实时 信号 的 整 型 值 。 如 有 条 需要 为 指定 信号 发 送 多 个 实 
例 ， 那 么 可 以 用 可 选 的 第 4 个 参数 来 指定 实例 数量 。 在 这 种 情况 下 ， 会 为 每 个 信号 的 伴随 整 
型 值 依次 加 1。22.8.2 市 将 展示 该 程序 的 用 法 。 


22.8. ”处 理 实 时 信号 
可 以 像 标 准 信 号 一 样 ， 使 用 常规 ( 单 参数 ) 信和 号 处 理 器 来 处 理 实时 信和 号。 此 外 ， 也 可 
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以 用 带 有 3 个 参数 的 信号 处 理 器 函数 来 处 理 实 时 信和 号， 其 建立 则 会 用 到 SA_SIGINFO bs 
(参见 21.4 市 )。 以 下 为 使 用 SA. SIGINFO 标记 为 第 六 个 实时 信号 建立 处 理 帮 函数 的 代码 
示例 : 

struct sigaction act; 











sigemptyset(&act.sa mask); 
act.sa sigaction - handler; 
act.sa flags - SA RESTART | SA SIGINFO; 


if (sigaction(SIGRTMIN + 5, &act, NULL) == -1) 
errExit("sigaction"); 


一 旦 采用 了 SA SIGINFO 标记， 传递 给 信号 处 理 器 函数 的 第 二 个 参数 将 是 一 个 siginfo t 
结构 ， 内 含 实时 信和 号 的 附加 信息 。21.4 节 详 细 描述 了 这 一 数据 结构 。 对 于 一 个 实时 信和 号 而 言 ， 
会 在 siginfo t 结构 中 设置 如 下 字段 。 
e si signo 字段 ， 其 值 与 传递 给 信和 号 处 理 右 数 的 第 一 个 参数 相同 。 
e si code 字段 表示 信号 来 源 ， 内 容 为 表 21-2 中 所 示 各 值 之 一 。 对 于 通过 sigqueueQ 35 
的 实时 信和 号 来 说 ， 该 字段 值 总 是 为 SL QUEUE. 

e si value 字段 所 含 数据 ， 由 进程 于 使 用 sigqueue0 发 送信 号 时 在 value 参数 Csigval union) 
中 指定 。 正 如 前 文 指 出 ， 对 该 数据 的 解释 由 应 用 程序 决定 。( 大 信号 由 kill0 发 送 ， 则 
si value 字段 所 含 信息 无 效 。) 

e si pid 和 si uid 学 段 分 列 包 含 信号 发 送 进 程 的 进程 ID 和 实际 用 户 ID. 

程序 清单 22-3 提供 了 处 理 实时 信号 的 一 个 例子 。 该 程序 捕获 信号 ,并 针对 传递 给 信和 号 
处 理 絮 函数 的 siginfo t 结构 ， 一 一 显示 其 中 的 各 个 字段 值 。 访 程序 可 接收 两 个 整 型 命令 行 
参数 ， 均 为 可 选项 。 如 果 提 供 了 第 一 个 参数 ， 那 么 主 程序 将 阻塞 所 有 信号 并 进入 休眠 ， 休 
眠 秘 数 由 该 参数 指定 。 在 些 期间， 将 对 进程 的 实时 信号 进行 排队 处 理 ， 并 可 观察 解除 对 信 
写 阻 窟 时 所 发 生 的 情况 。 第 二 个 参数 指定 了 信号 处 理 带 函数 在 返回 前 所 应 休 虐 的 秒 数 。 指 
定 一 个 非 0 值 (默认 为 1 秒 ) 将 有 助 于 放 组 程序 的 执行 ， 便 于 看 清 处 理 多 个 信号 时 所 发 生 
的 情况 。 

可 以 将 程序 清单 22-3 中 程序 与 程序 清单 22-2 中 程序 (t_sigqueue.c) 结合 起 来 探索 实时 信 
号 的 行为 ， 正 如 以 下 shell Zi& Hirn: 

$ ./catch rtsigs 60 & 

[1] 12842 

$ ./catch rtsigs: PID is 12842 Shell brompt mixed with program output 

./catch rtsigs: signals blocked - sleeping 60 seconds 

Press Enter to see next shell prompt 

$ ./t sigqueue 12842 54 100 3 Send signal three times 

./t sigqueue: PID is 12843, UID is 1000 

$ ./t sigqueue 12842 43 200 

./t sigqueue: PID is 12844, UID is 1000 


$ ./t sigqueue 12842 40 300 
./t sigqueue: PID is 12845, UID is 1000 


最 终 ，catch rtsigs FEFA RARR BEA s Ab EE dI OA EL e PPS m I RIA. CL 
所 以 看 到 shell 提示 符 和 程序 的 下 一 行 输出 混杂 在 一 起 , 是 因为 catch rtsigs 程序 正在 后 台 输 出 
信息 。) 可 以 看 出 ， 实 时 信号 在 传递 时 遵循 低 编 写 优 先 的 原则 ， 并 且 在 传递 给 处 理 器 函数 的 
siginfo t 结构 中 包含 了 发 送 进 程 的 进程 ID MHF ID. 
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$ ./catch rtsigs: sleep complete 

caught signal 40 
si signo-40, si code--1 (SI QUEUE), si value-300 
si pid-12845, si uid-1000 

caught signal 43 
si signo-43, si code--1 (SI QUEUE), si value-200 
si pid-12844, si uid-1000 


接 下 来 的 输出 由 同一 实时 信号 的 3 个 实例 产生 。 由 si_value fE n] All, 这些 信 号 的 传递 顺序 
与 发 送 顺 序 相 同 。 


caught signal 54 
si signo-54, si code--1 (SI QUEUE), si value-100 
si pid-12843, si uid-1000 

caught signal 54 
si signo-54, si code--1 (SI QUEUE), si value-101 
si pid-12843, si uid-1000 

caught signal 54 
si signo-54, si code--1 (SI QUEUE), si value-102 
si pid-12843, si uid-1000 


继续 使 用 shell 的 kill 命令 向 程序 catch rtsigs 发 送信 号 。 一 如 既往 ， 处 理 器 函数 接收 到 的 
siginfo t 结构 中 包含 了 发 送 进程 的 进程 ID 和 用 户 ID， 但 此 时 的 si code 值 为 SI USER. 


Press Enter to see next shell prompt 











$ echo $$ Display PID of shell 
12780 
$ kill -40 12842 Uses kill( 2) to send a signal 


$ caught signal 40 
si signo-40, si code=0 (SI USER), si value=0 


si pid-12780, si uid-1000 PID is that of the shell 
Press Enter to see next shell prompt 
$ kill 12842 Kill catch, rtsigs by sending SIGTERM 


Caught 6 signals 
Press Enter to see notification from shell about terminated background job 
[1]+ Done ./catch rtsigs 60 


程序 清单 22-3: 处 理 实时 信号 


signals/catch rtsigs.c 


#define GNU SOURCE 
#include «string.h» 
#include «signal.h» 
#include "tlpi hdr.h" 


static volatile int handlerSleepTime; 
static volatile int sigCnt = 0; /* Number of signals received */ 
static volatile int allDone - 0; 


static void /* Handler for signals established using SA SIGINFO */ 
siginfoHandler(int sig, siginfo t *si, void *ucontext) 
1 


/* UNSAFE: This handler uses non-async-signal-safe functions 
(printf()); see Section 21.1.2) */ 


/* SIGINT or SIGTERM can be used to terminate program */ 
if (sig == SIGINT || sig == SIGTERM) { 


allDone - 1; 
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} 


int 


return; 


j 


sigCnt++; 
printf("caught signal %d\n", sig); 


printf(" si signo-Xd, si code-Xd (4s), ", si-»si signo, si-»si code, 
(si-»si code -- SI USER) ? "SI USER" 
(si-»si code -- SI QUEUE) ? "SI QUEUE" : "other"); 

Se valuectdWn si-»si value. sival int); 

printf(" si pid=%ld, si uid=%ld\n", (long) si-»si pid, (long) si-»si uid); 


sleep(handlerSleepTime); 


main(int argc, char *argv[]) 


{ 


struct sigaction sa; 
int sig; 
sigset t prevMask, blockMask; 


if (argc > 1 88 strcmp(argv[1], "--help") == 0) 
usageErr("Xs [block-time [handler-sleep-time]]Wn", argv[0]); 


printf("%s: PID is %ld\n", argv[0], (long) getpid()); 


handlerSleepTime - (argc » 2) ? 
getInt(argv[2], GN NONNEG, "handler-sleep-time") : 1 


/* Establish handler for most signals. During execution of the handler, 
mask all other signals to prevent handlers recursively interrupting 
each other (which would make the output hard to read). * 


sa.sa sigaction - siginfoHandler; 
sa.sa flags - SA SIGINFO; 
sigfillset(&8sa.sa mask); 


for (sig = 1; sig < NSIG; sig++) 
if (sig !- SIGTSTP 8& sig !- SIGQUIT) 
sigaction(sig, &sa, NULL); 


/* Optionally block signals and sleep, allowing signals to be 
sent to us before they are unblocked and handled */ 


if (argc > 1) 1 
sigfillset(&blockMask); 
sigdelset(&blockMask, SIGINT); 
sigdelset(&blockMask, SIGTERM); 


if (sigprocmask(SIG SETMASK, &blockMask, &prevMask) == -1) 
errExit("sigprocmask"); 


printf("Xs: signals blocked - sleeping %s secondsNn", argv[0], argv[1]); 
sleep(getInt(argv[1], GN GT 0, "block-time")); 
printf("5s: sleep completeWn", argv[0]); 


if (sigprocmask(SIG SETMASK, &prevMask, NULL) == -1) 
errExit("sigprocmask"); 
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while (!allDone) /* Wait for incoming signals */ 
pause(); 


signals/catch rtsigs.c 


22.9 ”使 用 掩 码 来 等 每 信号 : sigsuspend() 


在 解释 sigsuspend() 的 功用 之 前 ， 先 介绍 一 下 它 的 一 种 使 用 场景 。 在 对 信号 编程 时 偶尔 会 
过 到 如 下 情况 。 
1. 临时 阻塞 一 个 信号 ， 以 防止 其 信号 处 理 器 不 会 将 某 些 关 键 代 码 片 段 的 执行 中 断 。 
2. 解除 对 信和 号 的 阻塞 ， 然 后 暂停 执行 ， 直 至 有 信和 号 到 达 。 

为 达到 这 一 目的 ， 可 能 会 尝试 使 用 程序 清单 22-4 中 代码 所 示 方 法 。 


程序 清单 22-4: 解除 阻塞 并 等 待 信号 的 错误 做 法 


























sigset t prevMask, intMask; 
struct sigaction sa; 


sigemptyset(&intMask); 
sigaddset(&intMask, SIGINT); 


sigemptyset(8sa.sa mask); 
sa.sa flags = 0; 


sa.sa handler - handler; 


if (sigaction(SIGINT, &sa, NULL) == -1) 
errExit("sigaction"); 


/* Block SIGINT prior to executing critical section. (At this 
point we assume that SIGINT is not already blocked.) */ 


if (sigprocmask(SIG BLOCK, &intMask, &prevMask) == -1) 
errExit("sigprocmask - SIG BLOCK"); 


/* Critical section: do some work here that must not be 
interrupted by the SIGINT handler */ 


/* End of critical section - restore old mask to unblock SIGINT */ 


if (sigprocmask(SIG SETMASK, &prevMask, NULL) == -1) 
errExit("sigprocmask - SIG SETMASK"); 


/* BUG: what if SIGINT arrives now... */ 


pause(); /* Wait for SIGINT */ 





程序 清单 22-4 中 代码 存在 一 个 问题 。 假 设 SIGINT 信号 的 传递 发生 在 第 二 次 调用 sigprocmask( 
之 后 ， 调 用 pause0 之 前 。( 实 际 上 ， 该 信号 可 能 产生 于 执行 关键 片 段 期 间 的 任 一 时 刻 ， 仅 当 
解除 对 信号 的 阻塞 后 才 会 随 之 而 传递 。) SIGINT 信和 号 的 传递 将 导致 对 处 理 器 函数 的 调用 ， 而 
当 处 理 器 返回 后 ， 主 程序 恢复 执行 ，pauseO 调 用 将 陷入 阻塞 ， 直 到 SIGINT 信号 的 第 二 个 实 
例 到 达 为 止 。 这 有 违 代 码 的 本 意 : 解除 对 SIGINT 阻 暑 并 等 行 其 第 一 次 出 现 。 
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即使 在 关键 片段 的 起 始点 《〈 即 首次 调用 sigprocmaskO? 和 pause() 调 用 之 间 产 生 SIGINT 
言 守 的 可 能 性 不 大 , 但 这 人 确实 是 上 述 代码 的 一 处 缺陷 。 这 种 取决 于 时 间 的 缺陷 是 苋 态 条 件 (5.1 
T) 的 例子 之 一 。 通 常 ， 苋 态 条 件 发 生 于 两 个 进程 或 线程 共 至 资源 时 。 然 而 ， 此 处 的 苋 态 条 
件 却 发 生 在 主 程序 和 其 自身 的 信号 处 理 器 之 间 。 

要 避 人 急 这 一 问题 ， 需 要 将 解除 信 与 阻塞 和 挂 起 进程 这 两 个 动作 封装 成 一 个 原子 操作 。 这 
正 是 sigsuspend() 系 统 调用 的 目的 所 在 。 














#include «signal.h» 


int sigsuspend(const sigset t *mask); 


(Normally) returns -1 with errno set to EINTR 











sigsuspend() 系 统 调用 将 以 mask Pris I] Ji So EHRIERE IMS RS. Me fe FEES 
jur. ESEqsksgud. RM AbEESRTuRIR. — Hael, sigsuspend(O Ft 3ERE 
Hc Ti R A Vip B BUT e 

调用 sigsuspend0， 相 当 于 以 不 可 中 断 方 式 执行 如 下 操作 : 











sigprocmask(SIG SETMASK, &mask, &prevMask); /* Assign new mask */ 
pause(); 
sigprocmask(SIG SETMASK, &prevMask, NULL); /* Restore old mask */ 








HA PK AES EPI SERERE, (HJ Y E RSS HT US Fakt S638 
SZIF, XX MGAWLUBAGRSXÉ. AIP P. BRIE sigsuspend0) 调 用 期 旧 ， 否 则 信号 必 
须 傈 持 阻 塞 状 态 。 如 果 稍 后 需要 对 在 调用 sigsuspend0 之 前 遭 到 阻塞 的 信号 解除 阻 图 ， 可 以 进 
一 步调 用 sigprocmask(). 

fi SigsuspendO 因 信号 的 传递 而 中 断 ， 则 将 返回 -1， 并 将 ermo 置 为 EINTR。 如 果 mask 
指 回 的 地 址 无 效 ， 则 sigsuspendO 调 用 失败 ， 并 将 errno 置 为 EFAULT。 











示例 程序 

程序 清单 22-5 展示 了 对 sigsuspendO0 的 使 用 。 该 程序 执行 如 下 步骤 。 

。 调用 printSigMaskO 函 数 《〈 程 序 清 单 20-40. 来 显示 进程 信号 掩 公 的 初始 值 。 

。 阻塞 SIGINT 和 SIGQUIT 信 写 ， 并 保存 原始 的 进程 信号 掩 公 。 

。 为 SIGINT 和 SIGQUIT 信号 建立 相同 的 处 理 器 函数 。 该 处 理 器 显示 一 条 消息 ， 且 若 对 
其 调用 因 SIGQUIT 信和 号 的 传递 而 引起 ， 则 设置 全 局 变量 gotSigquit。 

。 循环 执行 ， 直 人 至 对 gotSigquit 进行 了 设置 。 每 次 循环 都 执行 如 下 步骤 。 
一 使 用 printSigMaskQ PR ZI i zi 5 TER C] 75 BU TH. e 
- & CPU 忙于 循环 并 持续 数秒 钟 ， 以 此 来 模拟 对 一 个 关键 片段 的 执行 。 
— 使 用 printPendingSigsO RAR Sn ef de GEFA 20-4). 
— 使 用 sigsuspend0) 来 解除 对 SIGINT 和 SIGQUIT 信号 的 阻塞 ， 并 等 待 信号 〈 如 果 尚 

未 有 信号 处 于 等 待 状态 )。 

e 使 用 sigprocmaskO 将 进程 信号 掩 码 恢复 为 原始 状态 , 然后 再 使 用 printSigMask() 来 显示 

fai seh. 


程序 清单 22-5: 使 用 sigsuspend() 









































signals/t sigsuspend.c 


#define GNU SOURCE /* Get strsignal() declaration from «string.h» */ 
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&include <string.h> 

include «signal.h» 

#include «time.h» 

&include "signal functions.h" /* Declarations of printSigMask() 
and printPendingSigs() */ 

include "tlpi hdr.h" 


static volatile sig atomic t gotSigquit - 0; 


static void 
handler(int sig) 


i 

printf("Caught signal Xd (%s)\n", sig, strsignal(sig)); 

/* UNSAFE (see Section 21.1.2) */ 
if (sig -- SIGQUIT) 
gotSigquit - 1; 

} 
int 
main(int argc, char *argv[]) 
i 


int loopNum; 

time t startTime; 

sigset t origMask, blockMask; 
struct sigaction sa; 


(D printSigMask(stdout, "Initial signal mask is:Wn"); 


sigemptyset(&blockMask); 
sigaddset(&blockMask, SIGINT); 
sigaddset(&blockMask, SIGQUIT); 
© if (sigprocmask(SIG BLOCK, &blockMask, &origMask) == -1) 
errExit("sigprocmask - SIG BLOCK"); 


sigemptyset(8sa.sa mask); 
sa.sa flags = 0; 
sa.sa handler - handler; 
© if (sigaction(SIGINT, &sa, NULL) == -1) 
errExit("sigaction"); 
if (sigaction(SIGQUIT, &sa, NULL) -- -1) 
errExit("sigaction"); 


(D for (loopNum = 1; !gotSigquit; LoopNum++) { 
printf("--- LOOP %d\n", loopNum); 


/* Simulate a critical section by delaying a few seconds */ 


printSigMask(stdout, "Starting critical section, signal mask is:Wn"); 
for (startTime = time(NULL); time(NULL) < startTime + 4; ) 
continue; /* Run for a few seconds elapsed time */ 


printPendingSigs(stdout, 
"Before sigsuspend() - pending signals: Wn"); 
if (sigsuspend(&origMask) == -1 && errno !- EINTR) 
errExit("sigsuspend"); 


j 


(5) if (sigprocmask(SIG SETMASK, &origMask, NULL) -- -1) 
errExit("sigprocmask - SIG SETMASK"); 
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© printSigMask(stdout, "=== Exited loop\nRestored signal mask to:\n"); 
/* Do other processing... */ 
exit(EXIT_SUCCESS); 


signals/t_sigsuspend.c 


以 下 shell 会 话 日 志 所 示 为 程序 清单 22-5 中 程序 的 运行 结 来 示 例 : 
$ ./t sigsuspend 
Initial signal mask is: 
«empty signal set» 
--- LOOP 1 
Starting critical section, signal mask is: 
2 (Interrupt) 
3 (Quit) 
Type Control-C; SIGINT is generated, but remains pending because it is blocked 
Before sigsuspend() - pending signals: 
2 (Interrupt) 
Caught signal 2 (Interrupt) sigsuspend() is called, signals ave unblocked 


程序 调用 sigsuspend0 解 除了 对 SIGINT 信号 的 阻塞 ， 还 显示 了 最 后 一 行 输出 。 正 是 在 那 
一 点 ， 调 用 了 信号 处 理 器 ， 并 显示 了 那 一 行 输出 。 
主 程序 会 继续 循环 。 
=== LOOP 2 
Starting critical section, signal mask is: 
2 (Interrupt) 
3 (Quit) 
Type Control to generate SIGQUIT 
Before sigsuspend() - pending signals: 
3 (Quit) 
Caught signal 3 (Quit) sigsuspend() is called, signals are unblocked 
--- Exited loop Signal handler set gotSigquit 


Restored signal mask to: 
«empty signal set» 


此 时 按 下 Control\， 将 导致 信号 处 理 融 去 设置 gotSigquit 标志 ， 并 转 而 引发 主 程序 终止 循环 。 














S] [一 | 上 一 * ^ / 一 
22.10 ”以 同步 方式 等 竺 信号 
22.9 让 描 述 了 如 何 结合 信号 处 理 右 和 Sigsuspend0 来 挂 起 一 个 进程 的 执行 ， 直 至 传 来 一 个 
信号 。 然 而 ， 这 需要 编写 信号 处 理 器 函数 ， 还 需要 应 对 信号 异步 传递 所 带 来 的 复杂 性 。 对 于 
某 些 应 用 而 言 ， 这 种 方法 过 于 繁复 。 作 为 替代 方案 , WIDURIHI sigwaitinfo() Z& Zt: Hj 2fe I] Be 
收 信和 号 。 


#define POSIX C SOURCE 199309 
include «signal.h» 























int sigwaitinfo(const sigset t *set, siginfo t "?nfo); 


Returns number of delivered signal on success, or -1 on error 











sigwaitinfo0 系 统 调用 挂 起 进程 的 执行 ,直至 set 指向 信号 集中 的 某 一 信号 抵达 。 如 果 调 用 
sigwaitinfo() 时 ，set 中 的 茶 一 信号 已 经 处 于 等 竺 状态 ， 那 么 sigwaitinfo() 将 立即 返回 。 传 递 来 











第 2238 信号 : 高 级 特性 387 


异步 社区 会 员 flyman150(2410757683 (9 qq.com) EF 尊重 版 权 





的 信号 就 此 从 进程 的 等 竺 信号 队列 中 移 除 , 并 且 将 返回 信号 编写 作为 函数 结果 。info 参数 如 果 
不 为 室 ， 则 会 指 癌 经 过 初始 化 处 理 的 siginfo t 结构 ， 其 中 所 含 信息 与 提供 给 信号 处 理 器 函数 
的 siginfo t Z2 (21.4 5) 相同 。 

sigwaitinfo() Pr Ez 52 fi 5 BR PR WOLF RUE BAUR HE 3 fei ^r ABE DR Fi TH I» 就 是 说 ， 
不 对 标准 信号 进行 排队 处 理 ， 对 实时 信号 进行 排队 处 理 ， 并 且 对 实时 信和 号 的 传递 遭 循 低 编 号 
优先 的 原则 。 

除 子 去 编写 信号 处 理 器 的 负担 之 外 ,使 用 sigwaitinfo() 来 等 得 信号 也 要 比 信号 处 理 器 外 加 
sigsuspendO 的 组 合 要 稍 快 一 些 〈 见 练习 22-3)。 

将 对 set 中 信和 号 集 的 阻塞 与 调用 sigwaitinfo0 结 合 起 来 ， 这 当 属 明智 之 举 。( 即 便 某 一 信和 号 
BE, MAH sigwaitinfo0 来 获取 等 竺 信号 。) 如 果 没 有 这 么 做 ， 而 信号 在 首次 调 
用 sigwaitinfo0 之 前 ， 或 者 两 次 连续 调用 sigwaitinfo( < [8] 8135, 那么 对 信和 号 的 处 理 将 只 能 依照 
其 当前 处 置 。 

SUSv3 规定 ， 调 用 sigwaitinfo0 而 不 阻塞 set 中 的 信号 将 导致 不 可 预知 的 行为 (其 行为 未 
定义 )。 

程序 清单 22-6 所 示 为 使 用 sigwaitinfo0 的 例子 之 一 。 程 序 首 先 阻 塞 所 有 信和 号， 然后 延迟 数秒 
时 间 ， 有 基体 秒 数 由 可 选 命令 行 参数 来 指定 ， 从 而 允许 在 调用 sigwaitinfo0 之 前 回程 序 发 送信 号 。 程 
序 随即 持续 循环 调用 Sigwaitinfo0) 来 接收 输入 信号 ， 直 至 收 到 SIGINT 或 SIGTERM 信号。 

如 下 shell 会 话 日 志 展 示 了 程序 清单 22-6 中 程序 的 运行 情况 。 程序 在 后 台 运 行 ， 并 指定 在 
执行 sigwaitinfo0 前 需 延 到 60 秒 ， 随 后 再 辣 进 程 发 送 两 个 信号: 

$ ./t sigwaitinfo 60 & 

./t sigwaitinfo: PID is 3837 


./t sigwaitinfo: signals blocked 
./t sigwaitinfo: about to delay 60 seconds 
























































[1] 3837 

$ ./t sigqueue 3837 43 100 Send signal 43 
./t sigqueue: PID is 3839, UID is 1000 

$ ./t sigqueue 3837 42 200 Send signal 42 


./t sigqueue: PID is 3840, UID is 1000 
最 终 ， 程 序 完成 睡眠 ，sigwaitinfoO 调 用 循环 接收 排队 信号 。( 由 于 {t sigwaitinfo 程序 正在 
后 台 输 出 信息 , 故而 可 以 观察 到 shell 提示 符 和 程序 的 下 一 行 输出 混杂 在 一 起 。) 至 于 处 理 器 所 
捕获 到 的 实时 信和 号， 可 以 看 出 ， 编 亏 低 的 信号 率先 传递 ， 而 且 ， 信 助 于 传递 给 信号 处 理 顺 轩 
数 的 siginfo t 结构 ， 还 可 以 获得 发 送 进程 的 进程 ID 和 用 户 ID. 
$ ./t sigwaitinfo: finished delay 
got signal: 42 
si signo-42, si code--1 (SI QUEUE), si value-200 
si pid-3840, si uid-1000 
got signal: 43 
si signo-43, si code=-1 (SI QUEUE), si value-100 
si pid-3839, si uid-1000 


继续 使 用 shell 的 kill 命令 问 进 程 友 送信 号 。 可 以 观察 到 ， 这 次 将 si code FERAN SI USER 
(而 非 SI QUEUE). 


Press Enter to see next shell brompt 






































$ echo $$ Display PID of shell 

3744 

$ kill -USR1 3837 Shell sends SIGUSR1 using kill() 
$ got signal: 10 Delivery of SIGUSR1 


si signo-10, si code=0 (SI USER), si value-100 
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si pid-3744, si uid-1000 3744 is PID of shell 
Press Enter to see next shell brompt 


$ kill %1 Terminate program with SYGTERM 
$ 

Press Enter to see notification of background job termination 

[1]+ Done ./t sigwaitinfo 60 





收 到 SIGUSRI 信号 ， 由 其 输出 可 知 ，si value 字段 值 为 100。 该 值 是 由 sigqueue0 发 送 的 
前 一 信号 初始 化 而 成 。 前 文 曾 指出 ， 仅 对 由 sigqueueO 上 所 发 送 的 信号 ，si_value 字段 所 包含 的 
言 息 才 是 可 靠 的 。 


程序 清单 22-6: 使 用 sigwaitinfo() 来 同步 等 待 信号 











signals/t sigwaitinfo.c 


#define GNU SOURCE 
include <string.h> 
include «signal.h» 
#include «time.h» 
include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


int sig; 
siginfo t si; 
sigset t allSigs; 


if (argc > 1 88 strcmp(argv[1], "--help" 
usageErr("Xs [delay-secs]Wn", argv[O 


) == 0) 

1); 
printf("%s: PID is %ld\n", argv[0], (long) getpid()); 
/* Block all signals (except SIGKILL and SIGSTOP) */ 


sigfillset(&allSigs); 

if (sigprocmask(SIG SETMASK, &allSigs, NULL) == -1) 
errExit("sigprocmask"); 

printf("%s: signals blockedWin", argv[0]); 


if (argc > 1) { /* Delay so that signals can be sent to us */ 
printf("Xs: about to delay %s seconds\n", argv[0], argv[1]); 
sleep(getInt(argv[1], GN GT 0, "delay-secs")); 
printf("Xs: finished delayNn", argv[0]); 


} 

for (55) { /* Fetch signals until SIGINT (^C) or SIGTERM */ 
sig = sigwaitinfo(B8allSigs, &si); 
if (sig == -1) 


errExit("sigwaitinfo"); 


if (sig -- SIGINT || sig -- SIGTERM) 
exit(EXIT SUCCESS); 


printf("got signal: Ad (%s)\n", sig, strsignal(sig)); 
printf(" si signo-Xd, si code-Xd (4s), si value-AdWn", 
si.si signo, si.si code, 
(si.si code -- SI USER) ? "SI USER" : 
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(si.si code -- SI QUEUE) ? "SI QUEUE" : "other", 
si.si value.sival int); 
printf(" ^ si pid-Xld, si uid-Xldin", 
(long) si.si pid, (long) si.si uid); 


signals/t sigwaitinfo.c 


MI 系统 调用 是 sigwaitinfo() 调 用 的 变 体 。 唯 一 的 区 别 是 sigtimedwait( /G FTH 4E 





#define POSIX C SOURCE 199309 
#include «signal.h» 


int sigtimedwait(const sigset t *set, siginfo t *info, 
const struct timespec *timeout); 


Returns number of delivered signal on success, 
or -] on error or timeout (EAGAIN) 








timeout 参数 指定 了 人 允许 sigtimedwait() £g — fii ^ BICI AS e IRA PARI ESMJIS— 
枚 指针 : 


struct timespec { 
time t tv sec; /* Seconds ('time t' is an integer type) */ 
long tv nsec; /* Nanoseconds */ 
}; 
填写 timespec 结构 的 所 属 字 段 ,也 就 指定 了 人 允许 sigtimedwait() 等 每 的 最 大 秒 数 和 纳 秒 数 。 
如 条 将 这 两 个 字段 均 指 R 0, 那么 函数 将 立刻 超时 ， 职 是 说 ， 会 去 轮 询 检 奉 是 含有 指定 信和 号 
集中 的 任 一 信号 处 于 等 待 状态 。 如 果 调 用 超时 而 又 没有 收 到 信号 ，sigtimedwaitO) 将 调用 失败 ， 
并 将 errno 置 为 EAGAIN。 
如 果 将 timeout 参数 指定 为 NULL, HMA sigtimedwait() 将 完全 等 同 于 sigwaitinfo()。SUSv3 
对 于 timeout 的 NULL EE NEERA, MAE UNIX 实现 则 将 该 值 视 为 轮 询 请 求 并 立即 将 
其 返回 。 























22.11 通过 文件 摘 述 符 来 获取 信号 


始 于 内 核 2.6.22, Linux 提供 了 “【〔 非 标准 的 ) signalfd0 系 统 调用 ; 利用 该 调用 可 以 创建 一 
个 特殊 文件 描述 符 ， 发 往 调用 者 的 信号 都 可 从 该 描述 符 中 读 取 。signalfd 机 制 为 同步 接受 信和 号 
提供 了 sigwaitinfo0 之 外 的 另 一 种 选择 。 











#include «sys/signalfd.h» 


int signalfd(int fd, const sigset t *mask, int flags); 


Returns file descriptor on success, or -1 on error 








mask 参数 是 一 个 信号 集 ， 指 定 了 有 和 意 通 过 signalfd 文件 捅 述 符 来 读 取 的 信号 ,如同 
aa 以 确保 在 有 机 会 读 

















1 译 者 注 : 有 ， 则 将 该 信号 的 信息 返回 。 作 者 的 书 似乎 没有 man 手册 页 写 得 明了 ， 请 读者 目 行 比较 。 
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取 这 些 信号 之 前 ， 不 会 按照 默认 处 置 对 它们 进行 处 理 。 

如 果 指定 Rd 为 -1， 那 么 signalfd0 会 创建 一 个 新 的 文件 描述 符 ， 用 于 读 取 mask 中 的 信 
cs 否则 ， 将 修改 与 fd 相关 的 mask 值 ， 且 该 fd 一 定 是 由 之 前 对 signalfd() 的 一 次 调用 创建 
而 成 。 

1:98] S:39046- Tag Ec RI TIED ETT  EUDIATOEEHIREOR 0 然而 ，Linux 从 版 本 2.6.27 
开始 支持 下 面 两 个 标志 。 


SFD CLOEXEC 
为 新 的 文件 描述 符 设置 close-on-exec (FD CLOEXEC) 标志 。 该 标志 之 所 以 必要 , 与 4.3.1 
节 中 摘 述 的 open)O CLOEXEC 标记 的 设置 理由 相同 。 


SFD_NONBLOCK 

为 底层 的 打开 文件 描述 设置 O NONBLOCK 标志 ， 以 确保 不 会 阻 罕 未 来 的 读 操 作 。 婚 省 
去 了 一 个 额外 的 fentl0 调 用 ， 叉 获得 了 相同 的 结 末 。 

创建 文件 搬 述 从 之 后 ， 可 以 使 用 readO0 调 用 从 中 该 取信 号 。 提 供给 read0) 的 缓冲 区 必须 
足够 大 ， 至 少 应 能 够 容纳 一 个 signalfd siginfo 结构 。<sys/signalfd.h> 文 件 定 义 了 该 结构 ， 如 














FB: 
struct signalfd siginfo { 
uint32 t ssi signo; /* Signal number */ 
int32 t ssi errno; /* Error number (generally unused) */ 
int32 t ssi code; /* Signal code */ 
uint32 t ssi pid; /* Process ID of sending process */ 
uint32 t ssi uid; /* Real user ID of sender */ 
int32 t ssi fd; /* File descriptor (SIGPOLL/SIGIO) */ 
uint32 t ssi tid; /* Kernel timer ID (POSIX timers) */ 
uint32 t ssi band; /* Band event (SIGPOLL/SIGIO) */ 
uint32 t ssi tid; /* (Kernel-internal) timer ID (POSIX timers) */ 
uint32 t ssi overrun; /* Overrun count (POSIX timers) */ 
uint32 t ssi trapno;  /* Trap number */ 
int32 t ssi status;  /* Exit status or signal (SIGCHLD) */ 
int32 t ssi int; /* Integer sent by sigqueue() */ 
uinto4 t ssi ptr; /* Pointer sent by sigqueue() */ 
uint64 t ssi utime; /* User CPU time (SIGCHLD) */ 
uint64 t ssi stime; /* System CPU time (SIGCHLD) */ 
uint64 t ssi addr; /* Address that generated signal 
(hardware-generated signals only) */ 








该 结构 中 字段 所 返回 的 信息 与 传统 siginfo t £i (21.4 55 中 类 似 命 名 的 字段 信息 相同 。 

read(0 每 次 调用 都 将 返回 与 等 待 信号 数目 相等 的 signalfd siginfo 结构 ， 并 填充 到 已 提供 的 
绥 冲 区 中 。 如 果 调 用 时 并 无 信号 正在 等 待 ， 那 么 read0 将 阻塞 ， 直 到 有 信和 号 到 达 。 也 可 以 使 用 
fcntl() 的 F_SETFL 操作 (5.3 市 ) 来 为 文件 摘 述 符 设 置 O_ NONBLOCK 标志 ， 使 得 读 操作 不 再 
E, HELT aE, MAHR, erno 为 EAGAIN。 

当 从 signalfd 文件 描述 符 中 读 取 到 一 信号 时 ， 该 信号 获得 接纳 ， 且 不 再 为 该 进程 而 等 待 。 


程序 清单 22-7: 使 用 signalfd() 来 读 取 信号 



































signals/signalfd sigval.c 


#include <sys/signalfd.h> 
#include «signal.h» 
#include "tlpi hdr.h" 
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int 
main(int argc, char *argv[]) 


sigset t mask; 

int sfd, j; 

struct signalfd siginfo fdsi; 
ssize t s; 


if (argc < 2 || stremp(argv[1], "--help") == 0) 
usageErr("Xs sig-num... Wn", argv[0]); 


printf("%s: PID = %ld\n", argv[0], (long) getpid()); 


sigemptyset(&mask); 
for (j = 1; j < argc; j++) 
sigaddset(&mask, atoi(argv[j])); 


if (sigprocmask(SIG BLOCK, &mask, NULL) == -1) 
errExit("sigprocmask"); 


sfd - signalfd(-1, &mask, 0); 
if (sfd -- -1) 
errExit("signalfd"); 


for (;;) 1 
s = read(sfd, &fdsi, sizeof(struct signalfd siginfo)); 
if (s != sizeof(struct signalfd siginfo)) 
errExit("read"); 


printf("%s: got signal Xd", argv[O0], fdsi.ssi signo); 
if (fdsi.ssi code -- SI QUEUE) { 
printf("; ssi pid = Xd; ", fdsi.ssi pid); 
printf("ssi int - Xd", fdsi.ssi int); 


} 
printf("\n"); 


signals/signalfd sigval.c 


select(). poll epoll (参见 第 63 Æ) 可 以 将 signalfd 摘 述 符 和 其 他 搞 述 符 混 合 起 来 进行 
监控 。 aiii en 该 特性 可 成 为 63.5.2 市 所 述 self-pipe 技巧 之 外 的 另 一 选择 。 如 果 
有 信号 正在 等 待 ， 那 么 这 些 技术 将 文件 描述 符 指 示 为 可 谈 取 。 
当 不 再 需要 文件 摘 述 符 时 ， 应 当 关 闭 signalfd 以 释放 相关 内 核资 源 。 
程序 清单 22-7 展示 了 signalfd0 的 用 法 。 程 序 为 在 命令 行 参数 中 指定 的 信号 创建 手包 ， 阻 圭 
这 些 信号， 然后 创建 用 来 谈 取 这 些 信号 的 signalfd SIRRI, 之 后 循环 从 该 文件 搬 述 从 中 读 
取信 和 号， 并 显示 返回 的 signalfd siginfo 结构 中 的 部 分 信息 。 如 下 shell 会 话 在 后 台 运 行 了 程序 
清单 22-7 中 程序 ， 并 使 用 程序 清单 22-2 中 程序 Ct sigqueue.c) 回访 进程 发 送 实时 信和 号 及 伴随 


数据 : 
$ ./signalfd sigval 44 & 
./signalfd sigval: PID = 6267 
[1] 6267 
$ ./t sigqueue 6267 44 123 Send signal 44 with data 123 to PID 6267 
./t sigqueue: PID is 6269, UID is 1000 
./signalfd sigval: got signal 44; ssi pid-6269; ssi int-123 
$ kill %1 Kill program running in background 
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22.12 TJRHÍgwxttTtfz B8 s 


从 某 种 角度 ， 可 将 信号 视 为 进程 间 通 信 APC) 的 方式 之 一 。 然 而 ， 信 和 号 作为 一 种 IPC 机 
制 却 也 饱 受 限 制 。 首 先 ， 与 后 续 各 章 描 述 的 其 他 了 PC 方法 相 比 ， 对 信号 编程 既 繁 晶 难 ， 具 体 
原因 如 下 。 

。 信号 的 异步 本 质 就 意味 着 需要 面 对 各 种 问题 ， 包 括 可 重 入 性 需求 、 竞 态 条 件 及 在 信和 号 

处 理 器 中 正确 处 理 全 局 变量 ， CRH sigwaitinfo() EX f signalfd0 来 同步 获取 信和 号， 这 
些 问题 中 的 大 部 分 都 不 会 过 到 。) 

。 没有 对 标准 信和 号 进行 排队 处 理 。 即 使 是 对 于 实时 信号, 也 存在 对 信和 号 排队 数量 的 限制 。 
这 意味 着 ， 为 了 避免 丢失 信息 ， 接 收 信号 的 进程 必须 想方设法 通知 发 送 者 ， 目 己 为 接 
受 另 一 个 信号 做 好 了 准备 。 要 做 到 这 一 点 ， 最 显而易见 的 方法 是 由 接收 者 癌 发 送 者 发 
s 

还 有 一 个 更 深层 次 的 问题 ， 信 号 所 携 禹 的 信息 量 有 限 : 信号 编号 以 及 实时 信号 情况 下 一 
字 之 长 的 附加 数据 (一 个 整数 或 者 一 枚 指针 值 )。 与 诸如 管道 之 类 的 其 他 IPC 方法 相 比 ， 过 低 
的 带宽 使 得 信号 传输 极为 绥 慢 。 

由 于 上 述 种 种 限制 ， 很 少将 信号 用 于 IPC. 


















































22.13 ”早期 的 信号 API (System V 和 BSD) 


之 前 对 信和 号 的 讨论 一 直 着 眼 于 POSIX 信号 API。 本 节 将 简要 回顾 一 下 System V 和 BSD 
提供 的 历史 API。 虽 然 所 有 的 新 应 用 程序 都 应 当 使 用 POSIX API， 但 是 在 从 其 他 UNIX 实现 移 
植 ( 通 常 较为 老 到 的 ) 应 用 时 ， 可 能 还 是 会 售 到 这 些 过 时 的 API。 当 移植 这 些 使 用 老 旧 API 
的 程序 时 ， 因 为 Linux 〈 像 许多 其 他 UNIX 实现 一 样 ) tett T System V 和 BSD 兼容 的 APL 
所 以 通常 所 要 做 的 全 部 工作 不 过 是 在 Linux 平台 上 重新 进行 编译 而 已 。 





























System V 信号 API 


如 前 所 述 ，System V 中 的 信号 API 存在 一 个 重要 兰 异 : 当 使 用 signal ££ v Ab PES PR H, 
得 到 的 是 老 版 、 不 可 徘 的 信号 语义 。 这 意味 看 不 会 将 信号 添加 到 进程 的 信号 枚 人 色 中 ， 调 用 信 
号 处 理 器 时 会 将 信号 处 置 重 置 为 默认 行为 ， 以 及 不 会 目 动 重 局 系统 调用 。 

下 和 面 ， 人 简单 介绍 一 些 System V 信号 API 中 的 函数 。 手 册页 提供 有 全 部 的 细 市 。SUSvV3 定 
义 了 所 有 这 些 函 数 ， 但 指出 应 优先 使 用 现代 版 的 POSIX 等 价 函数 。SUSv4 将 这 些 函 数 标 记 为 已 
废止。 




















#define XOPEN SOURCE 500 
#include «signal.h» 


void (*sigset(int sig, void (*handler)(int)))(int); 


On success: returns the previous disposition of sig, or SIG HOLD 
if sig was previously blocked; on error -1 is returned 








A r£ Hause X mfsuAbPa. System V 提供 了 sigsetO 调 用 (原型 类 似 于 
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signal())。 与 signal() 一 样 ， 可 以 将 sigset0 的 handler 参数 指定 为 SIG IGN, SIG DFL 或 者 信 
号 处 理 喜 函数 的 地 址 。 此 外 ， 还 可 以 将 其 指定 为 SIG_HOLD， 在 将 信号 添加 a 到 进程 信和 与 掩 人 码 
的 同时 保持 信号 处 置 不 变 。 

如 条 指 定 handler 参数 为 SIG HOLD 之 外 的 其 他 值 ， 那么 会 将 sig 从 进程 信号 掩 码 中 移 除 
CH, WR sig 下 到 阻 考 ， 那 么 将 解除 对 其 阻 圭 )。 


#define XOPEN SOURCE 500 
#include «signal.h» 











int sighold(int sig); 
int sigrelse(int sig); 
int sigignore(int sig); 


All return 0 on success, or -1 on error 
int sigpause(int sig); 


Always returns -1 with errno set to EINTR 


sighold() K ŽO — A fii VS JH S XE RE fu dir]. sigrelse() K Zi Du) Zi A fei d rp E 
除 一 个 信号 。sigignore() 了 水 数 设 定 对 某 信 号 的 处 置 为 “忽略 (ignore )” sigpauseQ PK ArI 
于 Sigsuspend(O) 函 数 ， 但 仅 从 进程 信号 掩 码 中 移 除 一 个 信号 ， 随 后 将 暂停 进程 ， 直 到 有 信号 
到 达 。 




















BSD 信号 API 


POSIX 信号 API 从 4.2BSD API 中 汲取 了 很 多 灵感 ， 所 以 BSD 函数 与 POSIX 函数 大 体 
相仿 。 

如 同 前 文 对 System V 信号 API 中 国 数 的 描述 一 样 ， 衣 先 给 出 BSD 信号 API 中 各 函数 的 
原型 ， 随 后 简单 解释 一 下 每 个 图 数 的 操作 。 再 吵 嗓 一 多， 手册 页 提供 有 全 部 细节 。 


#define BSD SOURCE 
#include <signal.h> 

















int sigvec(int sig, struct sigvec *vec, struct sigvec *ovec); 








Returns 0 on success, or -1 on error 


sigvec() 类 似 于 sigaction(). vec 和 ovec ZZ ze 18 In] a POST AZSTJBTRET: 
struct sigvec { 

void (*sv handler)(); 

int sv mask; 

int sv flags; 











}; 
sigvec 结构 中 的 字段 与 dd 埋 构 中 的 那些 字段 紧密 对 应 。 第 一 个 显著 差异 是 sv_mask 
(类 似 与 sa_mask) 字段 是 一 个 整 型 ， 而 非 sigset t 类 型 。 这 意味 着 ， 在 32 位 架构 中 ， 最 





多 文 持 31 个 不 同 信号 。 男 一 个 不 同 之 处 则 在 于 在 sv_flags 类似 与 a_flags) 字段 中 使 用 
了 SV INTERRUPT 标志 。 因 为 重启 系统 调用 是 4.2BSD 的 默认 行为 ,该 标志 是 用 来 指定 
应 使 用 信号 处 理 器 来 中 断 慢 速 系统 调用 。( 这 点 与 POSIX API 截然 相反 ， 在 使 用 sigaction() 
建立 信号 处 理 嚣 时， 如果 希 望 启 用 系统 调用 重启 功能 ， 束 必须 显 式 指定 SA RESTART 
标志 。) 
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#define BSD SOURCE 
#include «signal.h» 


int sigblock(int mask); 
int sigsetmask(int mask); 


Both return previous signal mask 
int sigpause(int szemask); 


Always returns -1 with errno set to EINTR 
int sigmask(s?g); 


Returns signal mask value with bit sig set 








sigblock() K 2t [n] GERE TH s e I PHASE 2H fei» ARKA T. sigprocmask() 的 SIG BLOCK fè 
作 。sigsetmaskO 调 用 则 为 信号 掩 码 指定 了 一 个 绝对 值 。 这 类 似 于 sigprocmask(If] SIG SETMASK 
BRE. 

sigpause() 类 似 于 sigsuspend(). TEZ&, ANZA AE XE System V 和 BSD API 中 共有 不 
同 的 调用 签名 。GNU C 函数 库 默 认 提 供 System V 版 本 , 除非 在 编译 程序 时 指定 了 特性 测试 宏 
_BSD SOURCE. 

sigmaskO 安 将 信号 编号 转换 成 相应 的 32 Ardea. KMFE un] REE, EEE 
组 信号 ， 如 下 上 所 示 : 

sigblock(sigmask(SIGINT) | sigmask(SIGQUIT)); 











22.14 总 结 


某 些 信号 会 引发 进程 创建 一 个 核心 转 储 文件 ， 并 终止 进程 。 核 心 转 储 所 包含 的 信息 可 供 
调试 器 检查 进程 终止 时 的 状态 。 默 认 情 况 下 ， 对 核心 转 储 文件 的 命名 为 core， 但 Linux 提供 了 
/proc/sys/kernel/core pattern 文件 来 控制 对 核心 转 储 文件 的 命名 。 

言 写 的 产生 方式 既 可 以 是 异步 的 ， 也 可 以 是 同步 的 。 当 由 内 核 或 者 为 一 进程 发 送信 号 给 
进程 时 ， 信 号 可 能 是 异步 产生 的 。 进 程 无 法 精确 预测 异步 产生 信号 的 传递 时 间 。( 文 中 曾 指出 ， 
寞 步 信号 通常 会 在 接收 进程 第 二 次 从 内 核 态 切换 到 用 户 态 时 进行 传递 .) 因 进 程 目 映 执行 代码 
而 下 接 产 生 的 信号 则 属于 是 同步 产生 的 ， 例 如 ， 执 行 了 一 个 引 友 便 件 异常 的 指令 ， 或 者 去 调 
用 raise0。 同 步 生 成 的 信号 ， 其 传递 可 以 精确 预测 《〈 立 即 传递 )。 

实时 信号 是 POSIX 对 原始 信号 模型 的 扩展 ， 不 同 之 处 包括 对 实时 信号 进行 队列 化 管理 ， 
具有 特定 的 传递 顺序 ， 并且 还 可 以 伴随 少量 数据 一 同 发 送 。 设 计 实 时 信号 ， 意 在 供应 用 程序 
目 定义 使 用 。 实 时 信号 的 发 送 使 用 sigqueue() 系 统 调用 ， 并 且 还 回信 与 处 理 器 疯 数 所 供 了 一 
个 附加 参数 Csiginfo ft 结 构 )， 以 便 其 获得 信号 的 伴随 数据 ， 以 及 发 送 进程 的 进程 ID 和 实际 用 
户 ID。 

sigsuspend() 系 统 调 用 在 目 动 修改 进程 信号 掩 人 码 的 同时 ， 还 将 挂 起 进程 的 执行 直到 信号 到 
达 ， 且 二 者 属于 同一 原子 操作 。 为 了 避免 执行 上 述 功 能 时 出 现 竞 态 条 件 ， 确 保 sigsuspend() 的 原 
子 性 至 关 重 要 。 

可 以 使 用 sigwaitinfo0 和 sigtimedwait0 来 同步 等 竺 一 个 信号 。 这 省 去 了 对 信号 处 理 器 的 































































































设计 和 编码 工作 。 对 于 以 等 竺 信号 的 传递 为 唯一 目的 的 程序 而 言 ， 使 用 信号 处 理 需 纯 属 多 此 
— àS, 
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f£ sigwaitinfo() ll sigtimedwait() —FE, JUE Linux 特有 的 signalfdO 系 统 调用 来 同步 等 
竺 一 个 信号 。 这 一 接口 的 独特 之 处 在 于 可 以 通过 文件 描述 符 来 读 取 信号。 还 可 以 使 用 selecto, 
pol0 和 epoll 来 对 其 进行 监控 。 

尽管 可 以 将 信号 视 为 PC 的 方式 之 一 ， 但 诸多 制约 因 系 令 其 常常 无 法 胜任 这 一 目的 ， 其 
中 包括 信和 坊 的 寞 步 本 质 、 不 对 信号 进行 排队 处 理 的 事实 ， 以 及 较 低 的 传递 带宽 。 信 号 更 为 第 
见 的 应 用 场景 是 用 于 进程 同步 ， 或 是 各 种 其 他 目的 〈 比 如 ， 事 件 通知 、 作 籽 探 制 以 及 定时 器 
到 期 )。 

言 号 的 基本 概念 虽然 简单 ， 但 因为 涉及 的 细节 很 多 ， 所 以 对 其 讨论 用 去 了 3 章 的 篇 幅 。 信 
FERAH API 的 各 部 分 中 都 扮演 看 重要 角色 ， 后 面 儿 章 还 将 重 温 对 信号 的 使 用 。 此 外 ， 
还 有 各 种 信号 相关 的 函数 是 针对 线程 的 (比如 ，pthread kill0 和 pthread sigmask())， 将 延 后 
58332 WutfrWWie. 


更 多 信息 
参见 20.15 市 所 列 的 信息 来 源 。 























22.15 练习 


22-1. 222 万 和 曾 指出 ， 假 设 进程 为 SIGCONT 信和 号 建立 了 处 理 喜 图 数 并 将 其 阻塞 ， 如 采 议 
进程 已 停止 《stopped) 后 因 收 到 一 个 SIGCONT 信和 号 而 恢复 执行 ， 那 么 仅 当 解除 了 
对 SIGCONT 信号 的 阻塞 时 才 会 去 调用 信号 处 理 嚣 函数。 编写 一 个 程序 来 验证 这 一 
m. 回忆 一 下 ， 按 下 终端 暂停 字符 (通常 为 Control-Z) 可 以 停止 进程 ， 使 用 kil-CONT 
命令 《或 者 隐 散 一 点 ， 使 用 shell 的 fg Mme) HARI SIGCONT fis. 

22-2. 如 末 实 时 信号 和 标准 信号 在 同时 等 竺 一 个 进程 ， 那 么 SUSv3 对 信和 号 的 传递 顺序 未 
予定 义 。 编 写 一 程序 来 展示 Linux 是 如 何 处 理 这 一 情况 的 。( 令 程序 为 所 有 信和 号 设 
置 处 理 融 函数 ， 阻 塞 这 些 信号 并 持续 一 段 时 间 ， 以 便于 回 其 发 送 各 种 信号 ， 最 后 解 
除 对 所 有 信号 的 阻 竖 。) 

22-3. 22.10 下 指出 ,接收 信号 时 , 利用 sigwaitinfo() 调 用 要 比 信号 处 理 占 外 加 sigsuspend() 
调用 的 方法 来 得 快 。 随 本 书 发 布 的 源码 中 提供 的 signals/sig speed | sigsuspend.c f£ 
序 使 用 sigsuspend() 在 父 、 子 进程 之 间 交 蔡 发 送信 与 。 请 对 两 进程 间 交 换 一 百 万 次 
言 号 所 花费 的 时 间 进 行 计时 。( 信 和 号 交换 次 数 可 通过 程序 命令 行 参数 来 提供 。) 使 用 
sigwaitinfo() 作 为 蕉 代 技 术 来 对 程序 进行 修改 ， 并 度量 该 版 本 的 耗 时 。 两 个 程序 间 的 
速度 差异 在 哪里 ” 

22-4. 使 用 POSIX 信号 API 来 实现 System V 函数 sigset(). sighold(). sigrelse(). sigignore() 
和 sigpause(). 
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. 23. 


XE hias -5 IR 








定时 器 是 进程 规划 目 己 在 未 来 某 一 时 刻 接 获 通 知 的 一 各 机制 。 休 虐 则 能 使 进程 (或 线程 》 
暂 仿 执行 一 段 时 间 。 本 革 讨 论 了 定时 右 设 置 以 及 休眠 的 接口 ， 泗 盖 主 题 如 下 。 
e 针对 间隔 式 定 时 器 设置 的 传统 UNIX API Csetitimer F alarm())， 一 经 设 定 ， 会 在 
特定 的 一 段 时 间 后 通知 进程 。 
e 允许 进程 休 虐 特定 时 间 的 API 接口 。 
e POSIX.1b 时 钟 和 定时 器 API 接口 。 
e Linux 特有 的 timerfd 功能 ， 人 允许 所 创建 定时 右 的 到 期 信息 可 从 文件 描述 符 中 读 取 。 








23.1 间隔 定时 器 
系统 调用 setitimer0 创 建 一 个 间隔 式 定 时 器 (interval timer)， 这 种 定时 器 会 在 未 来 某 个 时 
间 点 到 期 ， 并 于 此 后 《可 选择 地 ) 每 隔 一 段 时 间 到 期 一 次 。 











#include «sys/time.h» 


int setitimer(int which, const struct itimerval *mew value, 
struct itimerval *o/d value); 


Returns 0 on success, or - 1 on error 








通过 在 调用 setitimerO 时 为 which 指定 以 下 值 ， 进 程 可 以 创建 3 种 不 同类 型 的 定时 器 。 
ITIMER REAL 

创建 以 真实 时 间 倒 计时 的 定时 器 。 到 期 时 会 产生 SIGALARM 信号 并 发 送 给 进程 。 
ITIMER VIRTUAL 

创建 以 进程 虚拟 时 间 (用 户 模 式 下 的 CPU 时 间 ) 倒计时 的 定时 器 。 到 期 时 会 产生 信和 号 
SIGVTALRM. 





ITIMER. PROF 
创建 一 个 profiling 定时 器 ， 以 进程 时 间 OH Ps AAAS CPU 时 间 的 总 和 ) 倒计时 。 到 
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期 时 ， 则 会 产生 SIGPROF 信和 号 。 

对 所 有 这 些 信号 的 默认 处 置 〈disposition) 均 会 终止 进程 。 除 非 真 地 期 望 如 此 ， 否 则 吏 需 
要 针对 这 些 定时 右 信 号 创建 处 理 絮 疯 数 。 

参数 new value 和 old. value 均 为 指 问 结 构 itimerval 的 指针 ， 结 构 的 定义 如 下 : 


struct itimerval { 
struct timeval it interval; /* Interval for periodic timer */ 
struct timeval it value; /* Current value (time until 
next expiration) */ 


}; 

结构 itimerval 中 的 字段 类 型 均 为 timeval 结构 ，timeval 又 由 秒 和 微 秒 两 部 分 组 成 : 

struct timeval { 

time t tv sec; /* Seconds */ 
suseconds t tv usec; /* Microseconds (long int) */ 

参数 new value 的 下 属 结 构 it value 指定 了 距离 定时 器 到 期 的 延迟 时 间 。 另 一 下 属 结构 
it interval 则 说 明 该 定时 喜 是 否 为 周期 性 定时 器 。 如 末 it interval 的 两 个 学 段 信 均 为 0， 那么 该 
XE HE SEU T 1Eit value 所 指定 的 时 间 间 隔 后 到 期 的 一 次 性 定时 右 。 上 只 要 it interval 中 的 任 一 
字段 非 0， 那 么 在 每 次 定时 磊 到 期 之后 ， 都 会 将 定时 骼 重 章 为 在 指定 间 隅 后 再 次 到 期 。 

进程 只 能 拥有 上 述 3 种 定时 乾 中 的 一 种 。 当 第 2 次 调用 setitimerQH, fe CUR jE TASA 
属性 要 符合 参数 which 中 的 类 型 。 如 果 调 用 setitimerO 时 将 new value.it value 的 两 个 字段 均 置 
为 0， 那 么 会 屏蔽 任何 已 有 的 定时 器 。 

trži old value 不 为 NULL, 则 以 其 所 指向 的 itimerval 结构 来 返回 定时 器 的 前 一 设置 。 
如 条 old_value.it_value 的 两 个 字段 值 均 为 0， 那 么 该 定时 器 之 前 处 于 屏蔽 状态 。 如 果 
old value.it interval 的 两 个 字段 值 均 为 0, 那么 该 定时 器 之 前 被 设置 为 历经 old value.it value 指定 
时 间 而 到 期 的 一 次 性 定时 器 。 对 于 需要 在 新 定时 器 到 期 后 将 其 还 原 的 情况 而 言 , 获取 定时 器 的 
前 一 设置 就 很 重要 。 如 果 不 关 心 定时 器 的 前 一 设置 ， 可 以 将 old. value 置 为 NULL。 

定时 器 会 从 初始 值 Gt value) 倒计时 一 直到 0 为止。 递减 为 0 时 ， 会 将 相应 信号 发 送 给 
进程 ， 随 后 ， 如 果 时 间 间 隔 值 Gt interval〉 非 0， 那么 会 再 次 将 it value WAE ES, Ey 
开始 同 0 倒计时 。 

可 以 在 任何 时 刻 调 用 getitimer0， 以 了 解 定时 器 的 当前 状态 、 距 离 下 次 到 期 的 剩余 时 间 。 


















































#include «sys/time.h» 


int getitimer(int which, struct itimerval *curr value); 


Returns 0 on success, or -1 on error 











系统 调用 getitimer() 返 回 由 which FE ETAR ABUS PEST HI curr. value 所 指 问 的 
缓冲 区 中 。 这 与 setitimerO 借 参数 old. value 所 返回 的 信息 完全 相同 ， 区 别 则 在 于 getitimer0 无 需 为 
了 获取 这 些 信息 而 改变 定时 器 的 设置 。 子 结构 curr value.it value 返回 距离 下 一 次 到 期 所 剩余 
的 总 时 间 。 该 值 会 随 定 时 占 倒 计时 而 变化 ， 如 果 设 置 定时 器 时 将 it interval 置 为 非 0 值 ， 那 么 
会 在 定时 器 到 期 时 将 其 重 置 。 子 结构 curr value.it interval 返回 定时 器 的 间隔 时 间 ， 除 非 再 次 
调用 setitimerO0， 否 则 该 值 一 直 保 持 不 变 。 

使 用 setitimer() CI alam0， 稍 后 讨论 ) 创建 的 定时 器 可 以 跨越 execO 调 用 而 得 以 保存 ， 
但 由 fork0) 创 建 的 子 进程 并 不 继承 该 定时 占 。 
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SUSv4 废止 了 getitimer() 和 setitimer()， 同 时 推荐 使 用 POSIX 定时 器 API (23.6 市 )。 


示例 程序 


程序 清单 23-1 演示 了 setitimer() 和 getitimerO 的 使 用 ， 押 执行 的 步骤 如 下 。 
。 为 SIGALRM 信号 创建 处 理 右 函数 3)。 
e 利用 命令 行 参数 为 实时 (ITIMER_REAL) 定时 器 设置 到 期 值 及 间隔 时 间 四 。 若 未 提 
共 命 令 行 参数 ， 程 序 默认 创建 一 个 两 秒 到 期 的 一 次 性 定时 器 。 
。 进入 一 个 循环 SD， 消耗 CPU 时 间 并 周期 性 地 调用 函数 displayTimes00. ZAAR 
示 目 程序 局 动 以 来 逝去 的 真实 时 间 ， 以 及 ITIMER_REAL 定时 器 的 当前 状态 。 
每 当 定 时 器 到 期 时 ， 都 会 调用 SIGALRM 处 理 嚣 函数， 其 中 会 去 设置 全 局 标志 gotAlarm2). 一 
旦 设置 了 这 一 标志 , 主 程序 循环 束 会 调用 displayTimersO 来 显示 处 理 器 函数 的 调用 时 点 以 及 定 
时 和 状 态 @)。( 之 所 以 采用 这 一 方式 来 设计 信号 处 理 占 函数 ， 意 在 避免 从 处 理 兹 函数 内 部 去 调 
用 非 异步 信号 安全 的 函数 ， 究 其 原因 可 参考 21.1.2 35.) 如 果 定 时 器 的 时 间 间 隔 为 0，， 那 么 程 
序 会 在 第 1 次 收 到 信号 时 即行 退出 。 人 否则 ， 程 序 会 在 捕获 到 3 个 信号 后 终止 。@O 
运行 程序 清单 23-1 中 的 程序 ， 可 以 看 到 如 下 结 末 : 
$ ./real timer 1 800000 1 0 Initial value 1.8 seconds, interval 1 second 


Elapsed Value Interval 
START: 0.00 



































Main: 0.50 1.30 1.00 Timer counts down until expiration 

Main: 1.00 0.80 1.00 

Main: 1.50 0.30 1.00 

ALARM: 1.80 1.00 1.00 On expiration, timer is reloaded from interval 
Main: 2.00 0.80 1.00 

Main: 2.50 0.30 1.00 

ALARM: 2.80 1.00 1.00 

Main: 3.00 0.80 1.00 

Main: 3.50 0.30 1.00 

ALARM: 3.80 1.00 1.00 


That's all folks 


程序 清单 23-1: KERERE 
timers/real_timer.c 
#include <signal.h> 
#include <sys/time.h> 


#include <time.h> 
#include "tlpi hdr.h" 


static volatile sig atomic t gotAlarm = 0; 
/* Set nonzero on receipt of SIGALRM */ 


/* Retrieve and display the real time, and (if 'includeTimer' is 
TRUE) the current value and interval for the ITIMER REAL timer */ 


static void 
(D displayTimes(const char *msg, Boolean includeTimer) 


struct itimerval itv; 

static struct timeval start; 

struct timeval curr; 

static int callNum = 0; /* Number of calls to this function */ 
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if (callNum == 0) /* Initialize elapsed time meter */ 
if (gettimeofday(&start, NULL) == -1) 
errExit("gettimeofday"); 


if (callNum % 20 == O) /* Print header every 20 lines */ 
printf(" Elapsed Value IntervalWn"); 
if (gettimeofday(&curr, NULL) == -1) 
errExit("gettimeofday"); 
printf("-7s %6.2f", msg, curr.tv sec - start.tv sec + 
(curr.tv usec - start.tv usec) / 1000000.0); 


if (includeTimer) { 
if (getitimer(ITIMER REAL, &itv) -- -1) 
errExit("getitimer"); 
printf(" %6.2f %6.2f", 
itv.it value.tv sec + itv.it value.tv usec / 1000000.0, 
itv.it interval.tv sec + itv.it interval.tv usec / 1000000.0); 


j 


printf("Nn"); 
callNum++; 


j 


static void 
sigalrmHandler(int sig) 


© gotAlarm = 1; 
} 
int 
main(int argc, char *argv[]) 
struct itimerval itv; 
clock t prevClock; 
int maxSigs; /* Number of signals to catch before exiting */ 


int sigCnt; /* Number of signals so far caught */ 
struct sigaction sa; 


if (argc > 1 88 strcmp(argv[1], "--help") == 0) 
usageErr("Xs [secs [usecs [int-secs [int-usecs]]]]Wn", argv[0]); 


sigCnt - 0; 
sigemptyset(&8sa.sa mask); 
sa.sa flags = O0; 
sa.sa handler - sigalrmHandler; 
o if (sigaction(SIGALRM, &sa, NULL) == -1) 
errExit("sigaction"); 


/* Exit after 3 signals, or on first signal if interval is O */ 


maxSigs = (itv.it interval.tv sec -- 0 && 
itv.it interval.tv usec == 0) ? 1 : 3; 


displayTimes("START:", FALSE); 
/* Set timer from the command-line arguments */ 


itv.it value.tv sec = (argc > 1) ? getLong(argv[1], 0, "secs") : 2; 
itv.it value.tv usec = (argc > 2) ? getlLong(argv[2], 0, "usecs") : 0; 
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itv.it interval.tv sec = (argc > 3) ? getLong(argv[3], 0, "int-secs") : 0; 
itv.it interval.tv usec = (argc > 4) ? getLong(argv[4], 0, "int-usecs") : O; 


(4) if (setitimer(ITIMER REAL, &itv, 0) == -1) 
errExit("setitimer"); 


prevClock = clock(); 
sigCnt - 0; 


o for (;) ( 
/* Inner loop consumes at least 0.5 seconds CPU time */ 
while (((clock() - prevClock) * 10 / CLOCKS PER SEC) « 5) ( 
(6) if (gotAlarm) ( /* Did we get a signal? */ 
gotAlarm - 0; 
displayTimes("ALARM:", TRUE); 
sigCnt++; 
o if (sigCnt >= maxSigs) { 


printf("That's all folks\n"); 
exit(EXIT_SUCCESS); 


} 


prevClock = clock(); 
displayTimes("Main: ", TRUE); 


timers/real timer.c 


更 为 简单 的 定时 器 接口 : alarm() 


系统 调用 alarm() 为 创建 一 次 性 实时 定时 器 提供 了 一 个 人 简单 接口 。( 历 史上 ，alarm() 曾 是 设 
"EAE INI S) d UNIX API. ) 





dinclude <unistd.h> 


unsigned int alarm(unsigned int seconds); 


Always succeeds, returning number of seconds remaining on 
any previously set timer, or 0 if no timer previously was set 








参数 seconds 表示 定时 器 到 期 的 秒 数 。 到 期 时 ， 会 向 调用 进程 发 送 SIGALRM 信和 号。 
调用 alarm 48 sto] XE HI TIR — P Es UH] alarm(0) n] DELA xe I| o 
alarm) If] «e B xe x& FI ss Bu — vx Er EB c HH AS REP, UY E E ms ux [e| 0. 
23.3 厄 提 供 了 一 个 使 用 alarm() 的 例子 。 











本 书后 面 的 一 些 示例 会 使 用 alarm(0 来 局 动 定 时 器 ， 同 时 不 为 SIGALRM 信号 设置 处 理 
器 函数 。 采 用 该 技术 可 以 确保 ， 即 便 进 程 没 有 终止 ， 也 能 将 其 杀 死 。 





setitimer() 和 alarm() 之 间 的 交互 


Linux 中 ，alarm() 和 setitimer() 针 对 同一 进程 (per-process) 共享 同一 实时 定时 右 ， 这 也 章 
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味 着 ,无 论调 用 两 者 之 中 的 哪个 完成 了 对 定时 器 的 前 一 设置 ， 同 样 可 以 调用 二 者 中 的 任 一 函 
数 来 改变 这 一 设置 。 其 他 UNIX 系统 的 情况 可 能 会 有 所 不 同 〈 也 就 是 说 ， 这 两 个 函数 可 能 分 别 
控制 着 不 同 的 定时 器 )。 对 于 setitimer() 5 alarmg0 之 间 的 交互 ， 以 及 二 者 与 sleep0 函 数 (23.4.1 节 ) 
之 间 的 交互 ，SUSv3 均 未 加 以 规范 。 为 了 确保 应 用 程序 可 移植 性 的 最 大 化 ， 程 序 设置 实时 定 
时 器 的 函数 只 能 在 二 者 中 选择 其 一 。 























23.2 ”定时 器 的 调度 及 精度 


取决 于 当前 负载 和 对 进程 的 调度 ， 系 统 可 能 会 在 定时 避 到 期 的 瞬间 (通常 是 儿 分 之 一 秒 ) 
之 后 才 去 调度 其 所 属 进 程 。 尽 管 如 此 ， 由 setitimer() 或 本 章 后 续 介 绍 的 其 他 接口 所 创建 的 周 
期 性 定时 堪 ， 在 到 期 后 依然 会 恪守 其 规律 性 。 例如， 假设 设置 一 个 实时 定时 峰 每 两 秒 到 期 一 
W, 里 然 上 述 延 迟 可 能 会 影响 每 个 定时 费事 件 的 迹 达 ,但 系统 对 后 续 定 时 帮 到 期 的 调度 依然 
会 严格 这 循 两 秒 的 时 间 间 隔 。 换 言 乙 ， 间 隅 陈 定 时 需 不 受 潜在 错误 左右 。 

虽然 setitimer() 使 用 的 timeval 结构 提供 有 微 秒 级 精度 , 但 是 传统 意义 上 定时 融 业 度 偿 是 受 
制 于 软件 时 钟 〈10.6 Tm 频率 。 如 果 定 时 器 值 未 能 与 软件 时 钟 间 隔 的 倍数 严格 匹配 ， 那 么 定时 器 
值 则 会 同上 取 整 。 也 就 是 说 ， 假 如 有 一 个 间 隅 为 19100 微 秒 〈 刚 刚 超过 19 毫秒 ) 的 定时 器 ， 如 果 
jiffy 《软件 时 钟 周期 ) 为 4 坚 秒 ， 那 么 定时 器 实际 上 会 每 隔 20 军 秒 过 期 一 次 。 















































高 分 辨 率 定 时 器 

对 于 现代 Linux 内 核 而 言 ， 适 才 关 于 定时 器 分 辩 率 受 限 于 软件 时 钟 频 率 的 论断 已 经 不 再 成 
XL. HIRA 2.6.21 开始 ，Linux 内 核 可 选择 是 否 文 持 局 分 辩 京 定时 器 。 如 果 选 择 文 持 ( 通 过 内 
核 配置 选项 CONFIG_HIGH RES_TIMERS )， 那 么 本 重 各 种 定时 器 以 及 休眠 接口 的 的 精度 则 
不 再 受 内 核 jiffy 软件 时 钟 周 期 ) 的 影响 ， 可 以 达到 撒 层 使 件 所 文 持 的 精度 。 在 现代 便 件 平 
侣 上 ， 精 度 达 到 微 秒 级 是 司空 见 惯 的 事情 。 


23.5.1 节 将 介绍 函数 clock _getres0， 可 以 用 其 返回 值 来 判断 系统 是 人 否 文 持 高 分 辨 率 定 时 由 。 





























23.3 ”为 阻 暴 操作 设置 超时 


实时 定时 器 的 用 途 之 一 是 为 某 个 阻塞 系统 调用 设置 其 处 于 阻塞 状态 的 时 间 上 限 。 例 
如 ， 当 用 户 在 一 段 时 间 内 没有 输入 整 行 命令 时 ， 可 能 希望 取消 对 终端 的 read0 操 作 。 处 理 
WF 
1. 调用 sigaction)7y SIGALRM 信号 创建 处 理 器 函数 ， 排 除 SA RESTART 标志 以 确保 系统 

调用 不 会 重新 局 动 〈 参 考 21.5 F). 

2. 调用 alarm0 或 setitimer() 来 创建 一 个 定时 器 ， 同 时 设 定 希望 系统 调用 阻塞 的 时 间 上 限 。 
3. 执行 阻塞 式 系统 调用 。 
4. 系统 调用 返回 后 ， 再 次 调用 alarm() 或 setitimer() 以 屏蔽 定时 器 (以 防止 系统 调用 在 定时 器 

到 期 之 前 就 已 完成 的 情况 )。 

5. 检查 系统 调用 失败 时 是 否 将 errno 置 为 EINTR (系统 调用 遭 到 中 断 )。 
程序 清单 23-2 针对 read0 调 用 展示 了 这 一 技术 ， 创 建 定 时 器 时 使 用 的 是 alarm()。 
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程序 清单 23-2: 运行 设置 了 超时 的 read() 


#include «signal.h» 
#include "tlpi hdr.h" 


#define BUF SIZE 200 


static void 


handler(int sig) 


} 


int 


printf("Caught signalWin"); 


main(int argc, char *argv[]) 


{ 


struct sigaction sa; 
char buf[BUF_SIZE]; 
ssize t numRead; 

int savedErrno; 


timers/timed read.c 


/* SIGALRM handler: interrupts blocked system call */ 


/* UNSAFE (see Section 21.1.2) */ 


if (argc > 1 88 strcmp(argv[1], "--help") == 0) 
usageErr("Xs [num-secs [restart-flag]]Wn", argv[0]); 


/* Set up handler for SIGALRM. Allow system calls to be interrupted, 
unless second command-line argument was supplied. */ 


sa.sa flags - (argc » 2) ? SA RESTART : 0; 


sigemptyset(8sa.sa mask); 
sa.sa handler - handler; 


if (sigaction(SIGALRM, &sa, NULL) -- 


errExit("sigaction"); 


-1) 


alarm((argc » 1) ? getInt(argv[1], GN NONNEG, "num-secs") : 10); 


numRead - read(STDIN FILENO, buf, BUF SIZE - 1); 


savedErrno - errno; 
alarm(0); 
errno - savedErrno; 


/* Determine result of read() */ 


if (numRead -- -1) { 
if (errno -- EINTR) 
printf("Read timed outin"); 
else 
errMsg(" read"); 
} else { 


/* In case alarm() changes it */ 
/* Ensure timer is turned off */ 


printf("Successful read (%ld bytes): %.*s", 
(long) numRead, (int) numRead, buf); 


j 


exit(EXIT SUCCESS); 


timers/timed read.c 
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注意 ， 程 序 清 单 23-2 中 程序 理论 上 存在 导致 竞争 条 件 的 可 能 性 。 如 条 定时 需 到 期 时 处 于 
alarmO 调 用 之 后 ，read0 调 用 之 前 ， 那 么 信号 处 理 器 函数 将 不 会 中 断 read()。 由 于 在 这 种 场景 
下 设 定 的 超时 值 一 般 相 对 较 大 《至 少儿 秒 )， 故 而 发 生 上 述 情况 的 概率 极 低 ， 因 此 这 种 技术 实 
际 上 是 可 行 的 。[Stevens & Rago, 2005] 推 荐 了 另 一 种 方法 ， 使 用 的 是 longjmpO。 在 处 理 IO 系 
统 调用 时 ， 还 有 另 一 种 备 选 方案 ， 利 用 了 系统 调用 select0 或 pol0 E 63 章 ) 的 超时 特性 ， 
锅 上 添 花 的 是 还 能 同时 等 得 多 路 描述 人 符 的 UO. 


23.4 ”暂停 运行 (休眠 ) 一 段 固 定时 间 

有 时 需要 将 进程 挂 起 (国定 的 ) 一 段 时 间 。 将 前 述 定 时 器 函数 与 sigsuspend() 相 结合 固然 
可 以 达到 这 一 目的 ， 但 使 用 休眠 函数 会 更 为 和 价 单 。 
23.4.1 低 分 辨 率 休 眠 :sleep() 


FK Zt sleep0 可 以 暂停 调用 进程 的 执行 达 数 秒 之 和 信 【〈 由 参数 seconds 设置 )， 或 者 在 捕获 到 
Hs OA msg Ho 后 恢复 进程 的 运行 。 


dinclude <unistd.h> 
































unsigned int sleep(unsigned int seconds); 


Returns 0 on normal completion, or number of 
unslept seconds if prematurely terminated 


如 采 体 眠 正 第 结束 ，sleepO 返 回 0。 如 末 因 信号 而 中 断 休 眠 ，sleepO 将 返回 剩余 〈 未 休眠 ) 
的 秒 数 。 与 alarm() 和 setitimerO 所 设置 的 定时 器 相同 ， 由 于 系统 负载 的 原因 ， 内 核 可 能 会 在 完 
成 SleepO 的 一 段 〈 通 第 很 短 ) 时 间 后 才 对 进程 重新 加 以 调度 。 

对 于 SleepO0 和 alarmO 以 及 setitimer()Z MJX EHIN, SUSv3 并 未 加 以 规范 。Linux 将 
sleepO 实 现 为 对 nanosleep() (23.4.2 $) 的 调用 ， 其 结果 是 sleep(0) 与 定时 器 函数 之 间 并 无 交 
互 。 不 过 , 许多 其 他 的 实现 ， 尤其 是 一 些 老 系统 ， 会 使 用 alarm() 以 及 SIGALRM 信和 号 处 理 器 
函数 来 实现 sleep()。 考 虑 到 可 移植 性 ， 应 避免 将 sleep() 和 alarm() 以 及 setitimerO 混 用 。 


23.4. ”高 分 辨 次 休眠 : nanosleep() 


PKZ nanosleepO IJ 1H] 5j sleepO2S Bl, 但 更 具 优 势 ,其 中 包括 能 以 更 高 分 辨 率 来 设 定 休 也 
间隔 时 间 。 









































#define POSIX C SOURCE 199309 
include «time.h» 
int nanosleep(const struct timespec *request, struct timespec *remam); 


Returns 0 on successfully completed sleep, 
or -1 on error or interrupted sleep 








参数 request TRE Y PRIKITISESERI IRI, i6 depu PZSRJBJTRE: 
struct timespec { 

time t tv sec; /* Seconds */ 

long tv nsec; /* Nanoseconds */ 


J3 
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tv nsec 字段 为 纳 秒 值 ， 取 值 范围 在 0— 999999999 之 间 。 

nanosleep() 的 更 大 优势 在 于 ，SUSv3 明文 规定 不 得 使 用 信号 来 实现 该 函数 。 这 意味 看 ， 与 
sleepO 不 同 ， 即 使 将 nanosleep0 5 alarmg0 或 setitimerO 混 用 ， 也 不 会 危及 程序 的 可 移植 性 。 

S nanosleep0 的 实现 并 未 使 用 信号 ， 但 还 是 可 以 通过 信号 处 理 器 函数 来 将 其 中 断 。 这 时 ， 
nanosleep(O 将 返回 -1， 并 将 errno 置 为 EINTR。 同 时 ， 寿 参数 remain 不 为 NULL， 则 该 指针 所 指 
回 的 缓冲 区 将 返回 剩余 的 休眠 时 间 。 可 利用 这 一 返回 值 重 启 该 系统 调用 以 完成 休眠 。 程 序 清单 23-3 
演示 了 这 一 用 途 。 程 序 从 命令 行 参数 中 获取 传 入 nanosleepO 的 秒 和 纳 秒 值 ， 并 反复 循环 执行 
nanosleep0， 直 全 耗 尽 全 部 的 体 眠 间 隅 时 间 。 如 采信 号 SIGINT GX F Ctrl-C 产生 ) II ABPE SR PR 
将 nanosleep0 中 断 ， 那 么 会 以 参数 remain 中 的 返回 值 重 新 调用 nanosleep()。 其 运行 结果 如 下 : 


$ ./t nanosleep 10 0 Sleep for 10 seconds 
Type Control-C 

Slept for: 1.853428 secs 
Remaining:  8.146617000 
Type Control-C 

Slept for: 4.370860 secs 
Remaining:  5.629800000 
Type Control-C 

Slept for: 6.193325 secs 
Remaining:  3.807758000 
Slept for: 10.008150 secs 
Sleep complete 


虽然 nanosleep0 〇 允许 设 定 纳 秒 级 精度 的 休 虐 间隔 值 ， 但 其 精度 依然 受制 于 软件 时 钟 
的 间隔 大 小 (10.6 市 )。 如 果 指 定 的 间隔 值 并 非 软 件 时 钟 间 阳 的 整数 倍 ， 那 么 会 对 其 同上 
取 整 。 





















































前 文 曾 提 及 ， 在 文 持 高 精度 定时 需 的 系统 中 ， 休 眠 时 间 间 隔 的 糊 度 要 比 软件 时 钟 间 隔 
精细 许多 。 


当 以 高 频率 接收 信号 时 ， 这 一 取 整 行为 会 给 程序 清单 23-3 中 程序 所 采用 的 编程 手法 融 来 
问题 。 由 于 返回 的 remain 时 间 未 必 是 软件 时 钟 间隔 的 整数 倍 ， 故 而 nanosleep0 的 每 次 重 局 都 
会 让 遇 取 整 错误 。 其 结束 是 ，nanosleepO 每 次 重启 后 的 休眠 时 间 都 要 长 于 前 一 调用 返回 的 
remain 值 。 在 信号 接收 频率 极 高 的 情况 下 《与 软件 时 钟 间隔 的 频率 一 致 或 更 局 )， 进 程 的 休眠 
可 能 永远 也 完成 不 了 。Linux 2.6 F, EHE TIMER ABSTIME 选项 的 clock nanosleep() HJ 
以 避免 这 一 问题 。23.5.4 节 将 对 clock nanosleepO 加 以 讨论 。 


在 2.4 以 及 更 早期 的 Linux 内 核 版 本 中 ，nanosleepO 的 实现 存在 着 一 种 奇怪 的 特性 。 假 
设 正 在 执行 nanosleepO 的 进程 因 信 和 号 而 停止 ， 当 进程 于 稍 后 截获 SIGCONT 而 继续 运行 时 ， 
nanosleep() 会 如 期 调用 失败 并 返回 EINTR 错误。 不 过 ， 如 果 进 程 接着 重 局 nanosleep() 调 用 ， 
那么 进程 处 于 停止 状态 所 消耗 的 时 间 将 不 会 计 入 休 虐 间 阳 时间， 进程 的 休 虐 时 间 也 束 比 预 
期 的 要 和 久 。Linux 2.6 中 去 除了 这 一 怪异 特性 ，nanosleepO 在 收 到 SIGCONT 信号 时 将 自动 恢 
复 ， 进 程 处 于 停止 状态 所 消耗 的 时 间 也 会 计 入 休 虐 间 隅 时 间 。 
























































程序 清单 23-3: 使 用 nanosleep( 


timers/t nanosleep.c 


#define POSIX C SOURCE 199309 
#include «sys/time.h» 
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itinclude «time.h» 
include «signal.h» 
include "tlpi hdr.h" 


static void 
sigintHandler(int sig) 
i 


j 


return; /* Just interrupt nanosleep() */ 


int 
main(int argc, char *argv[]) 


struct timeval start, finish; 
struct timespec request, remain; 
struct sigaction sa; 

int s; 


if (argc != 3 || strcemp(argv[1], "--help") == 0) 
usageErr("%s secs nanosecsWn", argv[0]); 


request.tv sec = getlong(argv[1], 0, "secs"); 
request.tv nsec = getLong(argv[2], 0, "nanosecs"); 


/* Allow SIGINT handler to interrupt nanosleep() */ 


sigemptyset(8sa.sa mask); 

sa.sa flags - 0; 

sa.sa handler - sigintHandler; 

if (sigaction(SIGINT, &sa, NULL) == -1) 
errExit("sigaction"); 


if (gettimeofday(8start, NULL) == -1) 
errExit("gettimeofday"); 


for (;;) ( 
s = nanosleep(Srequest, &remain); 
if (s == -1 88 errno !- EINTR) 
errExit("nanosleep"); 


if (gettimeofday(&finish, NULL) == -1) 
errExit("gettimeofday"); 
printf("Slept for: %9.6f secs\n", finish.tv sec - start.tv sec + 
(finish.tv usec - start.tv usec) / 1000000.0); 


if (s -- 0) 
break; /* nanosleep() completed */ 


printf("Remaining: %2l1d.%091d\n", (long) remain.tv sec, 
remain.tv nsec); 


request - remain; /* Next sleep is with remaining time */ 


j 


printf("Sleep complete Wn"); 
exit(EXIT SUCCESS); 


timers/t nanosleep.c 
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23.5 POSIX 时 钟 


POSIX 时 钟 ( 原 定义 于 POSIX.IbO 所 提供 的 时 钟 访 问 API 可 以 文 持 纳 秒 级 的 时 间 精 
上 度 ， 其 中 表示 纳 秒 级 时 间 值 的 tmespec 结构 同样 也 用 于 nanosleep() (23.4.2 市 ) 调用 。 
Linux 中 ， 调 用 此 API 的 程序 必须 以 -lrt 选项 进行 编译 ， 从 而 与 librt (realtime， 实 时 ) PK 
数 库 相 链 接 。 
POSIX 时 钟 API 的 主要 系统 调用 包括 获取 时 钟 当 前 值 的 clock. gettime(). 返回 时 钟 分 辩 率 
的 clock getres()， 以 及 更 狐 时 钟 的 clock settime()。 


23.5.4 获取 时 钟 的 什 : clock_gettime() 
系统 调用 clock_gettime() 针 对 参数 clockid 所 指定 的 时 钟 返回 时 间 。 











#define POSIX C SOURCE 199309 
#include <time.h> 


int clock gettime(clockid t clockid, struct timespec */p); 
int clock getres(clockid t clockzd, struct timespec *res); 








Both return 0 on success, or -1 on error 


返回 的 时 间 值 置 于 tp 指针 所 指向 的 timespec 结构 中 。 虽 然 timespec 结构 提供 了 纳 秒 级 精度 ， 
但 clock_gettime() 返 回 的 时 间 值 粒度 可 能 还 是 要 更 大 一 点 。 系 统 调 用 clock getres) 1E 2 2X res 
中 返回 指 问 timespec 结构 的 指针 ， 机 构 中 包含 了 由 clockid 所 指定 时 钟 的 分 辩 率 。 

clockid t 是 一 种 由 SUSv3 定义 的 数据 类 型 ， 用 于 表示 时 钟 标识 符 。 表 23-1 中 第 1 列 值 即 
可 用 于 设 定 clockid. 











X 23-1: POSIX.1b 时 钟 类 型 








CLOCK REALTIME 时 钟 是 一 种 系统 级 时 钟 ， 用 于 度 量 真实 时 间 。 与 CLOCK _ MONOTONIC 时 
钟 不 同 ， 它 的 设置 是 可 以 变更 的 。 

SUSv3 规定 ，CLOCK MONOTONIC 时 钟 对 时 间 的 度量 始 于 “未 予 规范 的 过 去 某 一 时 
点 ” 系统 局 动 后 束 不 会 发 生 改 变 。 该 时 钟 适用 于 那些 无 法 容 寂 系统 时 钟 发 生 跳 嘱 性 变化 ( 例 
al: 手工 改变 了 系统 时 间 ) 的 应 用 程序 。Linux 上 ， 这 种 时 钟 对 时 间 的 测量 始 于 系统 启动 。 

CLOCK PROCESS CPUTIME ID 时 钟 测量 调用 进程 所 消耗 的 用 户 和 系统 CPU 时 间 。 
CLOCK THREAD CPUTIME ID 时 钟 的 功用 与 之 相 类 似 ， 不 过 测量 对 象 是 进程 中 的 单条 线程 。 

SUSv3 规范 了 表 23-1 中 的 所 有 时 钟 ， 但 强制 要 求实 现 的 仅 有 CLOCK_REALTIME 一 种 ， 
这 同时 也 是 受到 UNIX 实现 广泛 支持 的 时 钟 类 型 。 
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Linux 2.6.28 增加 了 一 种 新 的 时 钟 类 型 : CLOCK MONOTONIC RAW。 类 似 于 CLOCK 
MONOTONIC， 这 也 是 一 种 无 法 设置 的 时 钟 ， 但 是 提供 了 对 纯 基于 便 件 时 间 的 访问 ， 且 不 
受 NTP 时 间 调 整 的 影响 。 这 种 非 标 准时 钟 适用 于 专业 时 钟 同步 应 用 程序 。 

Linux 2.6.35 又 提供 了 两 种 新 时 钟 ， CLOCK REALTIME COARSE 和 CLOCK MONTIC - 
COARSE, 这 些 时 钟 类 似 于 CLOCK REALTIME 和 CLOCK MONTONIC, 适用 于 那些 希望 
以 最 小 代价 获取 较 低 分 辩 率 时 间 惟 的 程序 。 这 些 非 标准 时 钟 不 会 引发 对 硬件 时 钟 的 任何 访问 
(访问 某 些 人 硬件 时 钟 源 的 代价 高 郧 )， 其 返回 值 的 分 辨 京 为 jiffy (软件 时 钟 周 期 ， 见 10.6 1). 














23.5.2 ”设置 时 钟 的 什 : clock_settime() 
系统 调用 clock. settimeO 利 用 参数 tp 所 指 问 缕 冲 区 中 的 时 间 来 设置 由 clockid 指定 的 时 钟 。 


#define POSIX C SOURCE 199309 
#include <time.h> 





int clock settime(clockid t clockid, const struct timespec *tp); 





Returns 0 on success, or -1 on error 








WFH tp 指定 的 时 间 并 非 由 clock_getresO 所 返回 时 钟 分 辩 率 的 整数 倍 ， 时 间 会 向 下 取 整 。 
特权 级 (CAP_SYS_TIME) 进程 可 以 设置 CLOCK_REALTIME 时 钟 。 该 时 钟 的 初始 值 通 党 
是 自 Epoch (1970 年 1 月 1 日 0 点 0 分 0 秒 ) 以 来 的 时 间 。 表 23-1 中 的 其 他 时 钟 均 不 可 更 改 。 


根据 SUSv3， 系 统 实现 可 允许 设置 CLOCK PROCESS CPUTIME ID 和 CLOCK THR 
EAD CPUTIME ID 型 时 钟 。 搂 写本 书 之 际 ， 这 些 时 钟 在 Linux 上 依然 是 只 读 属性 。 


23.5.3 ”获取 特定 进程 或 线程 的 时 钟 ID 

要 测量 特定 进程 或 线程 所 消耗 的 CPU 时 间 ， 首 先 可 借助 本 节 所 描述 的 函数 来 获取 其 时 钟 
ID。 接 看 再 以 此 返回 id 去 调用 clock_gettime()， 从 而 获得 进程 或 线程 耗费 的 CPU 时 间 。 

函数 clock_getcpuclockid0 会 将 隶属 于 pid 进程 的 CPU 时 间 时 钟 的 标识 符 置 于 clockid 指针 
所 指向 的 缓冲 区 中 。 


#define XOPEN SOURCE 600 
#include <time.h> 











int clock getcpuclockid(pid t pid, clockid t *clockid); 








Returns 0 on success, or a positive error number on error 





参数 pid 为 0 Wf, clock getcpuclockid0 返 回调 用 进程 的 CPU 时 间 时 钟 ID. 
函数 pthread getcpuclockidO 是 clock getcpuclockid() 的 POSIX 线程 版 , 返回 的 标识 符 所 标 
识 的 时 钟 用 于 上 度量 调用 进程 中 指定 线程 消耗 的 CPU 时 间 。 














#define XOPEN SOURCE 600 
#include <pthread.h> 
#include <time.h> 


int pthread getcpuclockid(pthread t thread, clockid t *clockid); 


Returns 0 on success, or a positive error number on error 
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参数 thread 是 POSIX 线程 ID， 用 于 指定 希望 获取 的 CPU 时 钟 ID 所 从 属 的 线程 。 返 回 的 
时 钟 ID 存放 于 clockid 指针 所 指 问 的 缓冲 区 中 。 
23.5.4 ”高 分 辩 庚 休眠 的 改进 版 ，clock_nanosleep() 


类 似 于 nanosleep()，Linux 特有 的 clock nanosleepO 系 统 调用 也 可 以 暂停 调用 进程 ， 直 到 
历经 一 段 指定 的 时 间 间 隔 后 ， 亦 或 是 收 到 信号 才 恢 复 运行 。 本 方 将 讨论 两 者 间 的 差 寞 。 














#define XOPEN SOURCE 600 
#include <time.h> 


int clock nanosleep(clockid t clockid, int flags, 
const struct timespec *request, struct timespec *remain); 


Returns 0 on successfully completed sleep, 
or a positive error number on error or interrupted sleep 








参数 request 及 remain |E] nanosleepO 中 的 对 应 参数 目的 相似 。 

默认 情况 下 《〈 即 flags 7j 00, H request 指定 的 休 虐 间隔 时 间 是 相对 时 间 (类 似 于 nanosleepO). 
不 过 ， 如 果 在 flags (参考 程序 清单 23-4) 中 设 定 了 TIMER ABSTIME, request 则 表示 clockid 
时 钟 所 测量 的 绝对 时 间 。 这 一 特性 对 于 那些 需要 精确 休眠 一 段 指定 时 间 的 应 用 程序 全 关 重 要 。 
如 果 只 是 先 获取 当前 时 间 ， 计 算 与 目标 时 间 的 差距 ， 再 以 相对 时 间 进 行 休眠 ， 进 程 可 能 执行 
到 一 半 就 被 占 先 了 ， 结 果 休 眠 时 间 比 预期 的 要 久 。 

如 23.4.2 节 所 述 ， 对 于 那些 被 信号 处 理 喜 函数 中 断 并 使 用 循环 重启 休眠 的 进程 来 说,“ 嘲 睡 
(Coversleeping)” 问 题 尤 其 明显 。 如 果 以 高 频率 接收 信号 ， 那 么 按 相 对 时 间 休 了 上 CnanosleepO 
所 执行 的 类 型 ) 的 进程 在 休眠 时 间 上 会 有 较 大 误差 。 但 可 以 通过 如 下 方式 来 避免 嗜睡 问题 : 
先 调用 clock gettime0 获 取 时 间 ， 加 上 期 望 体 眠 的 时 间 量 ， 再 以 TIMER_ABSTIME 标志 调用 
clock_nanosleep0 〇 函数 《并 且 ， 如 果 被 信号 处 理 嚣 中断 ， 则 会 重启 系统 调用 )。 

指定 TIMER. ABSTIME 时 , 不 再 (日 不 需要 ) 使 用 参数 remain. n A ei AREE FEY PIS 
了 clock_nanosleep() 调 用 ， 再 次 调用 该 函数 来 重启 休 虐 时 ，request 参数 不 变 。 

将 clock_nanosleep() 与 nanosleepO 区 分 开 来 的 另 一 特性 在 于 ,可 以 选择 不 同 的 时 钟 来 测量 休 
眼 间 隅 时 间 。 可 在 clockid 中 指定 所 期 望 的 时 钟 CLOCK REALIIME、CLOCK_MONOTONIC 
或 CLOCK PROCESS CPUTIME ID。 请 参考 表 23-1 对 这 些 时 钟 的 描述 。 

程序 清单 23-4 演示 了 clock nanosleepO0 的 用 法 : 针对 CLOCK REALTIME 时 钟 ， 以 绝对 
IT TRAHI 20 秒 。 


程序 清单 23-4: 使 用 clock_nanosleep0() 









































struct timespec request; 
/* Retrieve current value of CLOCK REALTIME clock */ 


if (clock gettime(CLOCK REALTIME, &request) -- -1) 
errExit("clock gettime"); 


request.tv sec += 20; /* Sleep for 20 seconds from now */ 


1 详 者 注 : 内 核 调度 所 为 。 
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s - clock nanosleep(CLOCK REALTIME, TIMER ABSTIME, &request, NULL); 
if (s ! 0) { 
if (s -- EINTR) 
printf("Interrupted by signal handler*n"); 
else 
errExitEN(s, "clock nanosleep"); 





23.6 POSIX 间隔 式 定 时 器 


使 用 setitimer() 来 设置 经 典 UNIX 间隔 陈 定 时 器 ， 会 受到 如 下 制约 。 

e 针对 ITIMER REAL, ITIMER VIRTUAL 和 ITIMER PROF ix 3 类 定时 器 , 每 种 只 能 
设置 一 个 。 

e 只 能 通过 发 送信 号 的 方式 来 通知 定时 器 a 到 期 。 男 外 ， 也 不 能 改变 到 期 时 产生 的 信号 。 

e 如 果 一 个 间 隅 式 定 时 需 到 期 多 次 ， 且 相应 信号 遭 到 阻 压 时 ， 那 么 会 只 调用 一 次 信号 处 
理 器 函数 。 换 言 之 ， 无 从 知晓 是 否 出 现 过 定时 器 洲 出 〈timer overrun) 的 情况 。 

e 定时 喜 的 分 辨 率 只 能 达到 微 秒 级 。 不 过 ， 一 些 系统 的 便 件 时 钟 提供 了 更 为 精细 的 时 钟 
分 辨 率 ， 软 件 此 时 应 采用 这 一 较 高 分 辨 率 。 

POSIX.1b 定义 了 一 套 API 来 突破 这 些 限 制 ，Linux 2.6 实现 了 这 一 API。 





























EREN Linux 系统 上 ，glibc 通过 基于 线程 的 实现 提供 了 这 一 API 的 不 完整 版 。 不 过 ， 
这 种 用 户 空 间 内 的 实现 是 无 法 提供 此 处 描述 的 所 有 特性 的 。 


POSIX 定时 器 API 将 定时 器 生命 周期 划分 为 如 下 几 个 阶段 。 

e 以 系统 调用 timer_create() 创 建 一 个 狐 定时 器 ， 并 定义 其 到 期 时 对 进程 的 通知 方法 。 

e 以 系统 调用 timer settime() 来 启动 或 停止 一 个 定时 器 。 

e 以 系统 调用 timer deleteO 删 除 不 绸 需要 的 定时 器 。 

由 forkO 创 建 的 子 进程 不 会 继承 POSIX 定时 器 ,调用 execO 期 间 尔 或 进程 终止 时 将 停止 并 
删除 定时 器 。 

Linux 上 ， 调 用 POSIX 定时 器 API 的 程序 编译 时 应 使 用 -trt 选项 ， 从 而 与 librt( 实 时 ) B 
数 库 相 链接 。 


23.6.1 创建 定时 器: timer create() 
FR Z timer_create0) 创 建 一 个 狐 定时 右 ， 并 以 由 clockid 487E HIS] PEOR ET] I] [8] JE E o 

















#define POSIX C SOURCE 199309 
#include «signal.h» 
#include <time.h> 


int timer create(clockid t clockid, struct sigevent *evp, timer t *timerid); 





Returns 0 on success, or -1 on error 








设置 参数 clockid， 可 以 使 用 表 23-1 中 的 任意 值 ， 也 可 以 采用 clock getepuclocid() 5X 
pthread_getcpuclockidO 返 回 的 clockid 值 。 函数 返回 时 会 在 参数 timerid 所 指 问 的 缓冲 区 中 放置 
定时 恬 句 顶 (handle)， 供 后 续 调 用 中 指 代 该 定时 喜之 用 。 这 一 绥 冲 区 的 类 型 为 timer t+， 是 一 
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种 由 SUSv3 定义 的 数据 类 型 ， 用 于 标识 定时 部 。 
参数 evp 可 决定 定时 占 到 期 时 对 应 用 程序 的 通知 方式 ， 指 向 类 型 为 sigevent 的 数据 结构 ， 








HAE Xl P: 
union sigval { 
int sival int; /* Integer value for accompanying data */ 
void *sival ptr; /* Pointer value for accompanying data */ 
struct sigevent { 
int sigev notify; /* Notification method */ 
int sigev signo; /* Timer expiration signal */ 
union sigval sigev value; /* Value accompanying signal or 
passed to thread function */ 
union { 
pid t tid; /* ID of thread to be signaled / 
struct ( 


void (* function) (union sigval); 
/* Thread notification function */ 
void * attribute; /* Really 'pthread attr t *' */ 
} sigev thread; 
} sigev un; 


E 


#define sigev_notify_function  sigev un. sigev thread. function 
#define sigev notify attributes sigev un. sigev thread. attribute 
define sigev notify thread id sigev un. tid 


可 以 表 23-2 所 示 值 之 一 来 设置 结构 中 的 sigev notify ^£ Et. 

表 23-2: sigevent 结构 中 sigev_notify 字段 的 值 
SIGEV_NONE 不 通知 ;使 用 timer_gettime() 监 测定 时 器 
SIGEV SIGNAL RIŽ sigev. signo 信号 给 进程 
SIGEV THREAD 调用 sigev_notify function 作为 新 线程 的 启动 函数 








SIGEV THREAD ID | 发 送 sigev_signo 信和 号 给 sigev notify thread id 所 标识 的 线程 


关于 sigev notify 常量 值 的 更 多 细节 ， 以 及 sigval 结构 中 与 每 个 常量 值 相 关 的 字段 ， 特 做 
如 下 说 明 。 





SIGEV_NONE 
个 提供 定时 帮 到 期 通知 。 进 程 可 以 使 用 timer_gettimeO 来 监控 定时 带 的 运 轻 情况。 
SIGEV_SIGNAL 


定时 器 到 期 时 ， 为 进程 生成 指定 于 sigev_signo 中 的 信号 。 如 果 sigev signal 为 实时 信和 号， 
那么 sigev value 字段 则 指定 了 信和 号 的 伴随 数据 《〈 整 型 或 指针 ) (22.8.1 T). WM siginfo t 结构 的 
si value 可 获取 这 一 数据 ， 全 于 siginfo t 结构 ， 既 可 以 直接 传递 给 该 信号 的 处 理 占 函数 ， 也 可 
以 由 调用 Sigwaitinfo0) 或 SigtimerdwaitO 返 回 。 

SIGEV_THREAD 

定时 器 到 期 时 ， 会 调用 由 sigev notify function 字段 指定 的 函数 。 调 用 该 函数 类 似 于 调用 

新 线程 的 启动 函数 。 上 述 措 词 摘自 SUSv3， 即 允许 系统 实现 以 如 下 两 种 方式 为 周期 性 定时 右 
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产生 通知 : 要 么 将 每 个 通知 分 别传 递 给 一 个 唯一 的 新 线程 ， 要 么 将 通知 成 系列 友 送 给 单个 新 
线程 。 可 将 sigev notify attribytes 字段 置 为 NULL， 或 是 指向 pthread attr t 结 构 的 指针 ， 并 在 
结构 中 定义 线程 属性 。 在 sigev_value 中 设 定 的 联合 体 sigval 值 是 传递 给 函数 的 唯一 参数 。 
SIGEV_THREAD_ID 

这 与 SIGEV SIGNAL 相关 似 ， 只 是 上 友 送 信号 的 目标 线程 ID 要 与 sigev notify thread id 相 
匹配 。 该 线程 应 与 调用 线程 同属 一 个 进程 。( 伴 随 SIGEV. SIGNAL 通知 ， 会 将 信号 置 于 针对 整 
个 进程 的 一 个 队列 中 排队 ， 并 且 ， 如 果 进 程 包含 多 条 线程 ， 那 么 可 将 信号 传递 给 进程 中 的 任意 
线程 。 ) 可 用 clone0 或 gettid0 的 返回 值 对 sigev_ notify thread id 赋值 。 设 计 SIGEV THREAD ID 
标志 ， 意 在 供 线程 库 使 用 。( 要 求 线 程 实现 使 用 282.1 Tfi) CLONE. THREAD 选项 。 现 代 NPTL 
线程 实现 采用 了 CLONE _ THREAD， 但 较 老 的 LinuxThreads 线程 则 没有 。) 

除去 Linux 系统 特有 的 SIGEV THREAD ID 之 外 ，SUSv3 定义 了 上 述 所 有 常量 。 

将 参数 evp 置 为 NULL, 这 相当 于 将 sigev notify 置 为 SIGEV SIGNAL, 同时 将 sigev_signo 
置 为 SIGALRM (这 与 其 他 系统 可 能 会 有 出 入 ， 因 为 SUSv3 的 措 词 是 : 一 个 缺 省 的 信号 值 )， 
并 将 sigev_value.sival int 置 为 定时 器 ID. 

在 当前 实现 中 ， 内 核 会 为 每 个 用 timer_create0) 创 建 的 POSIX 定时 器 在 队列 中 预 分 配 一 个 实 
时 信号 结构 。 之 所 以 要 采取 预 分 配 ， 旨 在 确保 当 定 时 器 到 期 时 ， 人 至 少 有 一 个 有 效 结构 可 服务 
于 所 产生 的 队列 化 信号 。 这 也 意味 看 可 以 创建 的 POSIX 定时 器 数量 受制 于 排队 实时 信号 的 数 
E (5# 22.8 T). 


23.6.2 ”配备 和 解除 定时 器 : timer_settime() 
一 旦 创建 了 定时 器 ， 束 可 以 使 用 timer_settime() 对 其 进行 配备 (局 动 ) 或 解除 〈 俘 止 )。 















































#define POSIX C SOURCE 199309 
#include <time.h> 


int timer settime(timer t timerid, int flags, const struct itimerspec *value, 
struct itimerspec *oíd value); 


Returns 0 on success, or -1 on error 











PEZ timer settime0 的 参数 timerid 是 一 个 定时 器 句 顶 (handle )， 由 之 前 对 timer create(I 3] 
用 返回 。 

参数 value 和 old value 则 类 似 于 函数 setitimerO 的 同名 参数 : value FEA XE IST i IIT Vc 
t old value 则 用 于 返回 定时 器 的 前 一 设置 〈 参 考 稍 后 对 timer_gettime() 的 说 明 )。 如 果 对 定 
时 器 的 前 一 设置 不 感 兴趣 ， 可 将 old value 设 为 NULL。 参 数 value 和 old. value 都 是 指向 结构 
itimerspec 的 指针 ， 该 结构 定义 如 下 : 

struct itimerspec { 


struct timespec it interval; /* Interval for periodic timer */ 
struct timespec it value; /* First expiration */ 











}; 
结构 itimerspec 中 的 所 有 字段 都 是 timespec 类 型 的 结构 ， 用 秒 和 纳 秒 来 指定 时 间 : 
struct timespec { 

time t tv sec; /* Seconds */ 

long tv nsec; /* Nanoseconds */ 





js 
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it value 指定 了 定时 器 首次 到 期 的 时 间 。 如 果 it interval 的 任 一 子 字段 非 0, 那么 这 就 是 一 
个 周期 性 定时 器 ， 在 经 历 了 由 it value 指定 的 初次 到 期 后 ,会 授 这 些 子 字段 指定 的 频率 周期 性 
到 期 。 如 果 it interval 的 下 属 宇 段 均 为 0， 那么 这 个 定时 器 将 只 到 期 一 次 。 

4134 flags 置 为 0， 则 会 将 value.it value 视 为 始 于 timer settime() (5 setitimer() 类 似 ) 调 
用 时 间 点 的 相对 值 。 如 果 将 flags V 7y TIMER. ABSTIME, 那么 value.it_value 则 是 一 个 绝对 时 
间 《〈 从 时 钟 值 0 开始 )。 一 旦 时 钟 过 了 这 一 时 间 ， 定 时 咒 会 立即 到 期 。 

为 了 启动 定时 器 ， 需 要 调用 水 数 timer settime()， 并 将 value.it value 的 一 个 或 全 部 下 属 字 
段 设 为 非 0 值 。 如 果 之 前 曾经 配备 过 定时 器 ，timer_settimeO 会 将 之 前 的 设置 奉 换 措 。 

如 末 定 时 磺 的 什 和 间隔 时 间 并 非 对 应 时 钟 分 辨 率 《〈 由 clock _getres0 返 回 ) 的 整数 倍 ， 那 
么 会 对 这 些 值 做 向 上 取 整 处 理 。 

定时 喜 每 次 到 期 时 ， 都 会 投 特 定 方式 通知 进程 ， 这 种 方式 由 创建 定时 峰 的 tmer _ create(O) 定 
义 。 如 果 结 构 it_interval 包含 非 0 值 ， 那 么 会 用 这 些 值 来 重新 加 载 it_value 结构 。 

要 解除 定时 器 ， 需 要 调用 timer settime()， 并 将 value.it value 的 所 有 字段 指定 为 0。 


23.6.3 ”获取 定时 器 的 当前 值 :timer_gettime() 


系统 调用 timer gettime) iK [uH] EH timerid 指定 POSIX 定时 器 的 间隔 以 及 剩余 时 间 。 


#define POSIX C SOURCE 199309 
#include <time.h> 



































int timer gettime(timer t timerid, struct itimerspec *curr value); 


Returns 0 on success, or - 1 on error 




















cur value 指针 所 指 问 的 itimerspec £5d4rp3kR [el ES de EST A] TRI Bs EJ A EB AS P KEHRT s ERAR 
时 间 。 即 使 是 以 TIMER_ABSTIME 标志 创建 的 绝对 时 间 定 时 需 , 在 cur value.it value 字段 中 
返回 的 也 是 距离 定时 器 下 次 到 期 的 时 间 值 。 

URRAK curr_value.it_value 的 两 个 字段 均 为 0， 那 么 定时 右 当 前 处 于 停止 状态 。 如 
果 返 回 结构 curr value.it interval 的 两 个 字段 都 是 0， 那 么 该 定时 器 仪 在 curr value.it value 给 定 的 
时 间 到 期 过 一 次 。 


23.6.4 MIRER: timer delete() 
每 个 POSIX 定时 需 都 会 消耗 少量 系统 资源 。 所 以 ， 一 旦 使 用 完毕 ， 应 当 用 timer_delete() 来 移 
除 定时 右 并 释放 这 些 资源 。 


#define POSIX C SOURCE 199309 
#include <time.h> 

















int timer delete(timer t (merid); 


Returns 0 on success, or - 1 on error 











参数 timerid 是 之 前 调用 timer create TR IRIS RA. AFORE ET ER BU 
自动 将 其 停止 。 如 果 因 定时 器 到 期 而 已 经 存在 待定 Cpending) 信号 ， 那 么 信号 会 保持 这 一 状 
态 。(SUSv3 对 此 并 未 加 以 规范 ， 所 以 其 他 的 一 些 UNIX 实现 可 能 会 有 不 同行 为 。) 当 进 程 终 
IERT, S AIRIA ETRE o 
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23.6.5 ”通过 信号 女 出 通知 

如 果 选 择 通 过 信和 与 来 接收 定时 器 通知 ， 那 么 处 理 这 些 信 号 时 既 可 以 采用 信号 处 理 费 函数 ， 
也 可 以 调用 sigwaitinfo0 或 是 sigtimerdwaitO 。 接 收 进程 信 助 于 这 两 种 方法 可 以 获得 一 个 
siginfo t 结构 (21.4 玫 )， 其 中 包含 与 信号 相关 的 识 入 信息 。( 要 在 信号 处 理 堪 函数 中 使 用 这 种 
特性 ， 创 建 信 号 处 理 器 函数 时 需 设 置 SA_SIGINFO 标志 。) 在 结构 siginfo t 中 设置 如 下 字段 。 

e Si signo: 包含 由 定时 器 产生 的 信号 。 

e si code: Ej SI TIMER， 表 示 这 是 因 POSIX 定时 问 到 期 而 产生 的 信号 。 

e si value: 将 该 字段 置 为 以 timer create0 创 建 定 时 器 时 在 evp.sigev value 中 提供 的 值 。 

为 evp.sigev value 指定 不 同 的 值 , 可 以 将 到 期 时 发 送 同类 信和 号 的 不 同 定时 器 区 分 开 来 。 

调用 timer create B], 3854 evp.sigev value.sival ptr 赋值 为 当前 调用 中 参数 timerid 的 
地 址 〈 见 程序 清单 23-5)。 从 而 允许 信号 处 理 器 函数 (或 sigwaitinfo0 调 用 ) 获得 产生 信和 号 的 
Eas ID. Cb, tup ELEC KZ timer_create(0) 时 给 定 的 timerid 参数 置 于 一 结构 中 ， 并 
将 结构 地 址 赋予 evp.sigev_value.sival ptr.) 

Linux 还 为 siginfo t 结构 提供 了 如 下 非 标 准 字 段 。 

e si overrun: 包含 了 定时 器 溢出 个 数 〈 在 23.6.6 节 中 说 明 )。 



































Linux 还 文 持 另 一 个 非 标准 字段 si_timerid， 其 中 包含 一 个 标识 符 ， 供 系统 内 部 识别 定 
时 喜之 用 《与 timer create0 返 回 的 ID 不同)。 对 于 应 用 程序 来 说 没什么 用 处 。 











程序 清单 23-5 所 演示 的 是 使 用 信号 作为 POSIX 定时 器 的 通知 机 制 。 
程序 清单 23-5: 使 用 信号 进行 POSIX 定时 器 通知 


timers/ptmr sigev signal.c 
#define POSIX C SOURCE 199309 
#include «signal.h» 
#include <time.h> 
#include "curr time.h" /* Declares currTime() */ 
#include "itimerspec from str.h" /* Declares itimerspecFromStr() */ 
#include "tlpi hdr.h" 


#define TIMER SIG SIGRTMAX /* Our timer notification signal */ 


static void 
© handler(int sig, siginfo t *si, void *uc) 


1 

timer t *tidptr; 

tidptr - si-»si value.sival ptr; 

/* UNSAFE: This handler uses non-async-signal-safe functions 

(printf(); see Section 21.1.2) */ 

printf("[Xs] Got signal %d\n", currTime("XT"), sig); 

printf(" *sival ptr = %ld\n", (long) *tidptr); 

printf(" timer getoverrun() = %d\n", timer getoverrun(*tidptr)); 
j 
int 


main(int argc, char *argv[]) 
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(6) 


struct itimerspec ts; 
struct sigaction sa; 
struct sigevent sev; 
timer t *tidlist; 

int j; 


if (argc « 2) 
usageErr("%s secs[/nsecs][:int-secs[/int-nsecs]]... Mn", argv[0]); 


tidlist - calloc(argc - 1, sizeof(timer t)); 
if (tidlist -- NULL) 
errExit("malloc"); 


/* Establish handler for notification signal */ 


sa.sa flags - SA SIGINFO; 

sa.sa sigaction = handler; 

sigemptyset(8sa.sa mask); 

if (sigaction(TIMER SIG, &sa, NULL) == -1) 
errExit("sigaction"); 


/* Create and start one timer for each command-line argument */ 


sev.sigev notify - SIGEV SIGNAL; /* Notify via signal */ 
sev.sigev signo - TIMER SIG; /* Notify using this signal */ 


for (j = 0; j < argc - 1; j++) { 
itimerspecFromStr(argv[j + 1], 8ts); 


sev.sigev value.sival ptr = &tidlist[j]; 
/* Allows handler to get ID of this timer */ 


if (timer create(CLOCK REALTIME, &sev, &tidlist[j]) == -1) 
errExit("timer create"); 
printf("Timer ID: 41d (%s)\n", (long) tidlist[j], argv[j + 11); 


if (timer settime(tidlist[j], 0, &ts, NULL) == -1) 
errExit("timer settime"); 


j 


for (5;) /* Wait for incoming timer signals */ 
pause(); 


timers/ptmr sigev signal.c 














程序 清单 23-5 程序 的 每 个 命令 行 参数 都 为 定时 需 指 定 了 初始 值 及 间 阳 时间。 程序 的 “用 法 ” 
输出 中 描述 了 这 些 参数 的 语法 ， 并 在 后 面 的 shell 会 话 中 做 了 演示 。 程 序 执行 的 步骤 如 下 。 








为 用 于 定时 融通 知 的 信号 创建 处 理 器 函数 @。 

为 每 一 个 命令 行 参数 ， 创 建 由 并 配备 加 一 个 使 用 SIGEV_SIGNAL 通知 机 制 的 POSIX 定 
时 器 。 至 于 将 命令 行 参 数 转换 G@) 为 itimerspee 结构 的 函数 itimerspecFromStr()， 请 参考 
程序 清单 23-6。 

每 当 一 个 定时 器 到 期 时 ， 都 将 发 送 由 sev.sigev_ signo 指定 的 信号 给 进程 。 信 和 号 处 理 器 
函数 会 将 sev.sigev value.sival ptr 中 提供 的 值 〈 定 时 器 ID, tidlist 以 及 定时 器 游 出 
EDEREK. 

创建 并 配备 定时 器 之 后 ， 在 循环 中 反复 调用 pause), MER E REH. 
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程序 清单 23-6 中 函数 可 将 程序 23-5 的 命令 行 参数 转化 为 相应 的 itimerspee Wo KZ 
可 识别 的 字符 串 参 数 格式 在 源码 文件 开始 的 注释 中 做 了 说 明 (并 在 下 面 的 shell 会 话 中 做 了 
演示 )。 
程序 清单 23-6: 将 “时 间 + 间 隔 ” 的 字符 串 转换 为 itimerspec 的 值 


timers/itimerspec from str.c 








#define POSIX C SOURCE 199309 

#include «string.h» 

#include «stdlib.h» 

#include "itimerspec from str.h" /* Declares function defined here */ 


/* Convert a string of the following form to an itimerspec structure: 
"value.sec[/value.nanosec]|:interval.sec[/interval.nanosec]]". 
Optional components that are omitted cause O to be assigned to the 
corresponding structure fields. */ 


void 
itimerspecFromStr(char *str, struct itimerspec *tsp) 


{ 


char *cptr, *sptr; 


cptr = strchr(str, ':'); 
if (cptr !- NULL) 
*cptr = X945 


sptr = strchr(str, '/'); 
if (sptr !- NULL) 
*sptr = 'NO'; 


tsp-»it value.tv sec = atoi(str); 
tsp-»it value.tv nsec = (sptr !- NULL) ? atoi(sptr + 1) : 0; 
if (cptr == NULL) 1 

tsp-»it interval.tv sec - 0; 

tsp-»it interval.tv nsec - 0; 
} else { 

sptr = strchr(cptr + 1, '/'); 

if (sptr != NULL) 

*sptr = 'NO'; 
tsp-»it interval.tv sec = atoi(cptr + 1); 
tsp-»it interval.tv nsec = (sptr !- NULL) ? atoi(sptr + 1) : 0; 


timers/itimerspec from str.c 


如 下 shell 会 话 演示 了 对 程序 清单 23-5 中 程序 的 调用 ,创建 了 一 个 初始 到 期 值 为 2 秒 ， 间 
Fe E TRI 5 BEER ERST e 


$ ./ptmr sigev signal 2:5 

Timer ID: 134524952 (2:5) 

[15:54:56] Got signal 64 SIGRTMAX is signal 64 on this system 
*sival ptr - 134524952 stval btr points to the variable tid 
timer getoverrun() = 0 

[15:55:01] Got signal 64 
*sival ptr - 134524952 
timer getoverrun() = 0 

Type Control-Z to suspend the process 

[1]- Stopped ./ptmr sigev signal 2:5 
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$ fg 
./ptmr_sigev_signal 2:5 
[15:55:34] Got signal 64 
*sival ptr - 134524952 
timer getoverrun() = 5 
Type Control-C to kill the program 
程序 输出 的 最 后 一 行 表 明 发 生 了 5 次 定时 器 洪 出 ， 尔 即 在 捕获 上 一 信号 之 后 定时 器 到 期 
T 6k. 


23.6.6 ER E 
假设 已 经 选择 通过 信号 ( 即 sigev notify 为 SIGEV. SIGNAL) 传递 的 方式 来 接收 定时 器 到 
期 通知 。 进 一 步 假 设 ， 在 捕获 或 接收 相关 信号 之 前 ， 定 时 器 到 期 多 次 。 这 可 能 是 因为 进程 再 
次 获得 调度 六 的 延 时 所 致 。 另 外 ,不 论 是 直接 调用 sigprocmaskO， 还 是 在 信号 处 理 器 函数 里 
暗中 处 理 ， 也 都 有 可 能 墙 喜 相关 信号 的 发 送 。 如 何 知 道 发 生 了 这 些 定 时 堪 溢 出 呢 ? 
也 许 会 认为 使 用 实时 信号 有 助 于 解决 这 个 问题 ， 因 为 可 以 对 实时 信和 号 的 多 个 实例 进行 排 
队 ,. 不 过 , 由 于 对 排队 实时 信号 有 数量 上 的 限制 ,结束 证 明 这 种 方法 也 无 法 雪 效 。 所 以 POSIX.1b 
员 会 选用 了 另 一 种 方法 : 一 旦 选择 通过 信和 号 来 接收 定时 器 通知 ， 那 么 即便 用 了 实时 信和 号 ， 
也 绝 不 会 对 该 信号 的 多 个 实例 进行 排队 。 相 反 ， 在 接收 信号 后 〈 无 论 是 通过 信号 处 理 器 函数 
还 是 调用 sigwaitinfo0)， 可 以 获取 定时 喜 溢 出 计数 ， 即 在 信号 生成 与 接收 之 间 发 生 的 定时 顺 
到 期 额外 次 数 。 如 条 上 次 收 到 信号 后 定时 器 发 生 了 3 次 到 期 ， 那 么 洲 出 计数 是 2。 
接收 到 定时 器 信号 之 后 ， 有 两 种 方法 可 以 获取 定时 器 流出 值 。 
e 调用 timer getoverrun()， 稍 后 将 会 讨论 。 这 是 由 SUSv3 指定 去 获取 洲 出 计数 的 方法 。 
。 使 用 随 信号 一 同 返 回 的 结构 siginfo t 中 的 si overrun 字段 值 。 这 种 方法 可 以 避免 
timer_getoverrun() 的 系统 调用 开销 ， 但 同时 也 是 一 种 Linux 扩展 方法 ， 无 法 移植 。 
每 次 收 到 定时 喜 信 号 后 ， 都 会 重 置 定时 喜 洲 出 计数 。 奉 目 处 理 或 接收 定时 喜 信 号 之 后 ， 
定时 喜 仅 到 期 一 次 ， 则 溢出 计数 为 0〈 即 无 洲 出 )。 


#define POSIX C SOURCE 199309 
&include «time.h» 





































































































int timer getoverrun(timer t timerid); 


Returns timer overrun count on success, or -1 on error 








函数 timer getoverrun() 返 回 由 参数 timerid 指定 定时 器 的 溢出 值 。 
根据 SUSv3 Wig CK 21-1), Žr timer_getoverrun(O 是 异步 信号 安全 的 函数 乙 一 ， 故 而 在 
言 所 处 理 吉 函数 内 部 调用 也 是 安全 的 。 


23.0.7 ”通过 线程 来 通知 

SIGEV THREAD 标志 人 允许 程序 从 一 个 独立 的 线程 中 调用 疯 数 来 获取 定时 占 到 期 通知 。 要 
理解 这 一 标志 的 含义 ， 需 要 具备 第 29 AME 30 草 中 关于 POSIX 线程 的 知识 。 如 果 不 了 解 
POSIX 线程 ， 那 么 在 得 看 本 节 示 例 程序 前 ， 可 能 需要 预先 阅读 一 下 这 些 章节 。 

程序 清单 23-7 演示 了 SIGEV_THREAD 的 使 用 。 该 程序 的 命令 行 参 数 与 程序 清单 23-5 相 
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同 。 上 所 执行 的 步 又 如 下 。 


针对 每 个 命令 行 参数 ， 程 序 都 创建 并 配备 \O 一 个 使 用 了 SIGEV THREAD 通知 机 制 


每 当 定时 器 到 期 时 ， 会 在 一 条 独立 线程 中 调用 由 sev.sigev notify function 指定 的 函数 。 
调用 函数 时 ， 使 用 由 sev.sigev_value.sival ptr 指定 的 值 作为 参数 。 程 序 中 会 将 定时 器 
ID 《tidlist]j]》〉 的 地 址 赋 给 该 字段 @)， 以 便 在 调用 通知 函数 时 可 以 获得 定时 器 ID. 

创建 和 配备 所 有 定时 占 之 后 ， 主 程序 进入 循环 并 等 待定 时 器 到 期 @)。 每 次 循环 ， 程序 都 
会 调用 pthread_cond_wait0)， 等 等 处 理 定时 右 通 知 的 线程 就 条 件 变 量 (cond) 发 出 信和 号 。 
































( 
OHJ POSIX 定时 器 。 
o 
o 
o 


fEUCE Ing EI HH ARS UH ERA threadFuncOG。 在 打印 消息 后 ， 增 加 全 局 变量 expireCnt 
的 值 。 考虑 到 定时 器 可 能 汶 出 , 会 将 timer_getoverrun() 的 返回 值 也 加 入 expireCnt 变量 
中 。(23.6.6 节 解 释 了 定时 器 溢出 与 SIGEV_SIGNAL 通知 机 制 之 间 的 关系 。 定 时 器 溢 
出 还 可 以 与 SIGEV THREAD 机 制 协作 使 用 ， 因 为 在 调用 通知 函数 前 ， 定 时 器 可 能 会 
多 次 到 期 。) 通知 函数 就 条 件 变 量 (cond) 发 出 信号 ， 告 知 主 程序 定时 器 到 期 。 




















下 面 的 shell 会 话 日 志 展示 了 对 程序 清单 23-7 中 程序 的 调用 。 在 本 例 中 ， 程 序 创建 了 两 个 
定时 器 














个 定时 器 首次 到 期 时 间 为 5 秒 ， 并 设置 了 5 秒 的 时 间 间 隔 ， 另 一 个 初次 到 期 时 间 





为 10 秒 ， 并 设置 了 10 秒 的 时 间 间 隔 。 


$ ./ptmr sigev thread 5:5 10:10 
Timer ID: 134525024 (5:5) 
Timer ID: 134525080 (10:10) 


[13:06:22] Thread notify 


timer ID-134525024 
timer getoverrun()-0 


main(): count - 1 


[13:06:27] Thread notify 


timer ID-134525080 
timer getoverrun()-0 


main(): count - 2 


[13:06:27] Thread notify 


timer ID-134525024 
timer getoverrun()-0 


main(): count - 3 


Type Control-Z to suspend the program 


[1]+ Stopped 
$ fg 


./ptmr sigev thread 5:5 10:10 


Resume execution 


./ptmr sigev thread 5:5 10:10 
[13:06:45] Thread notify 


timer ID-134525024 
timer getoverrun()-2 There were timer overruns 


main(): count = 6 
[13:06:45] Thread notify 


timer ID-134525080 
timer getoverrun()-0 


main(): count - 7 
Type Control-C to kill the program 
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timers/ptmr sigev thread.c 


include «signal.h» 

#include «time.h» 

include «pthread.h» 

#include "curr time.h" /* Declaration of currTime() */ 
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#include "tlpi hdr.h" 
#include "itimerspec from str.h" /* Declares itimerspecFromStr() */ 


static pthread mutex t mtx - PTHREAD MUTEX INITIALIZER; 


static pthread cond t cond 


static int expireCnt = 0; 


PTHREAD COND INITIALIZER; 


/* Number of expirations of all timers */ 


static void /* Thread notification function */ 
(D threadFunc(union sigval sv) 


{ 


} 


int 


timer t *tidptr; 
int s; 


tidptr - sv.sival ptr; 


printf("[4s] Thread notifyNn", currTime("AT")); 
printf(" timer ID=%ld\n", (long) *tidptr); 
printf(" timer getoverrun()-XdMn", timer getoverrun(*tidptr)); 


/* Increment counter variable shared with main thread and signal 
condition variable to notify main thread of the change. */ 


S - pthread mutex lock(&mtx); 
if (s != 0) 
errExitEN(s, "pthread mutex lock"); 


expireCnt += 1 + timer getoverrun(*tidptr); 


s = pthread mutex unlock(8&mtx); 
if (s != 0) 
errExitEN(s, "pthread mutex unlock"); 


s = pthread cond signal(8cond); 
if (s != 0) 
errExitEN(s, "pthread cond signal"); 


main(int argc, char *argv[]) 


{ 


struct sigevent sev; 
struct itimerspec ts; 
timer t *tidlist; 
int s, j; 
if (argc « 2) 
usageErr("Xs secs[/nsecs][:int-secs[/int-nsecs]]... n", argv[0]); 


tidlist - calloc(argc - 1, sizeof(timer t)); 
if (tidlist == NULL) 
errExit("malloc"); 


sev.sigev notify - SIGEV THREAD; /* Notify via thread */ 
sev.sigev notify function - threadFunc; /* Thread start function */ 
sev.sigev notify attributes - NULL; 

/* Could be pointer to pthread attr t structure */ 


/* Create and start one timer for each command-line argument */ 
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for (j = 0; j < argc - 1; j++) { 
itimerspecFromStr(argv[j + 1], &ts); 


(5) sev.sigev value.sival ptr = &tidlist[j]; 
/* Passed as argument to threadFunc() */ 


(6) if (timer create(CLOCK REALTIME, &sev, &tidlist[j]) == -1) 
errExit("timer create"); 
printf("Timer ID: 41d (%s)\n", (long) tidlist[j], argv[j + 11); 


OD if (timer settime(tidlist[j], 0, &ts, NULL) == -1) 
errExit("timer settime"); 
} 


/* The main thread waits on a condition variable that is signaled 
on each invocation of the thread notification function. We 
print a message so that the user can see that this occurred. */ 


= pthread mutex lock(&mtx); 
if (s != 0) 
errExitEN(s, "pthread mutex lock"); 


for (z) d 
= pthread cond wait(&cond, &mtx); 
if (s != 0) 
errExitEN(s, "pthread cond wait"); 
printf("main(): expireCnt = %d\n", expireCnt); 


一 tiners/ptmr sigev thread.c 


23.7 利用 文件 描述 从 进行 通知 的 定时 器 : timerfd API 


始 于 版 本 2.6.25，Linux 内 核 提 供 了 为 一 种 创建 定时 器 的 API。Linux 特有 的 timerfd API， 可 
从 文件 揪 述 符 中 读 取 其 所 创建 定时 右 的 到 期 通知 。 viii select), pollÓAiI epoll() B 
在 第 63 章 进 行 讨论 ) 将 这 种 文件 摘 述 和 从 会同 其 他 描述 符 一 同 进 行 监控 ， 所 以 非常 实用 。 
于 说 本 章 讨 论 的 其 他 定时 右 API， 想 
测 ， 可 不 是 件 容 易 的 事 。) 

这 组 API 中 的 3 个 新 系统 调用 ， 其 操作 与 23.6 T" PD timer create), timer settimeO N 
timer gettime() 相 类 似 。 

新 加 入 的 第 1 个 系统 调用 是 timerfd_create0， 它 会 创建 一 个 新 的 定时 器 对 象 ， 并 返回 一 
指 代 该 对 象 的 文件 描述 符 。 





#include «sys/timerfd.h» 


int timerfd create(int clockid, int flags); 


Returns file descriptor on success, or -1 on error 








参数 clockid 的 值 可 以 设置 为 CLOCK REALTIME 或 CLOCK MONOTONIC (参考 表 23-1). 
timerfd_create() 的 最 初 实 现 将 参数 flags 了 预 留 供 未 来 使 用 ， 必 须 设 置 为 0。 不 过 ，Linux 内 
核 从 2.6.27 版 本 开始 文 持 下 面 两 种 flags 标志 。 
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TFD CLOEXEC 
为 新 的 文件 描述 符 设置 运行 时 关闭 标志 (FD CLOEXEC). 5 43.1 节 介 绍 的 open0 标 志 
O CLOEXEC 适用 于 相同 情况 。 


TFD_NONBLOCK 

为 压 层 的 打开 文件 摘 述 设置 O NONBLOCK 标志 ， 随 后 的 讯 操作 将 是 非 阻 蛙 式 的 。 这 样 
设置 省 却 了 对 fentlO0 的 额外 调用 ， 却 能 达到 相同 效果 。 

timerfd createO 创 建 的 定时 喜 使 用 完毕 后 ， 应 调用 close0 关 闭 相应 的 文件 描述 符 ， 以 便于 
内 核能 够 释放 与 定时 器 相关 的 资源 。 

系统 调用 timerfd_settimeO 可 以 配备 〈 局 动 ) 或 解除 (停止 ) 由 文件 描述 符 fd 所 指 代 的 定时 兹 。 




















#include «sys/timerfd.h» 
int timerfd settime(int fd, int flags, const struct itimerspec *mew value, 
struct itimerspec *oíd value); 


Returns 0 on success, or -1 on error 


Zt new. value AER EAE Zt old value 可 用 来 返回 定时 器 的 前 一 设置 (细节 请 
参考 随后 对 timerfd gettime0) 的 说 明 )。 如 果 不 关心 定时 器 的 前 一 设置 , 可 将 old value 置 为 NULL。 
两 个 参数 均 指 向 itimerspec 结构 ， 用 法 与 timer settime() (参考 23.62 节 ) 相同 。 

参数 flags 与 timer settime0O 中 的 对 应 参数 类 似 。 可 以 是 0， 此 时 将 new value.it value 的 值 视 
为 相对 于 调用 timerfd_settimeO 时 间 点 的 相对 时 间 ， 也 可 以 设 为 TFD_TIMER_ABSTIME， 将 其 
视 为 一 个 绝对 时 间 (从 时 钟 的 0 点 开始 测量 )。 

系统 调用 timerfd. gettime()3R E] SC TFT TSE fd 所 标识 定时 器 的 间隔 及 剩余 时 间 。 























#include «sys/timerfd.h» 


int timerfd gettime(int fd, struct itimerspec *curr value); 


Returns 0 on success, or - 1 on error 











同 timer_gettime0 一 样 ， 间 隔 以 及 距离 下 次 到 期 的 时 间 艾 返回 curr. value. 28 I8] I0 £i ÀJ 
itimerspec 中 。 即 使 是 以 TFD TIMER ABSTIME 标志 创建 的 绝对 时 间 定 时 器 ，curr vallue. 
it value 字段 中 返回 值 的 意义 也 会 保持 不 变 。 如 果 返 回 的 结构 curr_value.it_value 中 所 有 字段 值 
均 为 0， 那 么 该 定时 器 已 经 被 解除 。 如 果 返 回 的 结构 curr value.it interval 中 两 字段 值 均 为 0， 
那么 定时 器 只 会 到 期 一 次 ， 到 期 时 间 在 curr_ value.it value 中 给 出 。 

















timerfd 与 fork() 及 exec() 之 间 的 交互 


调用 forkO 期 间 ， 子 进程 会 继承 timerfd _ createO 所 创建 文件 描述 符 的 拷贝 。 这 些 描 述 符 与 
父 进 程 的 对 应 摘 述 答 均 指 代 相同 的 定时 和 右 对 象 ， 任 一 进程 都 可 读 取 定时 器 的 到 期 信息 。 

timerfd_ createO 创 建 的 文件 摘 述 符 能 跨越 exec0 得 以 保存 《除非 将 摘 述 从 置 为 运行 时 关闭 ， 
如 27.4 节 所 述 )， 已 配备 的 定时 元 在 exec() 之 后 会 继续 生成 到 期 通知 。 





从 timerfd 文件 描述 符 读 取 
一 旦 以 timerfd_settimeO 启 动 了 定时 占 , 束 可 以 从 相应 文件 描述 符 中 调用 read0 来 读 取 定时 
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RII SUME. HTX HE. fea read0 的 缓冲 区 必须 足以 容纳 一 个 无 符号 8 子 市 整 型 
Cuint64 t) 数 。 
在 上 次 使 用 timerfd_settime() 修 改 设置 以 后 , 或 是 最 后 一 次 执行 read0 后 , 如果 发 生 了 一 起 
到 多 起 定时 器 到 期 事件 , 那么 read0 会 立即 返回 , 且 返 回 的 缓冲 区 中 包含 了 已 发 生 的 到 期 次 数 。 
如 末 并 无 定时 器 到 期 ，readO 会 一 直 阻 塞 直 人鱼 产 生 下 一 个 到 期 。 也 可 以 执行 fentl0 的 F_SETFL 操 
Mg (5.3 节 ) 为 文件 描述 符 设置 ONONBLOCK 标志 ， 这 时 的 读 动作 是 非 阻塞 式 的 ， 且 如 果 没 
有 定时 器 到 期 ， 则 返回 错误 ， 并 将 errno 值 置 为 EAGAIN。 
如 前 所 述 ， 可 以 利用 select0、poll0 和 epoll0 对 timerfd 文件 描述 符 进行 监控 。 如 果 定 时 器 
到 期 ， 会 将 对 应 的 文件 搬 述 从 标记 为 可 读 。 


示例 程序 


程序 清单 23-8 演示 了 timerfd API 的 使 用 。 该 程序 从 命令 行 取得 两 个 参数 。 第 1 个 参数 为 
必 填 项 ， 用 以 标识 定时 器 的 初始 和 间隔 时 间 。( 程 序 清单 23-6 中 的 函数 itimerspecFromStr() 可 
以 用 来 解析 这 一 参数 。) 第 2 个 参数 是 可 选项 ， 表 示 程 序 退 出 之 前 应 等 等 的 定时 器 过 期 最 大 次 
数 9 O ZNI 其 默认 值 为 la 

程序 调用 timerfd create0) 来 创建 一 个 定时 器 ， 并 通过 timerfd settimeQ K HJA. ZERA 
循环 , 从 文件 描述 符 中 读 取 定时 器 到 期 通知 , 直 全 达到 指定 的 定时 器 到 期 次 数 。 每 次 read) Ja, 
程序 都 会 显示 定时 器 局 动 以 来 的 逝去 时 间 、 读 取 到 的 到 期 次 数 以 及 至 今 为 止 的 到 期 总 数 。 

Fifi shell 会 话 日 六 中 ， 通 过 命令 行 参数 创建 了 一 个 初始 时 间 为 1 秒 ， 间 隅 为 1 b, 
大 到 期 次 数 为 100 次 的 定时 器 

$ ./demo timerfd 1:1 100 

1.000: expirations read: 1; total-1 

2.000: expirations read: 1; total-2 

3.000: expirations read: 1; total-3 

Type Control-Z to suspend program in bachground for a few seconds 

[1]r Stopped ./demo timerfd 1:1 100 

$ fg Resume program in foreground 

./demo timerfd 1:1 100 

14.205: expirations read: 11; total-14 Multiple expirations since last read() 

15.000: expirations read: 1; total-15 


16.000: expirations read: 1; total-16 
Type Control-C to terminate the program 


从 以 上 结果 可 以 看 出 ， 程 序 在 后 台 和 暂停 时 定时 器 出 现 了 多 次 到 期 。 在 程序 恢复 运行 之 后 ， 
第 1 次 readO 调 用 就 返回 了 所 有 这 些 到 期 。 


程序 清单 23-8: 使 用 timerfd API 



























































timers/demo timerfd.c 
#include «sys/timerfd.h» 
#include <time.h> 
#include «stdint.h» /* Definition of uint64 t */ 
include "itimerspec from str.h" /* Declares itimerspecFromStr() */ 
#include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


{ 


struct itimerspec ts; 
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23.8 


struct timespec start, now; 

int maxExp, fd, secs, nanosecs; 
uint64 t numExp, totalExp; 
ssize t s; 


if (argc < 2 || stremp(argv[1], "--help") == 


0) 


usageErr("Xs secs[/nsecs][:int-secs[/int-nsecs]] [max-exp]Nn", argv[0]); 


itimerspecFromStr(argv[1], &ts); 


maxExp = (argc > 2) ? getInt(argv[2], GN GT O, "max-exp") : 1; 


fd - timerfd create(CLOCK REALTIME, 0); 
if (fd -- -1) 
errExit("timerfd create"); 


if (timerfd settime(fd, 0, &ts, NULL) == 
errExit("timerfd settime"); 


if (clock gettime(CLOCK MONOTONIC, &start) == -1) 


errExit("clock gettime"); 


for (totalExp = 0; totalExp < maxExp;) { 


-1) 


/* Read number of expirations on the timer, and then display 
time elapsed since timer was started, followed by number 
of expirations read and total expirations so far. */ 


s = read(fd, &numExp, sizeof(uint64 t)); 


if (s != sizeof(uint64 t)) 
errExit(" read"); 


totalExp += numExp; 


if (clock gettime(CLOCK MONOTONIC, 8now) == -1) 


errExit("clock gettime"); 


secs - now.tv sec - start.tv sec; 


nanosecs = now.tv nsec - start.tv nsec; 


if (nanosecs « O) ( 
secs--; 
nanosecs += 1000000000; 


j 


printf("%d.%03d: expirations read: Xllu; total-XlluWn", 


secs, (nanosecs + 500000) / 1000000, 


(unsigned long long) numExp, (unsigned long long) totalExp); 


j 


exit(EXIT SUCCESS); 


+ 
n 


IUS 


timers/demo timerfd.c 





进程 可 以 使 用 setitimer()&& alarmQo v Boe p ss. 以 便于 在 经 历 指定 的 一 段 实际 (或 进程 ) 
时 间 后 收 到 信号 通知 。 定 时 各 的 用 途 之 一 是 为 系统 调用 的 阻 徐 设 定时 间 上 限 。 














应 用 程序 如 需 和 暂停 执行 一 段 特 定 间隔 的 实际 时 间 ， 可 以 使 用 各 种 合适 的 休眠 函数 。 
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Linux 2.6 所 实现 的 POSIX.1b 扩展 为 高 精度 时 钟 和 定时 器 定义 了 一 套 API. POSIX.1b 定 
时 器 比 传 统 (settimer()) UNIX 定时 器 更 具 优 势 ， 可 以 : 创建 多 个 定时 占 ; 选择 定时 器 到 期 时 
的 通知 信号 ; 获取 定时 占 洲 出 计数 ， 以 便 判 断 自 上 次 到 期 通知 后 定时 器 是 否 叉 发 生 了 多 次 到 
期 ， 选 择 通过 执行 线程 函数 而 非 递送 信号 来 获取 定时 噩 通知 。 

Linux 特有 的 timerfd API 提供 了 一 组 创建 定时 器 的 接口 ， 与 POSIX 定时 堪 API 相 类 似 ， 但 
允许 从 文件 描述 符 中 该 取 定 时 融通 知 。 还 可 使 用 select(). pollOAI epoll0 来 监控 这 些 摘 述 符 。 


更 多 信息 
在 每 个 函数 的 原理 Crationael) 部 分 ，SUSv3 就 本 章 所 述 (标准 ) 定时 器 和 休眠 接口 一 一 
指出 其 要 点 所 在 。[Callmeister, 1995] 则 探讨 了 POSIX.1b 时 钟 和 定时 器 。 














23.9 ”练习 


23-1. AE Linux 将 alarmO 实 现 为 系统 调用 , 但 这 当 属 蛇 足 。 请 用 setitimerO 实 现 alarm(). 
23-2. 试看 将 程序 清单 23-3 (t_nanosleep.c) 程序 置 于 后 台 运 行 , 并 设置 60 秒 的 休 虐 间隔 ， 
同时 使 用 如 下 命令 发 送 尽 可 能 多 的 SIGINT 信号 给 后 全 进程 : 
$ while true; do kill -INT pid; done 
应 该 能 注意 到 程序 休眠 时 间 要 长 于 预期 。 将 nanosleepOH]. clock gettime() CEH 
CLOCK REALTIME 时 钟 ) 和 设置 TIMER. ABSTIME 标志 的 clock nanosleepOoE ££ 
换 。( 此 练习 需要 Linux 2.6 版 本 。) 反复 测试 修改 后 的 程序 ， 并 解释 狐 老 程序 间 的 
A is 
23-3. 编写 一 个 程序 验证 : 如 果 调 用 timer_create0 时 将 参数 evp 置 为 NULL， 那 么 这 就 等 
同 于 将 evp 设 为 指 问 sigevent 结构 的 指针 ， 并 将 该 结构 中 的 sigev_notify 置 为 SIGEV_ 
SIGNAL, 将 sigev signo 置 为 SIGALRM， 将 Si value.sival int 置 为 定时 吉 ID. 
23-4. 修改 程序 清单 23-5 (ptmr sigev signalc) 中 程序 ， 并 用 sigwaitinfo0 替 换 信 号 处 理 
器 函数 。 
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gp = 


进程 的 创建 





本 章 以 及 随后 的 3 章 将 探讨 进程 的 创建 和 终止 ， 以 及 进程 执行 新 程序 的 过 程 。 本 章 主 要 
讨论 进程 的 创建 ， 不 过 ， 在 切入 正题 之 前 ， 将 肯 先 概 打 一 下 这 4 章 所 涵 兰 的 主要 系统 调用 。 


24.1 fork(). exit(). wait()EU& execve() 的 简介 


本 章 以 及 随后 儿 章 的 议题 会 集中 在 forkO0、exitD、waitO 以 及 execve0 这 几 个 系统 调用 上 。 
上 述 每 种 系统 调用 都 各 有 变 体 ， 后 续 会 一 一 论 及 。 此 处 将 首先 对 这 4 个 系统 调用 及 其 典型 用 
法 简单 加 以 介绍 。 
e 系统 调用 forkO 人 允许 一 进程 〈 父 进程 ) 创建 一 新 进程 〈 子 进程 )。 有 具体 做 法 是 ， 新 
的 子 进程 几 近 于 对 父 进 程 的 翻版 : 子 进程 获得 父 进程 的 栈 、 数 据 段 、 堆 和 执行 文 
本 段 (6.3 市 ) 的 找 贝 。 可 将 此 视 为 把 父 进 程 一 分 为 二 ， 术 语 fork 也 由 此 得 名 。 
o lEpRRZ exit (status) 终止 一 进程 ， 将 进程 占用 的 所 有 资源 〈 内 存 、 文 件 描述 符 等 ) 归 
还 内 核 ， 交 其 进行 再 次 分 配 。 参 数 status 为 一 整 型 变量 ， 表 示 进 程 的 退出 状态 。 父 进 
程 可 使 用 系统 调用 wait0 来 获取 该 状态 。 




















ERR exit0 位 于 系统 调用 _exit0 之 上 。 第 25 章 将 解释 二 者 之 间 的 差异 。 这 里 只 是 强调 ， 在 调 
用 fork0 之 后 , 父 、 子 进程 中 一 般 只 有 一 个 会 通过 调用 exit0 退 出 ， 而 另 一 进程 则 应 使 用 exit0 终 止 。 











e 系统 调用 wait C&status) 的 目的 有 二 : 其 一 , 如 果子 进程 尚未 调用 exitOZ& 1E, 那么 waitO 
会 挂 起 父 进程 下 全 子 进 程 终止 ; 其 二 ， 子 进程 的 终止 状态 通过 waitO 的 status 参数 返回 。 

o 系统 调用 execve(pathname，argv，envp) 加 载 一 个 新 程序 〈 路 径 名 为 pathname， 人 参数 
列表 为 argv, 环境 变量 列表 为 envp) 到 当前 进程 的 内 存 。 这 将 丢弃 现存 的 程序 文本 段 ， 
并 为 新 程序 重新 创建 栈 、 数 据 段 以 及 扒 。 通 季 将 这 一 动作 称 为 执行 (execing) 一 个 新 
程序 。 稍 后 会 介绍 构建 于 execve() 之 上 的 多 个 库 函 数 ， 每 种 都 为 编程 接口 提供 了 实用 
的 变 体 。 在 彼此 至 异 无 关 宏 则 的 场合 ， 循 例会 将 此 类 函数 统称 为 exec0， 尽 管 实 际 上 
并 没有 以 之 命名 的 系统 调用 或 者 库 函 数 。 
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其 他 一 些 操作 系统 则 将 forkOI execO 的 功能 合 二 为 一 ， 形 成 单一 的 spawn 操作 一 一 创 
建 一 个 新 进程 并 执行 指定 程序 。 比 较 而 言 ，UNIX 的 方案 通常 更 为 简单 和 优雅 。 两 步 走 
的 策略 使 得 API 更 为 简单 (系统 调用 fork0O) 无 需 参 数 )， 程 序 也 得 以 在 这 两 步 之 间 执 行 一 
些 其 他 操作 ， 因 而 更 有 具 弹性 。 另 外 ， 只 执行 forkO 而 不 执行 exec(0) 的 场景 也 颇 为 常见 。 











SUSv3 所 详细 规定 的 posix spawnOPR Zi, WEK forkO0 和 execO 的 功能 结合 起 来 ， 但 规范 
并 未 对 实现 此 函数 做 强制 要 求 。Linux 的 glibc 函数 库 实现 了 该 函数 以 及 SUSv3 中 的 其 他 
JLH API。 将 posix spawn0O 纳 入 SUSv3， 意 在 为 缺乏 交换 (swap) 设施 或 内 存 管 理 单 
元 (memory-management units) 的 便 件 架构 〈 般 入 式 系 统 大 多 如 此 ) 编写 具备 可 移植 性 的 
应 用 程序 。 在 此 类 架构 上 实现 传统 意义 的 fork0， 即 便 存 在 可 能 性 ， 难 度 也 很 大 。 
图 24-1 对 forkO、exitD0、waitO 以 及 exece0 之 间 的 相互 协同 作 了 总 结 。( 此 图 勾勒 了 shell 执 
行 一 条 命令 所 历经 的 步骤 : shell 读 取 命令 ， 进 行 各 种 处 理 ， 随 之 创建 子 进程 以 执行 该 命令 ， 如 
此 循环 不 已 。) 





父 进 程 执 行 
程序 A 








子 进 程 执行 
程序 A 
T 内 存 
MEET. 
父 进 程 可 能 于 此 处 
执行 其 他 动作 
子 进程 可 能 于 此 处 执行 
进一步 的 动作 
l * x 
| T 
al i 
4 NUN 
EH l 7& ~ d E 
zs: s MN 
Qi S 执行 
Se ÍT 
i | x " 程序 B 
| à N 
| NN 
| 内 核 重 新 运行 父 进程 并 (可能) = 
m 


图 24-1: 概述 函数 fork), exit), wait) F0 execve() 的 协同 使 用 


图 中 对 execveO 的 调用 并 非 必须 。 有 时 ， 让 子 进程 继续 执行 与 父 进程 相同 的 程序 反而 会 有 
妙用 。 最 终 ， 两 种 情况 殊途同归 : 总 是 要 通过 调用 exito (或 接收 一 个 信号 〉 来 终止 子 进程 ， 
而 父 进程 可 调用 wait0 来 获取 其 终止 状态 。 

同样 ， 对 waitO 的 调用 也 属于 可 选项 。 父 进程 可 以 对 子 进 程 不 同 不 问 ， 继 续 我 行 我 素 。 不 
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过 ， 由 后 续 内 容 可 知 ， 对 waitO) 的 使 用 通常 也 是 不 可 或 缺 的 ， 每 每 在 SIGCHLD 信号 的 处 理 程 
序 中 使 用 。 当 子 进程 终止 时 ， 内 核 会 为 其 父 进 程 产生 此 类 信号 (默认 的 处 理 是 忽略 SIGCHLD 
信号 ， 下 图 将 此 标记 为 可 选 ， 原 因 正在 于 此 )。 


24.2 创建 新 进程 : fork() 


在 诸多 应 用 中 ， 创 建 多 个 进程 是 任务 分 解 时 行 之 有 效 的 方法 。 例 如 ， 菏 一 网 络 服务 器 进 
程 可 在 侦 听 客户 端 请 求 的 同时 ， 为 处 理 每 一 请 求 而 创建 一 狐 的 子 进程 ， 与 此 同时 ， 服 务 器 进 
呈 会 继续 侦 听 更 多 的 客户 端 连接 请 求 。 以 此 类 手法 分 解 任 务 ， 通 常会 简化 应 用 程序 的 设计 ， 
同时 提高 了 系统 的 并 发 性 。( 即 ， 可 同时 处 理 更 多 的 任务 或 请 求 。) 

系统 调用 forkO 创 建 一 新 进程 〈child)， 几 近 于 对 调用 进程 CparenO 的 翻版 。 


dinclude <unistd.h> 

















pid t fork(void); 


In parent: returns process ID of child on success, or -1 on error; 
in successfully created child: always returns 0 


理解 forkO 的 诀 穷 是 ， 要 和 意识 到 ， 完 成 对 其 调用 后 将 存在 两 个 进程 ， 且 每 个 进程 都 会 从 forkO 
的 返回 处 继续 执行 。 

这 两 个 进程 将 执行 相同 的 程序 文本 段 ， 但 却 各 目 拥 有 不 同 的 栈 段 、 数 据 段 以 及 堆 段 找 
贝 。 隆 进程 的 栈 、 数 据 以 及 栈 段 开始 时 是 对 父 进程 内 存 相 应 各 部 分 的 完全 复制 。 执 行 forkO 
之 后 ， 每 个 进程 均 可 修改 各 目的 栈 数据 、 以 及 扒 段 中 的 变量 ， 而 并 不 影响 另 一 进程 。 

程序 代码 则 可 通过 forkO 的 返回 值 来 区 分 父 、 子 进程 。 在 父 进程 中 ，forkO 将 返回 新 创建 
子 进程 的 进程 ID 。 鉴 于 父 进 程 可 能 需要 创建 ,进而 退 踩 多 个 子 进程 〈 通 过 waitO 或 类 似 方法 )， 
这 种 安排 还 是 很 实用 的 。 而 fork0O 在 子 进程 中 则 返回 0。 如 有 必要 ， 子 进程 可 调用 getpid() 以 获 
BUE AERE ID, 03H] getppid0O 以 获取 父 进程 ID. 

当 无 法 创建 子 进程 时 ，forkO 将 返回 -1。 失 败 的 原因 可 能 在 于 ， 进 程 数 量 要 么 超出 了 系统 
针对 此 真实 用 户 Creal user ID) 在 进程 数量 上 所 施加 的 限制 (RLIMIT NPROC, 36.3 节 将 对 
此 加 以 描述 )， 要 么 是 触及 允许 该 系统 创建 的 最 大 进程 数 这 一 系统 级 上 限 。 

调用 fork0 时 ， 有 时 会 采用 如 下 习惯 用 语 : 


pid t childPid; /* Used in parent after successful fork() 
to record PID of child */ 
switch (childPid = fork()) 1 
case -1: /* fork() failed */ 
/* Handle error */ 



































case 0: /* Child of successful fork() comes here */ 
/* Perform actions specific to child */ 


default: /* Parent comes here after successful fork() */ 
/* Perform actions specific to parent */ 


} 

调用 forkO0 之 后 ， 系 统 将 率先 “ 垂 育 ”于 哪个 进程 〈 即 调度 其 使 用 CPU)， 是 无 法 确定 的 ， 
意识 到 这 一 点 极为 重要 。 在 设计 拙 劳 的 程序 中 ， 这 种 不 确定 性 可 能 会 导致 所 谓 “ 竞 争 条 件 〈race 
condition)” 的 错误 ，24.2 节 会 对 此 做 进一步 说 明 。 
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程序 清单 24-1 展示 了 fork0O 的 用 法 。 该 程序 创建 一 子 进 程 ， 并 对 继承 自 forkO 的 全 局 及 自 
动 变 量 拷贝 进行 修改 。 

使 用 sleepO 〇 0 存在 于 由 父 进程 所 执行 的 代码 中 )， 意 在 允许 子 进程 先 于 父 进程 获得 系统 调 
度 并 使 用 CPU， 以 便 在 父 进程 继续 运行 之 前 完成 日 喘 任务 并 退出 。 要 想 确 保 这 一 结果 ，sleep0 
的 这 种 用 法 并 非 万 无 一 失 ，24.5 节 中 的 方法 更 胜 一 筹 。 


运行 程序 清单 24-1 中 程序 ， 其 输出 如 下 。 
$ ./t fork 

PID-28557 (child) idata-333 istack-666 
PID-28556 (parent) idata-111 istack-222 


以 上 输出 表明 ， 子 进程 在 forkO 时 拥有 了 目 己 的 栈 和 数据 段 搁 贝 ， 且 其 对 这 些 段 中 变量 的 
修改 将 不 会 影响 父 进 程 。 


程序 清单 24-1. 调用 fork) 


























procexec/t fork.c 
#include "tlpi hdr.h" 


static int idata - 111; /* Allocated in data segment */ 
int 
main(int argc, char *argv[]) 


int istack - 222; /* Allocated in stack segment */ 
pid t childPid; 


switch (childPid = fork()) { 
case -1: 
errExit("fork"); 


case 0: 
idata *- 3; 
istack *- 3; 
break; 


default: 
sleep(3); /* Give child a chance to execute */ 
break; 


j 


/* Both parent and child come here */ 


printf("PID-ld Xs idata-*d istack-dNn", (long) getpid(), 
(childPid -- 0) ? "(child) " : "(parent)", idata, istack); 


exit(EXIT SUCCESS); 


procexec/t fork.c 


24.2.1 父 、 子 进程 间 的 文件 共享 

执行 forkO 时 ， 子 进程 会 获得 父 进 程 所 有 文件 描述 符 的 副本 。 这 些 副 本 的 创建 方式 类 似 于 
dup0， 这 也 意味 着 父 、 子 进程 中 对 应 的 描述 符 均 指向 相同 的 打开 文件 句柄 CEN open file 
description， 详 见 5.4 节 译 注 )。 正 如 5.4 节 所 述 ， 打 开 文 件 句柄 包含 有 当前 文件 偏 移 量 (H reado, 
write0 和 lseekO 修 改 ) 以 及 文件 状态 标志 (由 open0 设 置 , 通过 fcntlO 的 FE_ SETFL 操作 改变 )。 
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一 个 打开 文件 的 这 些 属性 因 之 而 在 父子 进程 间 实 现 了 共 至 。 淮 例 来 说 ， 如 果子 进程 更 新 了 文 





件 仿 移 量 ， 那 么 这 种 改变 也 会 影响 到 父 进 程 中 相应 的 搬 述 符 。 





程序 清单 24-2 所 展示 的 正 是 这 样 一 个 事实 ; fork0 之 后 ， 这 些 属性 将 在 父子 进程 之 间 共 享 。 








该 程序 使 用 mkstempO 打 开 一 个 临时 文件 ， 接 痢 调用 forkO 以 创建 子 进 程 。 子 进程 改变 文件 侦 
移 量 以 及 文件 状态 标志 ， 最 后 退出 。 父 进程 随即 获取 文件 仿 移 量 和 标志 ， 以 验证 其 可 以 观察 





到 由 子 进程 所 造成 的 变化 。 此 程序 运行 结果 如 下 : 


$ ./fork file sharing 

File offset before fork(): O 

O APPEND flag before fork() is: off 
Child has exited 

File offset in parent: 1000 

O APPEND flag in parent is: on 


天 于 程序 清单 24-2 为 何 要 将 lseekO 的 返回 值 强制 转换 为 long long, 25. 5.10 75. 


程序 清单 24-2: 在 父子 进程 间 共 享 文件 偏 移 量 和 打开 文件 状态 标志 


procexec/fork file sharing.c 


#include «sys/stat.h» 
#include «fcntl.h» 

#include «sys/wait.h» 
#include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


int fd, flags; 
char template[] = "/tmp/testXXXXXX"; 


setbuf(stdout, NULL); /* Disable buffering of stdout */ 


fd = mkstemp(template); 
if (fd == -1) 
errExit("mkstemp"); 


printf("File offset before fork(): XlldNn", 
(long long) lseek(fd, O0, SEEK CUR)); 


flags = fcntl(fd, F GETFL); 
if (flags -- -1) 
errExit("fcntl - F GETFL"); 
printf("O APPEND flag before fork() is: %s\n", 
(flags & O APPEND) ? "on" : "off"); 
switch (fork()) 1 
case -1: 
errExit(" fork"); 


case 0: /* Child: change file offset and status flags */ 
if (lseek(fd, 1000, SEEK SET) == -1) 
errExit("lseek"); 


flags = fcntl(fd, F GETFL); /* Fetch current flags */ 
if (flags -- -1) 
errExit("fcntl - F GETFL"); 
flags |» O APPEND; /* Turn O APPEND on */ 
if (fcntl(fd, F SETFL, flags) == -1) 
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errExit("fcntl - F SETFL"); 
 exit(EXIT SUCCESS); 


default: /* Parent: can see file changes made by child */ 
if (wait(NULL) == -1) 
errExit("wait"); /* Wait for child exit */ 
printf("Child has exitedWn"); 


Nr 


printf("File offset in parent: %lld\n", 
(long long) lseek(fd, 0, SEEK CUR)); 


flags = fcntl(fd, F GETFL); 
if (flags -- -1) 
errExit("fcntl - F GETFL"); 
printf("O APPEND flag in parent is: %s\n", 
(flags & O APPEND) ? "on" : "off"); 
exit(EXIT SUCCESS); 


procexec/fork file sharing.c 


A T EFE IRI EH JF XC TE s E B 30b H] B LASER S. Joco SC T XERE ISTIS] ES A — XC 
KERE t6 BD ENRE i ABC EJ Ar E IE. AIRE, AHA EBLES T MERE B) A h 
随意 混杂 在 一 起 。 要 想 规 避 这 一 现象 ， 需 要 进行 进程 间 同 步 。 比 如 ， 父 进程 可 以 使 用 系统 调 
用 wait0 来 暂停 运行 并 等 待 子 进程 退出 。shell 就 是 这 么 做 的 : 只 有 当 执 行 命令 的 子 进程 退出 
后 ，shell 才 会 打印 出 提示 符 《 除 非 用 户 在 命令 行 最 后 加 上 信 符 以 显 式 在 后 台 运 行 命令 )。 

如 条 不 需要 这 种 对 文件 描述 符 的 共 孚 方式， 那么 在 设计 应 用 程序 时 ， 应 于 forkO 调 用 后 注 
意 两 点 : 其 一 ， 令 父 、 子 进程 使 用 不 同 的 文件 摘 述 符 ; 其 二 ， 各 目 立 即 关 财 不 再 使 用 的 摘 述 
从 《 亦 即 那些 经 由 其 他 进程 使 用 的 插 述 符 )。 如 果 进 程 之 一 执行 了 execO0， 那 么 27.4 下 所 描述 
的 执行 时 关闭 功能 (close-on-exec) 也 会 很 有 用 处 。 图 24-2 展示 了 这 些 步 又 。 


24.2.2 fork() 的 内 存 语义 


从 概念 上 说 来 ， 可 以 将 forkO 认 作对 父 进程 程序 段 、 数 据 段 、 扒 段 以 及 栈 段 创建 找 贝 。 的 

确 ， 在 一 些 早 期 的 UNIX 实现 中 ， 此 类 复制 确实 是 原 汁 原味 : 将 父 进程 内 存 揽 贝 全 交换 衬 间 ， 
以 此 创建 新 进程 映像 〈image)， 而 在 父 进程 保持 目 喘 内 存 的 同时 ， 将 换 出 映像 置 为 子 进程 。 
不 过 ， 真 要 是 简单 地 将 父 进程 虚拟 内 存 页 拷贝 到 狐 的 子 进程 ， 那 束 太 浪 绩 了 。 原 因 有 很 多 ， 

其 中 之 一 是 : forkO 之 后 常常 伴随 看 exec0， 这 会 用 新 程序 蔡 换 进 程 的 代码 段 ,， 并 重新 初始 化 其 
数据 段 、 堆 段 和 栈 段 。 大 部 分 现代 UNIX 实现 (包括 Linux). 玉 用 两 种 技术 来 避免 这 种 浪费 。 

e WIZ (Kernel) 将 每 一 进程 的 代码 段 标记 为 只 读 ， 从 而 使 进程 无 法 修改 目 映 代码。 这 

样 ， 父 、 子 进程 可 共享 同一 代码 段 。 系 统 调用 fork0 在 为 子 进程 创建 代码 段 时 ， 其 所 

构建 的 一 系列 进程 级 页 表 项 (page-table entries) 均 指 丫 与 父 进 程 相同 的 物理 内 存 页 幅 。 

e 对 于 父 进程 数据 段 、 扒 段 和 栈 段 中 的 各 页 ， 内 核 采 用 写 时 复制 《copy-on-write) 技术 

来 处 理 。([Bach, 1986] 和 [Bovert & Cersati, 2005] 摘 述 了 写 时 复制 的 实现 。) 最 初 ， 内 核 

做 了 一 些 设置 ， 令 这 些 段 的 页 表 项 指 回 与 父 进程 相同 的 物理 内 存 页 ， 并 将 这 些 页 面目 

身 标记 为 只 恋 。 调 用 fork0 之 后 ， 内 核 会 捕获 所 有 父 进程 或 子 进程 针对 这 些 页 面 的 修 

改 企图 ， 并 为 将 要 修改 的 (about-to-be-modified〉 页 面 创建 拷贝 。 系 统 将 新 的 页 面 捞 
贝 分 配给 让 内 核 捕 获 的 进程 ， 还 会 对 子 进 程 的 相应 页 表 项 做 适当 调整 。 从 这 一 刻 起 ， 
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父 、 子 进程 可 以 分 别 修改 备 目的 页 拷贝 ， 不 再 相互 影响 。 图 24-3 展示 了 写 时 复制 技术 。 


a) 调用 /pr 之 前 的 描述 符 和 父 进 程 文件 描述 符 打开 文件 表 
打开 文件 表 条 目 (执行 时 关闭 标志 {文件 偏 移 量 ， 状 态 标 志 ) 


| 
描述 符 x 


打开 文件 表 项 六 


打开 文件 表 项 m 





b) 调用 /ww 之 后 的 描述 符 父 进程 文件 描述 符 


| ^ 


2 ! etr ; T 
E M 子 进 程 文件 描述 符 


MOCUR|[. diis 
ES [sl 

-二 | D 
| | 





c) 分 别 在 父 进 程 和 子 进 程 中 父 进 程 文件 描述 符 打开 文件 表 
关闭 不 用 的 描述 符 之 后 l 





( 父 进 程 的 y 和 子 进程 的 x) Tib ix 
D ë 


描述 符 y 
ee 


| 


打开 文件 囊 项 mm 


子 进程 文件 描述 符 
ER 


T ST EX 
" 


TDTXTT AR 


描述 符 y 


24-2: 执行 fork() 期 间 对 文件 描述 街 的 复制 ， 以 及 关闭 不 再 使 用 的 描述 符 





控制 进程 的 内 存 需求 


通过 将 forkO 与 wait0 组 合 使 用 ， 可 以 控制 一 个 进程 的 内 存 需 求 。 进 程 的 内 存 需 求 量 ， 
尔 即 进程 所 使 用 的 虚拟 内 存 页 范围 ， 受 到 多 种 因素 的 影响 ， 例 如 ， 调 用 函数 ， 或 从 函数 返 
回 时 栈 的 变化 情况 ， 对 execO 的 调用 ， 以 及 因 调 用 malloc0 和 freeO 而 对 堆 所 做 的 修改 一 一 
这 点 对 这 里 的 讨论 有 着 特殊 意义 。 

假设 以 程序 清单 24-3 所 示 方 式 调用 fork0 和 wait0)， 且 将 对 某 函 数 funcO 的 调用 置 于 括号 
之 中 。 由 执行 程序 可 知 ， 由 于 所 有 可 能 的 变化 都 发 生 于 子 进程 ， 故 而 从 对 funcO 的 调用 之 前 开 
台 ， 父 进程 的 内 存 使 用 量 将 保持 不 变 。 这 一 用 法 的 实用 性 则 归于 如 下 理由 。 

e FOCA foncO 导 致 内 存 泄 露 ， 或 是 引发 扒 内 存 的 过 度 碎 上 请 化 ， 该 技术 则 可 以 避免 这 些 

问题 。( 要 是 无 法 访问 fancO 的 源码 ， 想 要 处 理 这 些 问 题 也 束 无 从 谈 起 。) 
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修改 之 前 


父 进程 
页 表 





页 表 项 211 


未 使 用 的 
页 帧 


页 表 项 211 





修改 之 后 


物理 
页 帧 


页 表 项 211 


页 表 项 211 





图 24-3: 对 一 共享 写 时 复制 页 进行 修改 前 后 的 页 表 





。 假设 某 一 算法 在 做 树 状 分 析 Ctree analysis). 的 同时 需要 进行 内 存 分 配 〈 例 如 ， 游 戏 程 


序 需要 分 析 一 系列 可 能 的 招 法 以 及 对 方 的 应 手 )。 


本 可 以 调用 free0 来 释放 所 有 已 分 配 的 


内 存 ， 不 过 在 东 些 情况 下 ， 使 用 此 处 所 描述 的 技术 会 更 为 简单 ， 返 回 《〈《 父 进程 )， 且 


调用 者 〈 父 进程 ) 的 内 存 需 求 并 无 改变 。 





如 程序 清单 24-3 的 实现 所 示 ， 必 须 将 funcO 的 返回 结 末 置 于 exit0 的 8 位 传 出 值 中 ， 父 进 





程 调用 wait0 可 获得 该 值 。 不 过 , 也 可 以 利用 文件 、 管 道 或 其 他 一 些 进 程 间 通 信 技 术 , 使 func0 
返回 更 大 的 结果 集 。 


程序 清单 24-3: 调用 函数 而 不 改变 进程 的 内 存 需 求 量 


pid t childPid; 
int status; 


childPid = fork(); 
if (childPid == -1) 
errExit(" fork"); 


from pxocexec/footprint.c 


if (childPid == 0) /* Child calls func() and */ 
exit(func(arg)); /* uses return value as exit status */ 


/* Parent waits for child to terminate. It can determine the 


result of func() by inspecting 'status'. */ 


if (wait(&status) == -1) 
errExit("wait"); 


1 REE: 针对 游戏 程序 的 分 析 结 琳 而 言 。 
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24.83 ”系统 调用 vfork() 


在 早期 的 BSD 实现 中 ，forkO 会 对 父 进程 的 数据 段 、 堆 和 栈 施 行 严 格 的 复制 。 如 前 所 述 ， 
这 是 一 种 浪费 ， 尤 其 是 在 调用 forkO 后 立即 执行 execO 的 情况 下 。 出 于 这 一 原因 ，BSD 的 后 期 
版 本 引入 了 vforkO 系 统 调用 ， 尺 管 其 运作 含义 稍微 有 些 不 同 ( 实 则 有 些 怪异 )， 但 效率 要 远 高 
T BSD forkO。 现代 UNIX 采用 写 时 复制 技术 来 实现 fork0， 其 效率 较 之 于 早期 的 forkOSz HUE 
高 出 许多 ， 进 而 将 对 vforkO 的 需求 剔除 殉 尽 。 虽 然 如 此 ，Linux〈 如 同 许多 其 他 的 UNIX 实现 一 
样 ) 还 是 提供 了 具有 BSD 语义 的 vforkO 系 统 调 用 ， 以 期 为 程序 提供 尽 可 能 快 的 fork 功能 。 不过， 
鉴于 vforkO 的 怪异 语义 可 能 会 导致 一 些 难 以 察觉 的 程序 缺陷 (bug)， 除 非 能 给 性 能 带 来 重大 提升 
(这 种 情况 发 生 的 概率 极 小 )， 否 则 应 当 尽量 避免 使 用 这 一 调用 。 

类 似 于 fork0，vforkO 可 以 为 调用 进程 创建 一 个 新 的 子 进 程 。 然 而 ，vforkO 是 为 子 进程 立 
即 执行 execO 的 程序 而 专门 设计 的 。 


#include «unistd.h» 





















































pid t vfork(void); 


In parent: returns process ID of child on success, or -1 on error; 
in successfully created child: always returns 0 


vforkO 因 为 如 下 两 个 特性 而 更 具 效 挛 ， 这 也 是 其 与 forkO 的 区 别 所 在 。 
e 无 需 为 子 进 程 复制 虚拟 内 存 页 或 页 表 。 相 反 ， 子 进程 共 孚 父 进程 的 内 存 ， 直 至 其 成 功 
执行 了 exec(0 或 是 调用 _exitO 退 出 。 

e 在 子 进 程 调 用 exec0 或 exit0 之 前 ， 将 暂停 执行 父 进程 。 

这 两 点 还 男 有 深意 : 由 于 子 进程 使 用 父 进程 的 内 存 ， 因 此 子 进 程 对 数据 段 、 堆 或 栈 的 任 
何 改变 将 在 父 进程 恢复 执行 时 为 其 所 见 。 此 外 , 如 果子 进程 在 vforkO 与 后 续 的 exec(0) 或 _exitO) 
之 间 执 行 了 函数 返回 ， 这 同样 会 影响 到 父 进程 。 这 与 6.8 节 所 描述 的 例子 (试图 以 longimpO 
进入 一 个 已 经 执行 了 返回 的 函数 中 ) 相 类 似 。 同 样 相似 的 还 有 这 一 乱 局 的 收场 一 一 以 典型 的 段 
错误 (SIGSEGV) 而 告终 。 

在 不 影响 父 进程 的 前 提 下 , 子 进程 能 在 vfork0 与 exec0 之 间 所 做 的 操作 届 指 可 数 。 其 中 包 
括 对 打开 文件 描述 符 进行 操作 (但 不 能 施 之 于 stdio 文件 流 )。 因 为 系统 是 在 内 核 空 间 为 每 个 
进程 维护 文件 搞 述 符 表 (5.4 BD, HÆ vforkO 调 用 期 间 将 复制 该 表 ， 所 以 子 进 程 对 文件 搞 述 
符 的 操作 不 会 影响 到 父 进程 。 


SUSv3 指出 ， 在 如 下 情况 下 程序 行为 未 定义 : a) 修改 了 除 用 于 存储 vfork0 返 回 值 的 pid t 
型 变量 之 外 的 任何 数据 ; b〉 从 调用 vfork0 的 函数 中 返回 ; c) 在 成 功 地 调用 _exit0 或 执行 
exec0 之 前 ， 调 用 了 任何 其 他 函数 。 

28.2 节 在 介绍 系统 调用 cloneO 时 将 会 提 及 , 由 forkOgX vforkO 创 建 的 子 进程 还 共有 少量 
其 他 进程 属性 的 自 有 拷贝 。 


vforkO 的 语义 在 于 执行 该 调用 后 ， 系 统 将 保证 子 进程 先 于 父 进程 获得 调度 以 使 用 CPU. 24.2 
节 曾 经 提 及 forkO 是 无 法 保证 这 一 点 的 ， 父 、 子 进程 均 有 可 能 率先 获得 调度 。 

程序 清单 24-4 展示 了 vfork0 的 用 法 ， 将 其 区 分 于 fork0 的 两 种 语义 特性 显露 无 遗 ， 子 进程 共享 
父 进 程 的 内 存 ， 父 进程 会 一 直 挂 起 直至 子 进程 终止 或 调用 exec()。 运 行 该 程序 ， 其 输出 结果 如 下 : 
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$ ./t vfork 

Child executing Even though child slept, parent was not scheduled 
Parent executing 

istack-666 


由 输出 的 最 后 一 行 可 知 ， 子 进程 对 变量 istack 的 修改 影响 了 父 进程 的 对 应 变量 。 
程序 清单 24-4: 使 用 vfork() 





procexec/t vfork.c 
include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


int istack - 222; 


switch (vfork()) { 
case -1: 
errExit("vfork"); 


case 0: /* Child executes first, in parent's memory space */ 
sleep(3); /* Even if we sleep for a while, 
parent still is not scheduled */ 
write(STDOUT FILENO, "Child executingWn", 16); 
istack *- 3; /* This change will be seen by parent */ 
 exit(EXIT SUCCESS); 


default: /* Parent is blocked until child exits */ 
write(STDOUT FILENO, "Parent executingWn", 17); 
printf("istack-XdWn", istack); 
exit(EXIT SUCCESS); 

} 


procexec/t vfork.c 


除非 速度 绝对 重要 的 场合 ， 新 程序 应 当 舍 vforkO 而 取 forkO。 原 因 在 于 ， 当 使 用 写 时 复制 
语义 实现 forkO (大 部 分 现代 UNIX 实现 皆 是 如 此 ) 时 ， 在 速度 几 近 于 vforkO 的 同时 ， 又 避免 
T vforkO 的 上 述 怪 异 行 止 。(28.3 节 会 给 出 fork) vforkO 在 速度 方面 的 某 些 比较 。) 

SUSv3 将 vfork0O 标 记 为 已 过 时 ，SUSv4 则 进一步 将 其 从 规 苑 中 删除 。 对 于 vfork0 运 作 的 
诸多 细节 ，SUSv3 占有 些 语 址 不 详 ， 因 而 可 能 将 其 实现 为 对 fork0 的 调用 。 如 此 一 来 ， 那 么 
vforkO 的 BSD 语义 将 不 复 存在 。 一 些 UNIX 系统 还 真 束 把 vforkO 实 现 为 对 forkO 的 调用 ，Linux 
系统 在 内 核 2.0 及 其 之 前 的 版 本 中 也 是 如 此 。 

在 使 用 时 ,一 般 应 立即 在 vfork0O 之 后 调用 execO。 如 果 exec0O 执 行 失 败 , 子 进程 应 调用 _exit() 
退出 。CvforkO 产 生 的 子 进程 不 应 调用 exit0 退 出 ， 因 为 这 会 导致 对 父 进程 stdio 缓冲 区 的 刷新 
和 关闭 。25.4 下 将 会 详 述 这 一 点 。) 

vforkO 的 其 他 用 法 , 尤其 当 其 依赖 于 内 存 共享 以 及 进程 调度 方面 的 独特 语义 时 , 将 可 能 破 
坏 程序 的 可 移植 性 ， 其 中 尤 以 将 vfork0 实 现 为 们 蛙 调用 forkO 的 情况 为 其 。 























24.4 ”fork() 之 后 的 竞争 条 件 CRace Condition) 


调用 fork0 后 ， 无 法 确定 父 、 子 进程 间 谁 将 率先 访问 CPU. (在 多 处 理 天 系统 中 ， 它 们 可 
能 会 同时 各 目 访 问 一 个 CPU。) 束 应 用 程序 而 言 ， 如 来 为 了 产生 正确 的 结果 而 或 明 或 暗 
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Gimplicitly or explicitly) 地 依赖 于 特定 的 执行 序列 ， 那 么 将 可 能 因 竞 争 条 件 (5.1 节 曾 论 及 ) 
而 导致 失败 。 由 于 此 闫 问题 的 发 生 取决 于 内 核 根据 系统 当时 的 负载 而 做 出 的 调度 决定 ， 故 而 
往往 难以 友 现 。 

可 以 用 程序 清单 24-5 中 程序 来 验证 这 种 不 确定 性 。 该 程序 循环 使 用 fork0 来 创建 多 个 子 
进程 。 在 每 个 forkO 调 用 后 ， 父 、 子 进程 都 会 打印 一 条 信息 ， 其 中 包含 循环 计数 需 值 以 及 标识 
父 / 子 进程 喘 份 的 字符 串 。 例 如 ， 如 末 要 求 程序 只 产生 一 个 子 进程 ， 其 结果 可 能 如 下 : 

$ ./fork whos on first 1 


O parent 
0 child 


可 以 使 用 该 程序 来 生成 大 量子 进程 ， 并 日 分 析 其 输出 ， 观 察 父 、 子 进程 间 每 次 到 底 由 谁 
率先 输出 了 结果 。 在 某 一 Linux/x86-32 2.2.19 系统 上 令 此 程序 生成 一 百 万 个 子 进 程 ， 其 分 析 结 
果 表 明 ， 除 去 332 次 之 外 ， 都 是 由 父 进程 先行 输出 结果 〈 占 总 数 的 99.97%). 


对 程序 清单 24-5 运行 结果 进行 分 析 的 脚本 为 procexec/fork whos on first.count.swk, 在 
随 本 书 发 布 的 源 代 码 中 提供 。 


依据 这 一 结果 可 以 推测 ， 在 Linux 2.2.19 中 ，forkO 之 后 总 是 继续 执行 父 进 程 。 而 子 进程 
之 所 以 在 0.03 多 的 情况 中 首先 输出 结果 ， 是 因为 父 进程 在 有 机 会 输出 消息 之 前 ， 其 CPU 时 间 
片 (CPU time slice) 瓯 到 期 了 。 换 言 之 ， 如 果 访 程序 所 代表 的 情况 总 是 依赖 于 如 下 假设 ， 即 
forkO 之 后 总 是 调度 父 进 程 ， 那 么 程序 通常 可 以 正常 运行 ， 不 过 每 3000 次 将 会 出 现 一 次 错误 。 
当然 ， 如 采 和 硕 望 父 进程 能 在 调度 子 进程 前 执行 大 量 工 作 ， 那 么 出 钳 的 可 能 性 将 会 大 增 。 在 一 
个 复杂 程序 中 调试 这 样 的 错误 会 很 困难 。 
程序 清单 24-5: fork() 之 后 ， 父 、 子 进程 竞争 输出 信息 

































































procexec/fork whos on first.c 


#include «sys/wait.h» 
#include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


int numChildren, j; 
pid t childPid; 


if (argc > 1 88 strcmp(argv[1], "--help" 0) 


usageErr("4s [num-children]Wn", argv[0]); 
numChildren = (argc > 1) ? getInt(argv[1], GN GT 0, "num-children") : 1; 
setbuf(stdout, NULL); /* Make stdout unbuffered */ 
for (j = 0; j < numChildren; j++) { 
switch (childPid = fork()) { 
case -1: 
errExit(" fork"); 
case 0: 
printf("Ad child\n", j); 
 exit(EXIT SUCCESS); 


default: 
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printf("4d parentWn", j); 
wait(NULL); /* Wait for child to terminate */ 
break; 


j 
j 


exit(EXIT SUCCESS); 


procexec/fork whos on first.c 


虽然 Linux 2.2.19 总 是 在 forkO 之 后 继续 运行 父 进程 ， 但 在 其 他 UNIX 实现 上 ， 甚 到 不同 
版 本 的 Linux 内 核 之 间 ， 却 不 能 视 其 为 理所当然 。 在 内 核 稳定 版 2.4 系列 中 ， 一 上 度 曾 试验 性 地 
推出 了 一 个 “forkO 之 后 由 子 进 程 先 运行 ”的 补丁 ， 其 调度 结束 与 内 核 2.2.19 完全 相反 。 虽 然 
这 一 改变 之 后 又 为 2.4 系列 内 核 所 舍弃 ， 不 过 后 来 还 是 在 Linux 2.6 中 采用 ， 因 此 ， 程 序 假定 
T 2.2.49 内 核 的 行为 会 在 内 核 2.6 FE NME. 

fork JEX, THEW EEE? RERA? 最 近 有 的 一 些 实 验 又 推翻 了 内 
核 开 发 者 关于 这 一 问题 的 评估 。 从 Linux 2.6.32 开始 ， 父 进程 再 度 成 为 fork0 之 后 ， 默 认 情 况 
下 率先 调度 的 对 象 。 将 Linux 4&8 x fF/proc/sys/kernel/sched child runs first 设 为 非 0 值 可 以 
改变 该 默认 设置 。 


























要 了 解 文 持 “forkO 之 后 先 调度 子 进 程 ”行为 的 理由 ， 可 考虑 当 fork0 产 生 的 子 进程 立 
即 执行 execO 时 “ 写 时 复制 ”所 发 生 的 情况 。 此 时 ， 一 方面 父 进程 在 fork0 之 后 继续 修改 数 
据 页 和 栈 页 ， 为 一 方面 内 核 要 为 子 进程 复制 那些 “将 要 修改 ”的 页 。 由 于 子 进程 一 旦 获得 
调度 会 立即 执行 execO， 故 而 这 一 页 复制 动作 纯 属 浪费 。 基 于 这 一 论点 ， 先 调度 子 进程 的 决 
策 更 佳 。 如 此 一 来 ， 等 到 下 次 调度 到 父 进 程 时 ， 怠 无 需 复 制 内 存 页 了 。 在 一 个 繁 伦 的 
Linux/X86-32 系统 上 (内 核 版 本 为 2.6.30), 利用 程序 清单 24-5 中 程序 创建 一 百 万 个 子 进 程 ， 
结果 表明 子 进程 率先 输出 的 情况 占 总 数 的 99.98%。.( 这 一 百分比 的 精确 值 取 决 于 诸如 系统 负 
载 之 类 的 因素 。) 在 其 他 UNIX 实现 中 测试 该 程序 的 结果 则 表明 ， 对 于 由 哪 一 进程 在 forkO 
之 后 识 先 获得 调度 的 问题 ， 各 系统 的 处 理 规则 差异 巨大 。 

Linux 2.6.32 改 回 “fork0O 之 后 先 调度 父 进程 ” 其 论据 则 基于 如 下 发 现 : fork0 之 后 ， 父 进 
FEE CPU 中 正 处 于 活跃 状态 ， 并 且 其 内 存 管 理 信 息 也 被 置 于 硬件 内 存 管理 单元 的 转译 后 备 组 
il'Pz& (TLB, translation look-aside buffer) 中 。 所 以 ， 先 运行 父 进程 将 提高 性 能 。 在 非 正 式 场合 
下 ， 针 对 分 别 采 取 上 述 两 种 行为 的 内 核 构建 成 本 进行 了 时 间 上 度量 ， 其 结果 也 证 实 了 这 一 点 。 

总 之 ， 值 得 强调 的 是 : 两 种 行为 间 的 性 能 差异 很 小 ， 对 于 大 部 分 应 用 程序 并 无 影响 。 


E3MSiHeSEHEMU NIU, TIO Fork Oz TETEE ETD. E 
保证 某 一 特定 执行 顺序 ， 则 必须 采用 某 种 同步 技术 。 后 续 各 章 将 会 介绍 多 种 同步 技术 ， 其 中 
aAa y (semaphore), XFA Cfilelock) 以 及 进程 间 经 由 管道 (pipe) 的 消息 发 送 。 接 下 
来 会 摘 述 另 一 种 方法 ， 那 殉 是 使 用 信号 CignaD. 







































































一 JJ/ 二 器 小 Bá cm 
24.5 同步 信号 以 规避 竞争 条 件 

调用 fork0 之 后 ， 如 果 进 程 某 甲 需 等 待 进程 某 乙 完 成 某 一 动作 ， 那 么 某 乙 〈 即 活动 进程 ) 
可 在 动作 完成 后 向 某 甲 发 送信 号 ， 某 甲 则 等 待 即 可 。 

程序 清单 24-6 演示 了 这 一 技术 。 该 程序 假设 父 进程 必须 等 待 子 进程 完成 某 些 动作 。 如 果 
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是 子 进 程 反 过 来 要 等 待 父 进程 ， 那 么 将 父 、 子 进程 中 与 信号 相关 的 调用 对 掉 即 可 。 父 、 子 进 
程 其 至 可 能 多 次 互 发 信号 以 协调 彼此 行为 ， 尽 管 nn 
传递 等 技术 来 进行 此 类 协调 。 



































[Stevens & Rago, 2005] 建议 将 此 其 同 步 方法 〈 阻 塞 信号 ， 发 送信 号 ， 捕 获 信 号 ) 封 沪 
为 一 组 标准 的 进程 同步 函数 。 这 一 做 法 的 优 扣 在 于 ， 如 果 有 意 ， 后 续 可 以 其 他 进程 间 通 信 
(PC) 机 制 蔡 换 信号 的 使 用 。 








需要 注意 : 程序 清单 24-6 在 fork0O 之 前 束 阻 罕 了 同步 信号 〈SIGUSR1)。 知 父 进程 试图 在 
fork()Z Ji EH 3€ VA fei mrs 则 避 之 唯 加 不及 的 苋 争 条 件 多 怕 将 不 期 而 过 。( 此 程序 假设 与 子 进程 的 
言 写 掩 人 码 状 态 无 天 ; 如 有 必要 ， 可 以 在 fork0 之 后 的 子 进程 中 解除 对 SIGUSRI 的 阻塞 。) 

如 下 shell 会 话 日 志 Aog) 则 展示 了 程序 清单 24-6 的 运行 情况 : 


$ ./fork sig sync 

[17:59:02 5173] Child started - doing some work 
[17:59:02 5172] Parent about to wait for signal 
[17:59:04 5173] Child about to signal parent 
[17:59:04 5172] Parent got signal 








程序 清单 24-6: 利用 信号 来 同步 进程 间 动 作 


procexec/fork sig sync.c 


#include «signal.h» 
#include "curr time.h" /* Declaration of currTime() */ 
include "tlpi hdr.h" 


#define SYNC SIG SIGUSR1 /* Synchronization signal */ 
static void /* Signal handler - does nothing but return */ 
handler(int sig) 

j 

int 


main(int argc, char *argv[]) 


pid t childPid; 
sigset t blockMask, origMask, emptyMask; 
struct sigaction sa; 


setbuf(stdout, NULL); /* Disable buffering of stdout */ 


sigemptyset(&blockMask); 

sigaddset(&blockMask, SYNC SIG); /* Block signal */ 

if (sigprocmask(SIG BLOCK, &blockMask, &origMask) -- -1) 
errExit("sigprocmask"); 


sigemptyset(8sa.sa mask); 

sa.sa flags - SA RESTART; 

sa.sa handler - handler; 

if (sigaction(SYNC SIG, &sa, NULL) == -1) 
errExit("sigaction"); 


switch (childPid = fork()) { 
case -1: 


第 24 章 ”进程 的 创建 437 


异步 社区 会 员 flyman150(2410757683@qq.com) EF 尊重 版 权 


errExit(" fork"); 
case 0: /* Child */ 


/* Child does some required action here... */ 


printf("[Xs %ld] Child started - doing some work\n", 
currTime(" 4T"), (long) getpid()); 
sleep(2); /* Simulate time spent doing some work */ 


/* And then signals parent that it's done */ 


printf("[*s %1d] Child about to signal parent*n", 
currTime("AT"), (long) getpid()); 
if (kill(getppid(), SYNC SIG) -- -1) 
errExit("kill"); 


/* Now child can do other things... */ 
 exit(EXIT SUCCESS); 
default: /* Parent */ 


/* Parent may do some work here, and then waits for child to 
complete the required action */ 


printf("[Xs 41d] Parent about to wait for signalWn", 
currTime("4T"), (long) getpid()); 
sigemptyset(&emptyMask); 
if (sigsuspend(&emptyMask) == -1 && errno !- EINTR) 
errExit("sigsuspend"); 
printf("[Xs 41d] Parent got signalMn", currTime("XT"), (long) getpid()); 


/* If required, return signal mask to its original state */ 


if (sigprocmask(SIG SETMASK, &origMask, NULL) == -1) 
errExit("sigprocmask"); 


/* Parent carries on to do other things... */ 


exit(EXIT SUCCESS); 


procexec/fork sig sync.c 


24.6 iR 


系统 调用 forkO 通 过 复制 一 个 与 调用 进程 《 父 进 程 ) 几乎 完全 一 化 的 拷贝 来 创建 一 个 新 进程 
( 子 进程 )。 系 统 调用 vforkO 是 一 种 更 为 高 效 的 fork0 版 本 ,不 过 因为 其 语义 独特 一 一 vforkO 产 生 
的 子 进程 将 使 用 父 进程 内 存 ， 直 至 其 调用 exec0 或 退出 ， 于 此 同时 ， 将 会 挂 起 〈suspended ) 
父 进程 ， 所 以 应 尽量 避免 使 用 。 

调用 forkO 之 后 ， 不 应 对 父 、 子 进程 获得 调度 以 使 用 CPU 的 先后 顺序 有 所 依赖 。 对 执行 
顺序 做 出 假设 的 程序 易于 产生 捷 谓 “竞争 条 件 ” 的 错误 。 由 于 此 类 错误 的 产生 依赖 于 诸如 系 
统 负载 之 类 的 外 部 因素 ， 故 而 其 友 现 和 调试 将 非 第 困难 。 
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更 多 信息 

[Bach, 1986] 和 [Goodheart & Cox, 1994] 论述 了 UNIX 系统 中 fork()、execve()、waitO 以 及 
exitO 的 实现 细节 。[Bovert & Cesati, 2005] 和 [Love, 2010] 则 就 进程 的 创建 和 终止 提供 了 专属 于 
Linux 系统 的 实现 细 市 。 


24.7 


24-1. 


24-2. 


24-3. 


24-4. 


24-5. 





练习 


程序 在 执行 完 如 下 一 系列 fork0O) 调 用 后 会 产生 多 少 新 进程 (假定 没有 调用 失败 〉? 
fork(); 
fork(), 
fork(); 


编写 一 个 程序 以 便 验 证 调用 vfork0 之 后 ， 子 进程 可 以 关闭 一 文件 摘 述 符 《〈 例 如 : T 
述 符 0) 而 不 影响 对 应 父 进 程 中 的 文件 摘 述 从 。 

假设 可 以 修改 程序 源 代码 ， 如 何在 某 一 特定 时 刻 生成 一 核心 转 储 (core dump?) X 
件 ， 而 同时 进程 得 以 继续 执行 ? 

在 其 他 UNIX 实现 上 实验 程序 清单 24-5 (fork whos on first.c) 中 的 程序 ， 并 判断 
在 执行 forkO 后 这 些 系统 是 如 何 调度 父子 进程 的 。 

假定 在 程序 清单 24-6 的 程序 中 ， 子 进程 也 需要 等 竺 父 进程 完成 某 些 操作 。 为 确保 
达成 这 一 目的 ， 应 如 何 修改 程序 ? 
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进程 的 终止 


本 章 所 述 为 进程 的 退出 过 程 。 首 先 说 明 如 何 调用 exit0 和 _exit(O) 以 终止 一 个 进程 。 接 着 讨 
论 运 用 退出 处 理 程 序 Cexit handler)， 在 进程 调用 exitO0 时 自动 执行 清理 动作 。 最 后 ， 将 探讨 
fork(). stdio 缓冲 区 以 及 exit0 之 间 的 某 些 交互 。 


25.1 进程 的 终止 ; _exit() 和 exit() 


通 单 ， 进 程 有 两 种 终止 方式 。 其 一 为 中 第 〈abnormal) 终止 ， 如 20.1 节 所 述 ， 由 对 一 信号 的 
接收 而 引发 ， 该 信号 的 默认 动作 为 终止 当前 进程 ， 可 能 产生 核心 转 储 〈core dump)。 此 外 ， 进 
程 可 使 用 _exit0) 系 统 调 用 正常 Cnormally) 终止 。 


#include «unistd.h» 

















void exit(int status); 


_exit() 的 status 参数 定义 了 进程 的 终止 状态 (termination status)， 父 进程 可 调用 wait() 
以 获取 该 状态 。 虽 然 将 其 定义 为 int 类 型 ， 但 仅 有 低 8 位 可 为 父 进程 所 用 。 按 照 惯 例 ， 终 止 
状态 为 0 表示 进程 “ 功 成 喘 退 ”， 而 非 0 值 则 表示 进程 因 措 常 而 退出 。 对 非 0 返回 值 的 解 
释 则 并 无 定 例 ; 不 同 的 应 用 程序 目 成 一 派 ， 并 会 在 文档 中 加 以 描述 。SUSv3 规定 有 两 个 党 
Œ: EXIT SUCCESS(O) 和 EXIT_FAILURE(1)， 本 书 中 大 部 分 程序 就 采用 了 这 一 约定 。 
调用 _exitO 的 程序 总 会 成 功 终止 〈 即 ，_exitO0 从 不 返回 )。 








虽然 可 将 0-255 之 间 的 任意 值 赋 给 _exitO 的 status 参数 ， 并 传递 给 父 进 程 ， 不 过 如 取 
EAF 128 将 在 shell 脚本 中 引发 混乱 。 原因 在 于 , 当 以 信号 (signal) 终止 一 命令 时 , shell 会 
将 变量 $? 置 为 128 与 信号 值 之 和 ， 以 表征 这 一 事实 。 如 果 这 与 进程 调用 _exit0 时 所 使 用 的 相 
同 status (EWI ER, KS shel 无 法 区 分 。 


程序 一 般 不 会 直接 调用 _exit0， 而 是 调用 库 函 数 exit0， 它 会 在 调用 _exitO 前 执行 各 种 动作 。 

















include «stdlib.h» 
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void exit(int status); 





exit0 会 执行 的 动作 如 下 。 

。 调用 退出 处 理 程序 (通过 atexit0 和 on exit0 注 册 的 函数 )， 其 执行 顺序 与 注册 顺序 相 
反 〈( 见 25.3 节 )。 

e 刷新 stdio 流 缓冲 区 。 

o 使 用 由 status 提供 的 值 执 行 _exitO 系 统 调用 。 





与 专属 于 UNIX 的 _exit0 不 同 ，exit0 则 属于 标准 C 语言 函数 库 ， 也 就 是 说 ， 所 有 的 C 
语言 实现 都 文 持 exitO. 


程序 的 另 一 种 终止 方法 是 从 main0 函 数 中 返回 (return)， 或 者 或 明 或 瞳 地 一 直 执 行 到 
main() 函 数 的 结尾 处 。 执 行 return n 等 同 于 执行 对 exit(n) 的 调用 ， 因 为 调用 main() 的 运行 
时 函数 会 将 main0O 的 返回 值 作 为 exit0 的 参数 。 


存在 一 种 情况 ， 从 main0 函 数 中 返回 与 调用 exit0 并 不 相同 。 如 果 在 退出 的 处 理 过 程 中 所 执行 
的 任何 步骤 需要 访问 main0 函 数 的 本 地 变量 ， 那 么 从 main0 函 数 中 返回 会 导致 未 定义 的 行为 。 例 
如 ,在 调用 setvbufO 或 setbuff() CJ, 13.2 T 时 引用 了 main 函数 的 本 地 变量 ， 束 会 发 生 这 种 情况 。 























执行 未 指定 返回 值 的 return， 或 是 无 声 无 县 地 执行 到 main0 函 数 结 尾 ， 同 样 会 导致 main() 
的 调用 者 执行 exitO 函 数 ， 不 过 ， 视 所 文 持 的 不 同 C 语言 标准 版 本 ， 以 及 所 使 用 的 不 同 编 译 需 
选项 ， 其 结果 也 有 所 不 同 。 
。 C89 标准 未 就 上 述 情况 下 的 行为 进行 定义 ， 程 序 可 以 返回 任意 的 status 值 。Linux gcc 的 
团 认 行为 束 是 如 此 ， 程 序 的 退出 状态 是 取 目 于 栈 或 特定 CPU 寄存 器 中 的 随机 值 。 应 
避免 以 这 一 方式 终止 程序 。 
e C99 标准 则 要 求 ， 执 行 全 main 函数 结尾 处 的 情况 应 等 同 于 调用 exit(0)。 如 果 使 用 
gcc-std=c99 在 Linux 中 编译 程序 ， 将 会 获得 这 种 效果 。 























25.2 ”进程 终止 的 细节 


无 论 进程 是 否 正 常 终止 ， 都 会 发 生 如 下 动作 。 

。 关闭 所 有 打开 文件 描述 符 、 目 录 流 (18.8 节 )、 信 息 目 录 描 述 符 〈 参 考 手册 页 catopen(3) 
和 catgets(3))， 以 及 “字符 集 ) 转换 摘 述 符 ( 见 iconv_open(3) 手 册页 )。 

e 作为 文件 描述 符 关 闭 的 后 果 之 一 ， 将 释放 该 进程 所 持 有 的 任何 文件 锁 〈 第 5$ 98). 

e 分 离 〈detach) 任何 已 连接 的 System V 共享 内 存 段 ， 且 对 应 于 各 段 的 shm_nattch 计数 
器 值 将 减 一 。( 人 参考 48.8 节 。) 

e 进程 为 每 个 System V 信和 号 量 所 设置 的 semadj 值 将 会 被 加 到 信和 号 量 值 中 〈 参 考 47.8 节 )。 

e 如 果 该 进程 是 一 个 管理 终端 〈terminal ) 的 管理 进程 ， 那 么 系统 会 向 该 终端 前 台 
(foreground). 进程 组 中 的 每 个 进程 发 送 SIGHUP 信号 ， 接 着 终端 会 与 会 话 〈session ) 
脱离 。34.6 节 将 束 此 进行 深入 讨论 。 

。 将 关闭 该 进程 打开 的 任何 POSIX 有 名 信号 量 ， 类 似 于 调用 sem_close()。 























1 译 者 注 : BU maino K AERE return 语句 。 
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e 将 关闭 该 进程 打开 的 任何 POSIX 消息 队列 ， 类 似 于 调用 mq. close). 

e 作为 进程 退出 的 后 果 之 一 ， 如 果 某 进程 组 成 为 孤儿 ， 且 该 组 中 存在 任何 已 停止 进程 
(stopped processes)， 则 组 中 所 有 进程 都 将 收 到 SIGHUP 信号， 随 之 为 SIGCONT 信号。 
34.7.4 节 将 深入 讨论 这 一 点 。 

e 移 除 该 进程 通过 mlock0 或 mlockall0 (50.2 节 ) 所 建立 的 任何 内 存 锁 。 

。 取消 该 进程 调用 mmap(O 所 创建 的 任何 内 存 映 射 (mapping )。 


25.3 ”退出 处 理 程序 


有 时 ， 应 用 程序 需要 在 进程 终止 时 目 动 执行 一 些 操作 。 试 以 一 个 应 用 程序 库 为 例 ， 如 果 
进程 使 用 了 该 程序 库 ， 那 么 在 进程 终止 前 该 库 需 要 自动 执行 一 些 清理 动作 。 因 为 库 本 映 对 于 
进程 何 时 以 及 如 何 退 出 并 无 控制 权 ， 也 无 法 要 求 主 程序 在 退出 前 调用 库 中 特定 的 清理 函数 ， 
故而 也 不 能 保证 一 定 会 执行 清理 动作 。 解 决 这 一 问题 的 方法 之 一 是 使 用 退出 处 理 程序 (exit 
handler). #5 System V 手册 则 使 用 术语 “程序 终止 过 程 ”(program termination routine). 

退出 处 理 程序 是 一 个 由 程序 设计 者 提供 的 函数 ， 可 于 进程 生命 周期 的 任意 时 点 注册 ， 并 
在 该 进程 调用 exit0 正 常 终止 时 目 动 执行 。 如 果 程 序 直 接 调用 _exit(0) 或 因 信 号 而 寞 常 终止 ， 则 不 
会 调用 退出 处 理 程序 。 





















































当 进 程 收 到 信号 而 终止 时 ， 将 不 会 调用 退出 处 理 程 序 。 这 一 事实 一 定 程度 上 限制 了 它们 的 
效用 。 此 时 最 佳 的 应 对 方式 艳 右 为 可 能 发 送 给 进程 的 信号 建立 信号 处 理 程序 ， 并 于 其 中 设置 
标志 位 ， 令 主 程序 据 此 来 调用 exit0。 因 为 exit0 不 属于 表 21-1 所 列 的 卉 步 信号 安全 Casync- 
signal-safe) 函数， 所 以 通常 不 能 在 信号 处 理 程序 中 对 其 发 起 调用 。 即 便 如 此 ， 还 是 无 法 处 理 
SIGKILL 信和 号， 因为 无 法 改变 SIGKILL 的 默认 行为 。 这 也 是 应 该 避免 使 用 SIGKILL 来 终止 进 
程 的 为 一 原因 如 20.2 PISO. EEH SIGTERM， 这 也 是 Kill dp SA ARS S o 


























注册 退出 处 理 程 序 


GNU € 语言 函数 库 提 供 两 种 方式 来 注册 退出 处 理 程 序 。 第 一 种 方法 是 使 用 由 SUSv3 定义 
的 atexitO ER IL 





dinclude <stdlib.h> 


int atexit(void (*func)(void)); 


Returns 0 on success, or nonzero on error 








PR Zt atexitO func 加 到 一 个 函数 列表 中 ， 进 程 终止 时 会 调用 该 函数 列表 的 所 有 函数 。 应 
将 函数 func 定义 为 不 接受 任何 参数 ， 也 无 返回 什 ， 一 般 格 式 如 下 : 
void 


func(void) 


/* Perform some actions */ 
} 
注意 atexit(0 在 出 铬 时 返回 非 0 值 〈 个 一 定 是 -1)。 
可 以 注册 多 个 退出 处 理 程 序 〈 其 至 可 以 将 同一 函数 注册 多 次 )。 当 应 用 程序 调用 exitO 时 ， 
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这 些 函数 的 执行 顺序 与 注册 顺序 相反 。 这 一 设计 很 符合 逻辑 ， 因 为 ， 一 般 情况 下 较 早 注册 的 
函数 押 执 行 的 是 更 为 基本 的 清理 动作 ， 可 能 需要 在 调用 后 续 注 册 的 函数 后 再 执行 。 

本 质 上 ， 可 以 在 退出 处 理 程 序 中 执行 任何 希望 的 动作 ， 包 括 注册 附加 的 退出 处 理 程 序 ， 并 
将 其 置 于 留待 调用 的 剩余 函数 列表 的 头 部 。 不 过 ， 一 旦 有 任 一 退出 处 理 程序 无 法 返回 一 一 无 论 
因为 调用 了 _exitO 还 是 进程 因 收 到 信号 而 终止 〈 例 如 ， 退 出 处 理 程序 调用 函数 raiseO0)， 那 么 
就 不 会 再 调用 剩余 的 处 理 程序 。 此 外 ， 调 用 exitO0 时 通常 需要 执行 的 剩余 动作 也 将 不 再 执行 。 




















SUSv3 规定 ， 帮 退出 处 理 程序 目 身 调用 exitD)， 其 结 采 未 定义 。 在 Linux E, BUS is 
用 剩余 的 退出 处 理 程序 。 不 过 ， 在 某 些 系统 上 ， 这 将 导致 对 所 有 退出 处 理 程序 的 再 次 调用 ， 
并 引发 无 限 循 环 调用 《直至 栈 溢出 将 该 进程 杀 死 )。 为 保障 可 移植 性 ， 应 用 程序 应 避免 在 退 
出 处 理 程序 内 部 调用 exito. 











SUSv3 要 求 系统 实现 应 允许 一 个 进程 能 够 注册 至 少 32 个 退出 处 理 程 序 。 使 用 系统 调用 
sysconf( SC ATEXIT MAX)， 应 用 程序 即 可 确定 由 实现 所 定义 的 可 注册 退出 处 理 程序 的 数量 
上 限 。( 但 是 ， 并 无 方法 获知 有 多 少 已 注册 的 处 理 程序 。) 通过 运用 动态 分 配 链表 将 已 注册 的 
处 理 程 序 串 接 起 来 ，glibc 允许 注册 的 退出 处 理 程序 数量 近乎 于 无 限 。 对 于 Linux, 
sysonf( SC ATEXIT MAX) 返 回 2147482647( 即 ，32 位 有 符号 整 型 数 的 最 大 值 )。 换言之 ,在 
触及 可 注册 函数 数量 的 这 一 上 限 前 ， 总 会 有 其 他 原因 【〈 例 如， 内存 不 足 ) 导致 程序 衣 泪 。 

通过 fork0 创 建 的 子 进程 会 继承 父 进程 注册 的 退出 处 理 函 数 。 而 进程 调用 execOB], S% 
除 所 有 已 注册 的 退出 处 理 程序 。( 这 是 结果 势 所 必然 ， 因 为 exec0 会 蕉 换 包 括 退 出 处 理 程序 在 
内 的 所 有 原 程序 代码 段 。) 


无 法 取消 经 由 atexitO 或 on_exit0《〈 见 稍 后 的 描述 ) 注册 的 退出 处 理 程序 。 不 过 ， 可 以 令 退 出 
处 理 程序 在 执行 动作 之 前 检查 全 局 执行 标记 是 任 旱 位， 或 者 清除 该 标记 来 屏蔽 退出 处 理 程 序 。 


经 由 atexit() 注 册 的 退出 处 理 程序 会 受到 两 种 限制 。 其 一 ， 退 出 处 理 程序 在 执行 时 无 法 
获知 传递 给 exit(0) 的 状态 。 有 时候， 知道 状态 是 必要 的 ; 例如 ， 退 出 处 理 程序 会 视 进程 退出 
成 功 与 否 而 执行 不 同 的 动作 。 其 二 ， 无 法 给 退出 处 理 程 序 指定 参数 。 如 果 拥 有 这 一 特性 ， 退 
出 处 理 程 序 能 根据 传 入 参数 的 不 同 而 执行 不 同 动作 ， 或 使 用 不 同 参数 多 次 注册 同一 个 函数 。 

为 摆脱 这 些 限 制 ，glibc 提供 了 一 个 〈( 非 标准 的 ) 奉 代 方法 : on _exit()。 


#define BSD SOURCE /* Or: #define SVID SOURCE */ 
#include «stdlib.h» 




































































int on exit(void (*func)(int, void *), void *arg); 





Returns 0 on success, or nonzero on error 


FR 7 on_exitO 的 参数 func 是 一 个 指针 ， 指 问 如 下 类 型 的 函数 : 


void 
func(int status, void *arg) 





/* Perform cleanup actions */ 


} 

调用 时 ,会 传递 两 个 参数 给 func): 提供 给 exit() 的 status 参数 和 注册 时 供给 on_exitO 的 一 
fj arg 参数 拷贝 。 虽 然 定 义 为 指针 类 型 ， 参 数 arg 的 意义 仍然 可 由 设计 者 支配 。 可 将 其 用 作 指 
问 结构 的 指针 ， 同 样 ， 通 过 审慎 地 强制 转换 ， 也 可 将 其 作为 整 型 或 其 他 标量 类 型 使 用 。 
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类 似 于 atexit()，on_exit0 出 错时 返回 非 0 值 〈 不 一 定 是 -1 )。 

如 同 atexitO 一 样 ， 通 过 on_exitO 可 以 注册 多 个 退出 处 理 程 序 。 使 用 atexit0 和 on_exitO 注 
册 的 函数 位 于 同一 函数 列表 。 如 果 在 程序 中 同时 用 到 了 这 两 种 方式 ， 则 会 按照 使 用 这 两 个 方 
法 注册 的 相反 顺序 来 执行 相应 的 退出 处 理 程序 。 

虽然 比 atexitO 更 灵活 ， 但 对 于 要 保障 可 移植 性 的 程序 来 说 ， 还 是 应 避免 使 用 on exit). 
因为 并 无 标准 涵盖 到 它 ， 并 且 几 乎 也 没有 其 他 UNIX 实现 文 持 这 一 用 法 。 


程序 范例 


程序 清单 25-1 展示 了 如 何 利 用 atexit0 和 on_exitO 注 册 退 出 处 理 程序 的 例子 。 运 行程 序 会 
得 到 如 下 输出 结果 : 


$ ./exit handlers 

on exit function called: status-2, arg-20 
atexit function 2 called 

atexit function 1 called 

on exit function called: status-2, arg-10 


























程序 清单 25-1， 使 用 退出 处 理 程序 


procexec/exit handlers.c 


itdefine BSD SOURCE /* Get on exit() declaration from «stdlib.h» */ 
include <stdlib.h> 
#include "tlpi hdr.h" 


static void 
atexitFunci(void) 


printf("atexit function 1 calledWn"); 


static void 
atexitFunc2(void) 


printf("atexit function 2 calledWn"); 


static void 
onexitFunc(int exitStatus, void *arg) 


printf("on exit function called: status=%d, arg-XldWn", 
exitStatus, (long) arg); 
} 


int 
main(int argc, char *argv[]) 
i 
if (on exit(onexitFunc, (void *) 10) != 0) 
fatal("on exit 1"); 
if (atexit(atexitFunci) !- 0) 
fatal('atexit 1"); 
if (atexit(atexitFunc2) !- O) 
fatal('atexit 2"); 
if (on exit(onexitFunc, (void *) 20) != 0) 
fatal("on exit 2"); 
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exit(2); 


procexec/exit handlers.c 


25.4 fork(). stdio Æ KUK exit()zz iB] By 52 E 


程序 清单 25-2 生成 的 输出 结果 乍 看 磊 令 人 费解 。 当 程序 标准 输出 定 加 到 终端 时 ， 会 看 到 预 
期 的 结果 : 

$ ./fork stdio buf 

Hello world 

Ciao 

不 过 ， 当 重 定向 标准 输出 到 一 个 文件 时 ， 结 果 如 下 ; 

$ ./fork stdio buf > a 

$ cat a 

Ciao 

Hello world 

Hello world 


以 上 输出 中 有 两 件 怪事 : printf0 的 输出 行 出 现 了 两 次 ， 且 write0 的 输出 先 于 printf()。 
程序 清单 25-2. fork() 与 stdio 缓冲 区 的 交互 











procexec/fork stdio buf.c 
#include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


printf("Hello world in"); 
write(STDOUT FILENO, "CiaoW", 5); 


if (fork() == -1) 
errExit(" fork"); 


/* Both child and parent continue execution here */ 


exit(EXIT SUCCESS); 


procexec/fork stdio buf.c 


要 理解 为 什么 printf0) 的 输出 消息 出 现 了 两 次 , 首先 要 记 住 , 是 在 进程 的 用 户 空间 内 存 
中 (参考 13.2 节 ) 维护 stdio 缓冲 区 的 。 因此， 通过 forkO 创 建 子 进程 时 会 复制 这 些 缓冲 
区 。 当 标准 输出 定向 到 终端 时 ， 因 为 缺 省 为 行 缓冲 ， 所 以 会 立即 显示 函数 printf0 输 出 的 包 
含 换行 符 的 字符 串 。 不 过 ， 当 标准 输出 重 定向 到 文件 时 ， 由 于 缺 省 为 块 缓冲 ， 所 以 在 本 例 
中 ， 当 调用 forkO 时 ，printtO 和 输出 的 字符 串 仍 在 父 进程 的 stdio 缓冲 区 中 ， 并 随 子 进程 的 创 
建 而 产生 一 份 副本 。 父 、 子 进程 调用 exitO 时 会 刷新 各 自 的 stdio 缓冲 区 ， 从 而 导致 重复 的 
输出 结 
可 以 采用 以 下 任 一 方法 来 避免 重复 的 输出 结果 。 
。 作为 针对 stdio 缓冲 区 问题 的 特定 解决 方案 ， 可 以 在 调用 fork0 之 前 使 用 函数 fflush0 
来 刷新 stdio 缓冲 区 。 作 为 另 一 种 选择 ， 也 可 以 使 用 setvbufO fl setbufO 来 关闭 stdio 流 
的 缓冲 功能 
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e 于 进程 可 以 调用 _exitO 而 非 exit0)， 以 便 不 再 刷新 stdio 缓冲 区 。 这 一 扩 术 例证 了 一 个 
更 为 通用 的 原则 : 在 创建 子 进 程 的 应 用 中 ,典型 情况 下 仅 有 一 个 进程 《一 般 为 父 进程 ) 
应 通过 调用 exitO 终 止 ， 而 其 他 进程 应 调用 _exitO 终 止 ， 从 而 确保 只 有 一 个 进程 调用 退 
出 处 理 程 序 并 刷新 stdio 绥 冲 区 ， 这 也 算是 众望 所 归 吧 。 


还 存在 其 他 方法 ， 可 以 《有 时 很 有 必要 ) 允许 父子 进程 都 调用 exit0)。 例 如 ， 可 以 设计 这 
样 的 退出 处 理 程 序 ， 即 使 是 从 多 个 进程 中 调用 ， 它 们 也 能 够 正确 地 处 理 ， 或 者 令 应 用 程序 仪 
在 调用 fork0 之 后 才 去 安装 退出 处 理 程序 ,此 外 ,有 时 可 能 确实 希望 所有 的 应 用 程序 都 在 fork0) 
之 后 刷新 stdio 缓冲 区 。 这 时 ， 可 以 见 机 行事 ， 要 么 选择 使 用 exit0 来 终止 进程 ， 要 么 在 每 个 
进程 中 均 显 式 调 用 fflushO. 


程序 清单 25-2 中 write0 的 输出 并 未 出 现 两 次 ， 这 是 因为 write0 会 将 数据 直接 传 给 内 核 组 
种 区 ，forkO 不 会 复制 这 一 缓冲 区 。 

程序 输出 重 定 问 到 文件 时 出 的 第 二 件 怪事 ， 原 因 现 在 也 清楚 了 。write0 的 输出 结果 先 于 
printfO 而 出 现 ， 是 因为 write0 会 将 数据 立即 传 给 内 核 高 速 缓存 ， 而 printf0 的 输出 则 需要 等 到 
调用 exit 0 刷新 stdio 绥 冲 区 时 。( 如 13.7 市 所 述 ， 通 音 ， 在 混合 使 用 stdio 函数 和 系统 调用 对 
同一 文件 进行 VO 处 理 时 ， 需 要 特别 谨慎 。) 



































25.5 总结 


进程 的 终止 分 为 正常 和 异种 两 种 。 异 常 终止 可 能 是 由 于 某 些 信号 引起 ， 其 中 的 一 些 信和 号 
还 可 能 导致 进程 产生 一 个 核心 转 储 文件 。 

正 第 的 终止 可 以 通过 调用 _exitO0 完 成 ， 更 多 的 情况 下 ， 则 是 使 用 _exitO0 的 上 层 函 数 exit0 完 
成 。_ exit0 和 exitO 都 需要 一 个 整 型 参数 ， 其 低 8 位 定义 了 进程 的 终止 状态 。 依 照 惯例 , SO 
用 来 表示 进程 成 功 完 成 ， 非 0 则 表示 弄 第 退出 。 

不 管 进 程 正常 终止 与 否 ， 内 核 都 会 执行 多 个 清理 步骤。 侧 用 ER 党 次 U — TERES E 
会 引发 执行 经 由 atexit0 和 on_exitO 注 册 的 退出 处 理 程序 “执行 顺序 与 注册 顺序 相反 同时 着 
新 stdio RIP. o 


更 多 信息 
请 参考 24.6 太 所 列 的 深入 信息 来 源 。 














25.6 ”练习 
如 果子 进程 调用 exit(-1), 父 进程 将 会 看 到 何 种 退出 状态 (由 WEXITSTATUSO 返 回 〉? 


446 Linux/UNIX 系统 编程 手册 ( 上 册 ) 
异步 社区 会 员 flyman150(2410757683@qq.com) EF 尊重 版 权 








在 很 多 应 用 程序 的 设计 中 ， 父 进程 需要 知道 其 东 个 子 进程 于 何 时 改变 了 状态 一 一 子 进程 
终止 或 因 收 到 信号 而 停止 。 本 章 描述 两 种 用 于 监控 子 进 程 的 撤 术 : 系统 调用 wait “及 其 变 体 ) 
以 及 信号 SIGCHLD, 





26.1 等 等 子 进程 

对 于 许多 需要 创建 子 进程 的 应 用 来 说 ， 父 进程 能 够 监测 子 进 程 的 终止 时 间 和 过 程 是 很 有 
必要 的 。wait0 以 及 若干 相关 的 系统 调用 提供 了 这 一 功能 。 
26.1.1 系统 调用 wait() 


系统 调用 waitO 等 竺 调用 进程 的 任 一 子 进程 终止 ， 同 时 在 参数 status 所 指 癌 的 缓冲 区 中 返回 
该 子 进程 的 终止 状态 。 














#include «sys/wait.h» 


pid t wait(int *status); 


Returns process ID of terminated child, or -1 on error 








系统 调用 wait0 执 行 如 下 动作 。 

1. 如 果 调用 进程 并 无 之 前 未 被 等 待 的 子 进程 终止 ， 调 用 将 一 直 阻 塞 ， 直 至 某 个 子 进程 终止。 
如 果 调 用 时 已 有 子 进程 终止 ，wait0 则 立即 返回 。 

2. 如 果 status 非 空 , 那么 关于 子 进程 如 何 终止 的 信息 则 会 通过 status 指向 的 整 型 变量 返回 。 
26.1.3 节 将 讨论 自 status 返回 的 信息 。 

3. 内 核 将 会 为 父 进程 下 所 有 子 进程 的 运行 总 量 追 加 进程 CPU 时 间 (10.7 节 ) 以 及 资源 使 用 
数据 。 



































1 译 者 注 : 原文 为 “让 on (previously unwaited-for) child of the calling process has yet terminated". 
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4. 将 终止 子 进 程 的 ID 作为 waitO 的 结果 返回 。 


出 错时 ，wait0 返 回 -1。 可 能 的 错误 原因 之 一 是 调用 进程 并 无 之 前 未 被 等 待 的 子 进 程 ， 此 
时 会 将 errno 置 为 ECHILD。 pus 言 之 ， 可 使 用 如 下 代码 中 的 循环 来 等 每 调用 进程 的 所 有 子 进程 
iL. 
while ((childPid = wait(NULL)) !- -1) 
continue; 


if (errno !- ECHILD) /* An unexpected error... */ 
errExit("wait"); 


程序 清单 26-1 演示 了 waitO 的 用 法 。 该 程序 创建 多 个 子 进程 ， 每 个 子 进程 对 应 于 一 个 〈 整 
型 ) 命令 行 参 数 。 每 个 子 进 程 休 有 眠 者 干 秒 后 退出 ， 体 眠 时 间 分 别 由 相应 各 命令 行 参 数 指定 。 
与 此 同时 ， 在 创建 所 有 的 子 进程 之 后 ， 父 进程 循环 调用 wait0 来 监 探 这些 子 进程 的 终止 。 而 下 

到 waitO3R[HI-1 时 才 会 退出 循环 。( 这 并 非 唯一 的 手段 ， 男 一 种 退出 循环 的 方法 是 当 记 录 终 止 

子 进程 数量 的 变量 numDead 与 创建 的 子 进程 数目 相同 时 ， 也 会 退出 循环 。〉 以 下 shell 会 话 日 
志 显 示 了 使 用 该 程序 创建 3 个 子 进程 时 的 情况 。 

$ pe wait 7 14 
child 1 started with PID 21835, sleeping 7 seconds 


00] 

00] child 2 started with PID 21836, sleeping 1 seconds 
13: aii i child 3 started with PID 21837, sleeping 4 seconds 

01] 

| 





























[ 

[ 

[ wait() returned child PID 21836 (numDead-1) 
[13: 41:04] wait() returned child PID 21837 (numDead-2) 
[13:41:07] wait() returned child PID 21835 (numDead-3) 
No more children - bye! 





如 果 于 同一 时 点 存在 多 个 子 进 程 退 出 ，SUSv3 并 未 对 wait0 处 理 这 些 子 进程 的 顺序 加 
以 规定 ,换言之 ， 该 顺序 取决 于 具体 实现 。 即 使 不 同 的 Linux 内 核 版 本 之 间 ， 行 为 也 有 所 
不 同 。 


程序 清单 26-1: 创建 并 等 待 多 个 子 进程 


procexec/multi wait.c 
include «sys/wait.h» 
include «time.h» 
#include "curr time.h" /* Declaration of currTime() */ 
include "tlpi hdr.h" 


int 

main(int argc, char *argv[]) 

i 
int numDead; /* Number of children so far waited for */ 
pid t childPid; /* PID of waited for child */ 
int j; 


if (argc < 2 || stremp(argv[1], "--help") == 0) 
usageErr("Xs sleep-time...n", argv[0]); 


setbuf(stdout, NULL); /* Disable buffering of stdout */ 


for (j = 1; j < argc; j++) { /* Create one child for each argument */ 
switch (fork()) { 


1 译 者 注 : 此 处 原文 为 previously unwaited-for. 
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case -1: 
errExit(" fork"); 


case 0: /* Child sleeps for a while then exits */ 
printf("[Xs] child Xd started with PID %ld, sleeping Xs " 
"secondsWn", currTime("XT"), j, (long) getpid(), argv[jl); 
sleep(getInt(argv[j], GN NONNEG, "sleep-time")); 
 exit(EXIT SUCCESS); 


default: /* Parent just continues around loop */ 
break; 


j 
j 


numDead - 
for (55) ( /* Parent waits for each child to exit */ 


childPid - wait(NULL); 
if (childPid == -1) ( 
if (errno -- ECHILD) { 
printf("No more children - bye! in"); 
exit(EXIT SUCCESS); 
} else { /* Some other (unexpected) error */ 


errExit("wait"); 
} 
} 


numDead++; 
printf("[4s] wait() returned child PID %ld (numDead=%d)\n", 
currTime("XT"), (long) childPid, numDead); 


procexec/multi wait.c 


26.1.2 系统 调用 waitpid() 

系统 调用 wait0) 存 在 诸多 限制 ， 而 设计 waitpid N ETE ROX E RR 

e 如果 父 进程 已 经 创建 了 多 个 子 进程 ， 使 用 waitO 将 无 法 等 待 茶 个 特定 子 进程 的 完成 ， 
只 能 按 顺序 等 待 下 一 个 子 进程 的 终止 。 

。 如 果 没 有 子 进程 退出 ，waitO 总 是 保持 阻塞 。 有 时 候 会 希望 执行 非 阻 塞 的 等 待 : 是 否 
有 子 进 程 退 出 ， 立 判 可 知 。 

。 使 用 waitO 只 能 发 现 那 些 已 经 终止 的 子 进 程 。 对 于 子 进程 因 某 个 信号 〈 如 SIGSTOP 或 
SIG TTIND 而 停止 ， 或 是 已 停止 子 进程 收 到 SIGCONT 信和 与 后 恢复 执行 的 情况 就 无 能 
A qos 




















I 



































include «sys/wait.h» 


pid t waitpid(pid t pid, int *siatus, int options); 


Returns process ID of child, 0 (see text), or -1 on error 











waitpidO 与 Wait() 的 返回 值 以 及 参数 status 的 意义 相同 。( 对 status 中 返回 值 的 解释 请 参 
考 26.1.3 节 。) 参数 pid 用 来 表示 需要 等 待 的 具体 子 进程 ， 意 义 如 下 : 
e 如果 pd 大 于 0， 表示 等 每 进程 ID 为 pid 的 子 进程 。 
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e WR pid 等 于 0， 则 等 竺 与 调用 进程 〈 父 进程 ) 同一 个 进程 组 Cprocess group). 的 所 有 
子 进程 。34.2 节 将 撞 述 进程 组 的 概念 。 
e WR pid 小 于 -1， 则 会 等 竺 进程 组 标识 符 与 pid 绝对 值 相 等 的 所 有 子 进 程 。 
e MR pid €F L Ju HEX T XXE. wait(&status) 的 调用 与 waitpid(-1, &status, 0) 
SET e 
参数 options 是 一 个 位 掩 人 码 (bit mask)， 可 以 包含 ( 按 位 或 操作 ) 0 个 或 多 个 如 下 标志 〈 均 
在 SUSv3 rp gn DAI T8. 


WUNTRACED 
除了 返回 终止 子 进 程 的 信息 外 ， 还 返回 因 信 号 而 停止 的 子 进 程 信息 。 











WCONTINUED ( 自 Linux2.6.10 以 来 ) 
返回 那些 因 收 到 SIGCONT 信号 而 恢复 执行 的 已 停止 子 进程 的 状态 信息 。 





WNOHANG 
Al RB pid 所 指定 的 也 进程 养 示 发生 状态 改变 , DUIS BIBA EL, 而 不 会 阻塞 ; ZRBI poll GÈ 
Tp. (在 这 种 情况 下 ，waitpid0 返 回 0。 如 果 调 用 进程 并 无 与 pid 匹配 的 子 进 程 ， 则 waitpid0 报 错 ， 
将 错误 号 置 为 ECHILD。 
程序 清单 26-3 演示 了 waitpidO 的 使 用 。 
SUSv3 在 其 对 waitpid0) 的 原理 阐述 中 特别 指出 ，WUNTRACED 的 名 称 是 源 于 BSD 
的 历史 产物 。BSD 有 两 种 停止 进程 的 方法 : 作为 系统 调用 ptrace0 妃 踩 的 结果 ， 或 者 因 收 
到 一 个 信号 而 停止 。 当 通过 ptraceO 退 踩 一 个 子 进 程 时 ， 那 么 〈 除 SIGKILL 之 外 的 ) 任何 
音 号 都 会 造成 子 进程 停止 ， 接 着 会 将 信号 SIGCHLD 发 给 父 进 程 。 即 使 子 进 程 忽 略 这 些 信 
号 ， 这 一 行为 仍 会 发 生 。 不 过 ， 如 果子 进程 阻塞 了 这 些 信号 (除非 是 无 法 阻塞 的 SIGSTOP 
fH 920. TXXURNLAABIE. 


26.1.3 FASE 

由 waitD0 和 waitpidOiR [HII] status 的 值 ， 可 用 来 区 分 以 下 子 进程 事件 。 

e 子 进程 调用 _exit() (或 exit0) 而 终止 ， 并 指定 一 个 整 型 值 作为 退出 状态 。 

e 子 进程 收 到 未 处 理 信 号 而 终止 。 

e 子 进程 因为 信号 而 停止 ， 并 以 WUNTRACED 标志 调用 waitpid(. 

e 于 进程 因 收 到 信号 SIGCONT 而 恢复 ， 并 以 WCONTINUED 标志 调用 waitpid()。 

此 处 用 术语 “等 待 状态 ”(wait status) 来 涵盖 上 述 所 有 情况 ， 而 使 用 “ 终 目 状态 ”(termination 
status) 的 称谓 来 指 代 前 两 种 情况 。( 在 shell 中 ， 可 通过 读 取 $? 变 量 值 来 获取 上 次 执行 命令 的 终止 
JS.) 

虽然 将 变量 status 定义 为 整 型 (int)， 但 实际 上 仅 使 用 了 其 最 低 的 2 个 字 节 。 对 这 2 个 字 
节 的 填充 方式 取决 于 子 进程 所 发 生 的 具体 事件 ， 如 图 26-1 所 示 。 

图 26-1 所 示 为 Linux/x86-32 下 等 待 状态 值 的 格式 。 不 同 的 实现 版 本 细节 会 有 所 不 同 。SUSv3 
并 未 对 信息 格式 做 出 具体 规定 ， 也 未 规定 只 能 使 用 status 变量 的 最 低 2 个 字 节 。 要 保证 应 用 程 
序 的 可 移植 性 ， 应 总 是 使 用 本 节 介 绍 的 宏 (macro) 来 获取 相应 的 值 ， 而 不 应 直接 按 位 读 取 其 
内 容 。 
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正常 终止 


为 信号 所 杀 





为 信号 所 停止 


26-1: E wait() 和 waitpid() 的 status 参数 所 返回 的 值 





头 文件 <sys/wait.h> 定 义 了 用 于 解析 等 竺 状态 值 的 一 组 标准 宏 。 对 目 wait0 或 waitpid0 返 回 的 
status 值 进行 处 理 时 ， 以 下 列表 中 各 宏 只 有 一 个 会 返回 真 (true) 值 。 如 列表 所 示 ， 男 有 其 他 宏 可 
对 status 值 做 进一步 分 析 。 


WIFEXITED (status) 
若 子 进程 正常 结束 则 返回 真 (true )。 此 时 ， 宏 WEXITSTATUS(status) 返 回 子 进程 的 退出 
状态 。( 如 25.1 节 所 述 ， 父 进 程 仅 关注 子 进程 退出 状态 的 最 低 8 位 。) 


WIFSIGNALED (status) 

若 通过 信号 杀 掉 子 进程 则 返回 真 (true)。 此 时 ， 宏 WTERMSIG(status) 返 回 导 致 子 进程 终止 
的 信号 编写 。 硅 子 进 程 产 生 内 核 转 储 文件 ， 则 宏 WCOREDUMPCtatus) 返 回 真 值 (true)。SUSv3 
并 未 规范 宏 WCOREDUMPO， 不 过 大 部 分 UNIX 实现 均 支 持 该 宏 
































WIFSTOPPED (status) 
耕 子 进程 因 信 号 而 停止 ， 则 此 实 返 回 为 真 值 (true)。 此 时 ， 宏 WSTOPSIG(status) 返 回 导 

致 子 进程 停止 的 信号 编号 。 
WIFCONTINUED (status) 

否 子 进程 收 到 SIGCONT 而 恢复 执行 ， 则 此 宏 返 回 真 值 (true). H Linux 2.6.10 之 后 开始 
支持 该 宏 。 

注意 : 尽管 上 述 宏 的 参数 也 以 status 命名 ， 不 过 此 处 所 指 只 是 简单 的 整 型 变量 ， 而 非 像 
wait() 和 waitpid() 所 要 求 的 那样 是 指 问 整 型 的 指针 。 


示例 程序 


程序 清单 26-2 中 的 函数 printWaitStatusO EH T ERMA Z. RRIA T SERES 
值 的 内 容 。 


序 清单 26-2， 输出 wait(0) 及 相关 调用 返回 的 状态 值 





























procexec/print wait status.c 


#define GNU SOURCE /* Get strsignal() declaration from <string.h> */ 
#include «string.h» 
#include «sys/wait.h» 
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&include "print wait status.h" /* Declaration of printWaitStatus() */ 
#include "tlpi hdr.h" 


/* NOTE: The following function employs printf(), which is not 
async-signal-safe (see Section 21.1.2). As such, this function is 
also not async-signal-safe (i.e., beware of calling it from a 
SIGCHLD handler). */ 


void /* Examine a wait() status using the W* macros */ 
printWaitStatus(const char *msg, int status) 
{ 


if (msg != NULL) 
printf("Xs", msg); 


if (WIFEXITED(status)) { 
printf("child exited, status=%d\n", WEXITSTATUS(status)); 


} else if (WIFSIGNALED(status)) { 
printf("child killed by signal Xd (Xs)", 
WTERMSIG(status), strsignal(WTERMSIG(status))); 
itifdef WCOREDUMP /* Not in SUSv3, may be absent on some systems */ 
if (WCOREDUMP (status)) 
printf(" (core dumped)"); 
ftendif 
printf("An"); 


} else if (WIFSTOPPED(status)) 1 
printf("child stopped by signal ^d (%s)\n", 
WSTOPSIG(status), strsignal(WSTOPSIG(status))); 


#ifdef WIFCONTINUED /* SUSv3 has this, but older Linux versions and 
some other UNIX implementations don't */ 
} else if (WIFCONTINUED(status)) { 
printf("child continued\n"); 
#endif 


} else { /* Should never happen */ 
printf("what happened to this child? (status=%x)\n", 
(unsigned int) status); 


procexec/print wait status.c 


程序 清单 26-3 使 用 了 printWaitStatusOPRZX .. VAFEFFGUEE T — T T XXE, VAT EFE BR 
调用 pauseO0〔 在 此 期 间 可 以 辣子 进程 发 送信 写 )， 但 如果 在 命令 行 中 指定 了 整 型 参数 ， 则 子 进 
程 会 立即 退出 ， 并 以 该 整 型 值 作为 退出 状态 。 同 时 ， 父 进程 通过 waitpid0 监 控 子 进程 ， 打 印 
子 进程 返回 的 状态 值 并 将 其 作为 参数 传递 给 printWaitStatusO0。 一 旦 发 现 子 进程 已 正常 退出 ， 
处 或 因 某 一 信号 而 终止 ， 父 进程 会 随即 退出 。 

如 下 shell 会 话 展 示 了 执行 程序 清单 26-3 程序 的 几 个 例子 。 首 先 ,创建 一 子 进程 并 立即 退 
出 ， 且 其 状态 值 为 23: 

$ ./child status 23 

Child started with PID - 15807 


waitpid() returned: PID-15807; status-0x1700 (23,0) 
child exited, status-23 


接 下 来 ， 在 后 台 运 行 该 程序 ， 并 辣子 进程 发 送 SIGSTOP 和 SIGCONT 信号。 
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$ ./child status & 

[1] 15870 

$ Child started with PID - 15871 

kill -STOP 15871 

$ waitpid() returned: PID-15871; status-0x137f (19,127) 

child stopped by signal 19 (Stopped (signal)) 

kill -CONT 15871 

$ waitpid() returned: PID-15871; status-Oxffff (255,255) 

child continued 

输出 的 最 后 两 行 只 会 在 Linux 2.6.10 及 其 之 后 的 内 核 版 本 中 出 现 , 因为 早期 内 核 并 不 支持 
waitpidO 的 WCONTINUED 选项 。( 由 于 后 台 运 行程 序 的 输出 有 时 会 与 shell 提示 符 混 在 一 起 ， 
故而 该 shell 会 话 稍 徽 有 坚 难 以 阅读 。) 

接着 ， 再 发 送 SIGABRT 信号 来 终止 子 进程 : 

kill -ABRT 15871 

$ waitpid() returned: PID=15871; status=0x0006 (0,6) 

child killed by signal 6 (Aborted) 

Press Enter, in order to see shell notification that background job has terminated 

[1]+ Done ./child status 

$ ls -1 core 

ls: core: No such file or directory 

$ ulimit -c Display RLIMIT CORE limit 


0 

虽然 SIGABRT 的 默认 行为 是 产生 一 个 内 核 转 储 文件 并 终止 进程 , 但 这 里 并 未 产生 转 储 文 
件 。 这 是 由 于 屏蔽 内 核 转 储 所 致 ， 如 以 上 命令 ulimit 的 输出 所 示 ， 将 RLIMIT CORE 资源 软 限 
制 〈 见 36.3 市 ) 置 为 0， 该 限制 规定 了 转 储 文件 大 小 的 最 大 值 。 

再 次 重复 同一 实验 ,不 过 这 次 在 发 送信 号 SIGABRT 给 子 进程 之 前 , 放 开 了 对 转 储 文件 大 
小 的 限制 。 





























$ ulimit -c unlimited Allow core dumps 

$ ./child status & 

[1] 15902 

$ Child started with PID - 15903 

kill -ABRT 15903 Send SIGABRT to child 


$ waitpid() returned: PID-15903; status-0x0086 (0,134) 
child killed by signal 6 (Aborted) (core dumped) 
Press Enter, in order to see shell notification that background job has terminated 


[1]+ Done ./child status 
$ ls -l core This time we get a core dump 
-IW------- 1 mtk users 65536 May 6 21:01 core 


程序 清单 26-3: 使 用 waitpid() 获 取 子 进程 状态 


procexec/child status.c 


#include <sys/wait.h> 
#include "print wait status.h" /* Declares printWaitStatus() */ 
include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


int status; 
pid t childPid; 


if (argc > 1 88 strcmp(argv[1], "--help") == 0) 
usageErr("Xs [exit-status]Wn", argv[0]); 


switch (fork()) 1 
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case -1: errExit("fork"); 


case 0: /* Child: either exits immediately with given 
status or loops waiting for signals */ 

printf("Child started with PID = %ld\n", (long) getpid()); 
if (argc » 1) /* Status supplied on command line? */ 

exit(getInt(argv[1], 0, "exit-status")); 
else /* Otherwise, wait for signals */ 

for (55) 

pause(); 

exit(EXIT FAILURE); /* Not reached, but good practice */ 


default: /* Parent: repeatedly wait on child until it 
either exits or is terminated by a signal */ 


for (;;) { 

childPid = waitpid(-1, &status, WUNTRACED 

#ifdef WCONTINUED /* Not present on older versions of Linux */ 
| WCONTINUED 
#endif 
); 
if (childPid == -1) 
errExit("waitpid"); 


/* Print status in hex, and as separate decimal bytes */ 


printf("waitpid() returned: PID-X1d; status=0x%04x (%d,%d)\n", 
(long) childPid, 
(unsigned int) status, status »» 8, status & Oxff); 
printWaitStatus(NULL, status); 


if (WIFEXITED(status) || WIFSIGNALED(status)) 
exit(EXIT SUCCESS); 


procexec/child status.c 


26.1.4 ”从 信号 处 理 程 序 中 终止 进程 


如 表 20-1 所 列 ， 默 认 情 况 下 某 些 信号 会 终止 进程 。 有 时 ， 可 能 希望 在 进程 终止 之 前 执行 一 
些 清 理 步 又 。 为 此 ， 可 以 设置 一 个 处 理 程序 Chandler) 来 捕获 这 些 信 号 ， 随 即 执行 清理 步 又， 
再 终止 进程 。 如 果 这 么 做 ， 需 要 牢记 的 是 : 通过 wait0 和 waitpid0 调 用 ， 父 进程 依然 可 以 获取 子 
进程 的 终止 状态 。 例 如 ， 如 果 在 信号 处 理 程序 中 调用 _exit(EXIT_SUCCESS)， 父 进程 会 认为 子 
进程 是 正常 终止 。 

如 果 需 要 通知 父 进程 自己 因 某 个 信号 而 终止 ， 那 么 子 进 程 的 信号 处 理 程序 应 首先 将 上 自 
己 废 除 ， 然 后 再 次 发 出 相同 信号 ， 该 信号 这 次 将 终止 这 一 子 进 程 。 信 和 号 处 理 程 序 需 包含 如 
下 代码 : 


void 
handler(int sig) 
{ 



































/* Perform cleanup steps */ 


signal(sig, SIG DFL); /* Disestablish handler */ 
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raise(sig); /* Raise signal again */ 


26.1.5 系统 调用 waitid() 

与 waitpid0 类 似 ，waitid0 返 回 子 进程 的 状态 。 不 过 ，waitid0 提 供 了 waitpid0 所 没有 的 扩 
展 功能 。 该 系统 调用 源 于 系统 V (System V), 不 过 现在 已 获 SUSv3 采用 ， 并 从 版 本 2.6.9 开始 ， 
将 其 加 入 Linux 内 核 。 











在 Linux 2.6.9 之前， 通过 glibc 实现 提供 了 一 版 waitid0。 然 而 ， 由 于 完全 实现 该 接口 
需要 内 核 的 文 持 ， 因 此 glibe 版 实现 并 未 提供 比 waitpid0 更 多 的 功能 。 





#include «sys/wait.h» 


int waitid(idtype t dtype, id t id, siginfo t *infop, int options); 


Returns 0 on success or if WNOHANG was specified and 
there were no children to wait for, or -1 on error 








参数 idtype 和 id JR jE mi ARREST ERE, Jl PHI. 

e WR idtype X P ALL， 则 等 竺 任何 子 进 程 ， 同 时 忽略 id fH. 

。 如 果 idtype 为 P PID， 则 等 竺 进程 ID 为 id 进程 的 子 进程 。 

e WR idtype 为 P PGID， 则 等 竺 进程 组 ID 为 id 各 进程 的 所 有 子 进程 。 


























请 注意 ， 与 waitpidO0 人 不 同 ， 不 能 徘 指定 id 为 0 来 表示 与 调用 者 属于 同一 进程 组 的 所 有 
进程 。 相 反 ， 必 须 以 getpgrpO 的 返回 值 来 显 式 指定 调用 者 的 进程 组 ID. 


waitpid() 与 waitidO 最 显著 的 区 别 在 于 ， 对 于 应 该 等 待 的 子 进程 事件 ，waitidO 可 以 更 为 类 
确 地 控制 。 可 通过 在 options 中 指定 一 个 或 多 个 如 下 标识 〈 按 位 或 运算 ) 来 实现 这 种 控制 。 





WEXITED 
等 符 已 终止 的 子 进 程 ， 而 无 论 其 是 否 正常 返回 。 


WSTOPPED 
等 竺 已 通过 信号 而 停止 的 子 进 程 。 


WCONTINUED 
等 待 经 由 信号 SIGCONT 而 恢复 的 子 进 程 。 
以 下 附加 标识 也 可 以 通过 按 位 或 运算 加 入 options 中 。 








WNOHANG 

与 其 在 waitpid0 中 的 意义 相同 。 如 果 匹 配 id 值 的 子 进程 中 并 无 状态 信息 需要 返回 ， 则 立 
即 返 加 《一 个 轮 询 )。 此 时 ，waitid0 返 回 0。 如 条 调用 进程 并 无 子 进程 与 id 的 值 相 匹配 ， 则 
waitid 调用 失败 ， 且 错误 号 为 ECHILD。 














WNOWAIT 
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RIME T WNOWAIT， 则 会 返回 子 进程 状态 ， 但 子 进 程 依 然 处 于 可 等 待 的 《waitable) 状态， 
和 后 可 再 次 等 行 并 获取 相同 信息 。 

执行 成 功 ，waitid0 返 回 0， 且 会 更 新 指针 infop 所 指向 的 siginfo t 结构 ， 以 包含 子 进程 的 
相关 信息 。 以 下 是 结构 siginfo t 的 字段 情况 。 





S/ code 

该 字段 包含 以 下 值 之 一 : CLD_ EXITED， 表 示 子 进程 已 通过 调用 _exitO 而 终止 ，CLD KILLED, 
表示 子 进 程 为 某 个 信号 所 杀 ; CLD STOPPED， 表 示 子 进程 因 革 个 信号 而 停止 CLD CONTINUED, 
表示 (之 前 停止 的 ) 子 进程 因 接 收 到 (SIGCONT) 信号 而 恢复 执行 。 





























SÍ pid 

该 字段 包含 状态 发 生变 化 子 进程 的 进程 ID. 
S/ Signo 

总 是 将 该 字段 置 为 SIGCHLD。 





S/ Status 
该 字段 要 么 包含 传递 给 _exitO0 的 子 进 程 退 出 状态 ， 要 么 包含 导致 子 进程 停止 、 继 续 或 终止 
的 信号 值 。 可 以 通过 读 取 si code 值 来 判定 具体 包含 的 是 哪 一 种 类 型 的 信息 。 




















s/ uid 
该 字段 包含 子 进程 的 真正 用 户 ID。 大 部 分 其 他 UNIX 实现 不 会 设置 该 子 段 。 





在 Solaris 系统 中 ， 此 结构 还 包含 两 个 附加 字段 ， si stime 和 si utime， 分 别 包 含 子 进程 
使 用 的 系统 和 用 户 CPU 时 间 。SUSv3 并 不 要 求 waitid0 处 理 这 两 个 字段 。 


waitid0 操 作 的 一 处 细节 需要 进一步 洪 清 。 如果 在 options 中 指定 了 WNOHANG,， 那 么 waitid() 
返回 0 意味 着 以 下 两 种 情况 之 一 :在 调用 时 子 进程 的 状态 已 经 改变 (关于 子 进 程 的 相关 信息 保 
存在 infop 指针 所 指 问 的 结构 siginfo t 中 )， 或 者 没有 任何 子 进程 的 状态 有 所 改变 。 对 于 没有 
任何 子 进程 改变 状态 的 情况 ， 一 些 UNIX 实现 (包括 Linux). 会 将 siginfo t 结构 内 容 清 0。 这 
也 是 区 分 两 种 情况 的 方法 之 一 : 检查 si_pid 的 值 是 售 为 0。 不 笠 的 是 ，SUSv3 并 未 规范 这 一 行为 ， 
一 些 UNIX 实现 此 时 会 保持 结构 siginfo t 原封 不 动 。( 未 来 针对 SUSv4 的 勘误 表 可 能 会 增加 在 这 
种 情况 下 将 si pid 和 si signo Er 0 的 要 求 。) 区 分 这 两 种 情况 唯一 可 移植 的 方法 是 : 在 调用 waitid() 
之 六 就 将 结构 siginfo t 的 内 容 置 为 0， 正 如 以 下 代码 所 示 : 


siginfo t info; 



































memset(&info, O0, sizeof(siginfo t)); 
if (waitid(idtype, id, &info, options | WNOHANG) == -1) 
errExit("waitid"); 
if (info.si pid -- 0) ( 
/* No children changed state */ 
} else { 
/* A child changed state; details are provided in 'info' */ 
j 


26.1.6 ”系统 调用 wait3() fl wait4() 
系统 调用 wait30 〇 和 wait40 执 行 与 waitpid% LE. 3EXÉBE Xe» E. wait304 wait4() 
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在 参数 rusage 所 指 问 的 结构 中 返回 终止 子 进程 的 资源 使 用 情况 。 其 中 包括 进程 使 用 的 CPU 时 间 
总 量 以 及 内 存 管理 的 统计 数据 。36.1 市 将 在 介绍 系统 调用 getrusageO0 时 话 细 讨论 rusage 结构 。 





#define BSD SOURCE /* Or #define XOPEN SOURCE 500 for wait3() */ 
include «sys/resource.h» 
include «sys/wait.h» 


pid t wait3(int *s/atus, int options, struct rusage *rusage); 
pid t wait4(pid t pid, int *status, int options, struct rusage *rusage); 


Doth return process ID of child, or -1 on error 








除了 对 参数 rusage 的 使 用 之 外 ， 调 用 wait30 等 同 于 以 如 下 方式 调用 waitpidO: 

waitpid(-1, &status, options); 

与 之 相 类 似 ， 对 wait40 的 调用 等 同 于 对 waitpid0 的 如 下 调用 : 

waitpid(pid, &status, options); 

换言之 ，wait30 等 待 的 是 任意 子 进程 ， 而 wait40 则 可 以 用 于 等 待 选 定 的 一 个 或 多 个 子 进程 。 

在 一 些 UNIX 实现 中 ，wait30 和 wait40 仅 返回 已 终止 子 进程 的 资源 使 用 情况 。 而 对 于 Linux 系 
统 ， 如 果 在 options 中 指定 了 WUNTRACED 选项 ， 则 还 可 以 获取 到 集 止 子 进程 的 资源 使 用 信息 。 

这 两 个 系统 调用 的 名 称 来 日 于 它们 所 使 用 参数 的 个 数 。 虽 然 源 日 BSD 系统 ,不 过 现在 大 部 
分 的 UNIX 实现 都 文 持 它 们 。 这 两 个 系统 调用 均 未 获得 SUSv3 标准 的 接纳 。(SUSv2 标准 纳入 
了 wait30， 但 将 其 标记 为 “已 过 时 ”。) 

本 书 一 般 会 避免 使 用 wait30 和 wait40。 通 党 情况 下 ， 此 类 调用 所 返回 的 额外 信息 没有 什 
么 价值 。 此 外 ， 未 获 业 界 标准 的 接纳 也 会 限制 其 可 移植 性 。 
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26.2 ” 扳 儿 进程 与 僵尸 进程 


父 进程 与 子 进程 的 生命 周期 一 般 都 不 相同 ， 父 、 子 进程 间 互 有 长 短 。 这 就 引出 了 下 面 两 个 问题 。 

o 谁 会 是 抓 儿 (orphan) 子 进程 的 父 进程 ? 进程 ID 为 1 的 众 进程 之 祖 一 一 init 会 接管 拆 儿 
进程 。 换 言 之 ， 菏 一 子 进程 的 父 进 程 终止 后 ， 对 getppid0 的 调用 将 返回 1。 这 是 判定 
东 一 子 进程 “生父 ”是 否 “在 世 ” 的 方法 乙 一 《前 提 是 假设 该 子 进程 由 init 之 外 的 
进程 创建 )。 


使 用 参数 PR_SET_PDEATHSIG 调用 Linux 特有 的 系统 调用 prcttO， 将 有 可 能 导致 某 一 
进程 在 成 为 孤儿 时 收 到 特定 信和 号。 


。 在 父 进 程 执 行 wait0 之 前 ， 其 子 进程 就 已 经 终止 ， 这 将 会 发 生 什 么 ?此 处 的 要 点 在 于 ， 即 使 
子 进程 已 经 结束 ， 系 统 仍 然 允 许 其 父 进 程 在 之 后 的 条 一 时 刻 去 执行 wait0， 以 确定 该 子 进 程 
古 如 何 终 止 的。 内 核 通过 将 子 进程 转 为 僵 己 进程 (zombie) 来 处 理 这 种 情况 。 这 也 意味 看 将 
释放 子 进程 所 把 持 的 大 部 分 资源 ， 以 便 供 其 他 进程 重新 使 用 。 访 进程 所 唯一 保留 的 是 内 核 进 
程 表 中 的 一 条 记录 ， 其 中 包含 了 子 进程 DD、 终 止 状 态 、 资 源 使 用 数据 (36.1 节 ) 等 信息 。 
全 于 僵尸 进程 名 称 的 由 来 ， 则 源 于 UNIX 系统 对 电影 情节 的 效仿 一 一 无 法 通过 信号 来 杀 死 
僵尸 进程 ， 即 便 是 〈 银 弹 ) SIGKILL。 这 丈 确 你 了 父 进 程 总 古 可 以 执行 wait0 方 法 。 
当 父 进程 执行 waitO 后 ， 由 于 不 再 需要 子 进 程 所 剩余 的 最 后 信息 ， 故 而 内 核 将 删除 僵尸 进 
程 。 态 一 方面 , 如 末 父 进程 未 执行 waitO 随 即 退 出 , 那么 init 进程 将 接 窟 子 进程 并 目 动 调用 waitO, 






























































第 26 章 监控 子 进 程 457 


异步 社区 会 员 flyman150(2410757683 (9 qq.com) EF 尊重 版 权 


Mf M RRE H ERR) MERE. 

如 果 父 进程 创建 了 某 一 子 进程 ， 但 并 未 执行 wait0， 那 么 在 内 核 的 进程 表 中 将 为 该 子 进程 永 
久保 留 一 条 记录 。 如 果 存 在 大 量 此 类 僵尸 进程 ， 它 们 势必 将 填 满 内 核 进程 表 ， 从 而 阻碍 新 进程 的 
创建 。 既 然 无 法 用 信号 杀 死 僵尸 进程 ， 那 么 从 系统 中 将 其 移 除 的 唯一 方法 殉 是 杀 折 它们 的 父 进程 
(或 等 待 其 父 进 程 终止 )， 此 时 init 进程 将 接管 和 等 待 这 些 僵尸 进程 ， 从 而 从 系统 中 将 它们 清理 卸 。 

在 设计 长 生命 周期 的 父 进程 《例如 : 会 创建 众多 子 进 程 的 网 络 服务 右 和 Shell) 时， 这 些 
语义 具有 重要 意义 。 换 名 话说 ， 在 此 类 应 用 中 ， 父 进程 应 执行 wait0 方 法 ， 以 确保 系统 总 是 能 够 
清理 那些 死去 的 子 进 程 ， 避 免 使 其 成 为 长 寿 僵尸 。 如 263.1 节 所 述 ， 父 进程 在 处 理 SIGCHLD 信 
号 时 ， 对 waitO 的 调用 既 可 同步 ， 也 可 异步 。 

程序 清单 26-4 展示 了 一 个 僵尸 进程 的 创建 ， 以 及 发 送 SIGKILL 信号 无 法 杀 和 死 僵 记 进程 的 例 
子 。 运 行 这 一 程序 的 输出 如 下 : 

$ ./make zombie 

Parent PID-1013 

Child (PID-1014) exiting 

1013 pts/4 00:00:00 make zombie Output from ps( 1) 

1014 pts/4 00:00:00 make zombie «defunct» 

After sending SIGKILL to make zombie (PID-1014): 


1013 pts/4 00:00:00 make zombie Output from ps( 1) 
1014 pts/4 00:00:00 make zombie «defunct» 


以 上 输出 中 ，Pps() 所 输出 的 字符 串 <defunct> 表 示 进 程 处 于 僵尸 状态 。 


程序 清单 26-4 使 用 SystemO 图 数 来 执行 通过 字符 串 参 数 传 入 的 shell i4. 27.6 THS 
详细 描述 systemO PR ZA. 


























程序 清单 26-4: 创建 一 个 僵尸 子 进程 
procexec/make zombie.c 
#include «signal.h» 
#include <libgen.h> /* For basename() declaration */ 
#include "tlpi hdr.h" 


#define CMD SIZE 200 


int 
main(int argc, char *argv[]) 


char cmd[CMD SIZE]; 
pid t childPid; 


setbuf(stdout, NULL); /* Disable buffering of stdout */ 
printf("Parent PID=%ld\n", (long) getpid()); 


switch (childPid = fork()) { 
case -1: 
errExit("fork"); 


case O0: /* Child: immediately exits to become zombie */ 
printf("Child (PID-Xld) exitingWn", (long) getpid()); 
 exit(EXIT SUCCESS); 

default: /* Parent */ 


sleep(3); /* Give child a chance to start and exit */ 
snprintf(cmd, CMD SIZE, "ps | grep Xs", basename(argv[0])); 
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cmd[CMD SIZE - 1] = '\0'; /* Ensure string is null-terminated */ 
system(cmd); /* View zombie child */ 


/* Now send the "sure kill" signal to the zombie */ 


if (kill(childPid, SIGKILL) -- -1) 
errMsg("kill"); 


sleep(3); /* Give child a chance to react to signal */ 
printf("After sending SIGKILL to zombie (PID-4l1d): Wn", (long) childPid); 
system(cmd); /* View zombie child again */ 


exit(EXIT SUCCESS); 


procexec/make zombie.c 


26.3 SIGCHLD 信和 与 


子 进程 的 终止 属 寞 步 事 件 。 父 进程 无 法 了 预知 其 子 进程 何 时 终止 。( 即 使 父 进程 辣子 进程 发 
大 SIGKILL 信号 ， 子 进程 终止 的 确切 时 间 还 依赖 于 系统 的 调度 : 子 进程 下 一 次 在 何 时 使 用 
CPU.) 之 前 已 经 论 及 ， 父 进程 应 使 用 waitO (或 类 似 调用 ) 来 防止 僵尸 子 进 程 的 累积 ， 以 及 
采用 如 下 两 种 方法 来 避免 这 一 问题 。 
e 父 进程 调用 不 带 WNOHANG 标志 的 wait), 或 waitpid0 方 法 , 此 时 如 果 尚 无 已 经 终 I 上 上 
的 子 进 程 ， 那 么 调用 将 会 阻塞 。 
e 父 进程 周期 性 地 调用 市 有 WNOHANG 标志 的 waitpid0， 执 行 针 对 已 终止 子 进程 的 非 
阻塞 式 检查 〈 轮 询 )。 
这 两 种 方法 使 用 起 来 都 有 所 不 便 。 一 方面 ， 可 能 并 不 希望 父 进程 以 阻 守 的 方式 来 等 符 子 
进程 的 终止 。 另 一 方面 ， 反 复 调 用 非 阻塞 的 waitpidO0 会 造成 CPU 资源 的 浪费 ， 并 增加 应 用 程 
序 设计 的 复杂 度 。 为 了 规避 这 些 问 题 , 回 以 采用 各 对 SIGCHLED 信 筷 的 处 理 程序 、 


26.3.1 为 SIGCHLD 建立 信号 处 理 程序 

无 论 一 个 子 进程 于 何 时 终止 ， 系 统 都 会 向 其 父 进程 发 送 SIGCHLD 信号。 对 该 信号 的 默认 
处 理 是 将 其 忽略 ， 不 过 也 可 以 安装 信号 处 理 程序 来 捕获 它 。 在 处 理 程序 中 ， 可 以 使 用 waitO 
(或 类 似 方法 ) 来 收拾 僵尸 进程 。 不 过 ， 使 用 这 一 方法 时 需要 掌握 一 些 穿 门 。 

由 20.10 节 和 20.12 节 可 知 ， 当 调用 信和 号 处 理 程序 时 ， 会 暂时 将 引发 调用 的 信和 号 阻塞 起 来 〈 除 
非 为 Sigaction0 指 定 了 SA NODEFER 标志 )， 且 不 会 对 SIGCHLD 之 流 的 标准 信号 进行 排队 处 理 。 
这 样 一 来 ， 当 SIGCHILD 信号 处 理 程序 正在 为 一 个 终止 的 子 进程 运行 时 ， 如 果 相 继 有 两 个 子 进程 
终止 ， 即 使 产生 了 两 次 SIGCHLD 信号 ， 父 进程 也 只 能 捕获 到 一 个 。 结 果 是 ， 如 果 父 进程 的 
SIGCHLD 信号 处 理 程序 每 次 只 调用 一 次 wait0)， 那 么 一 些 僵 尸 子 进程 可 能 会 成 为 “漏网 之 鱼 ” 

解决 方案 是 : 在 SIGCHLD 处 理 程序 内 部 循环 以 WNOHANG 标志 来 调用 waitpid0, H2 
再 无 其 他 终止 的 子 进程 需要 处 理 为 止 。 通常 SIGCHLD 处 理 程 序 都 简单 地 由 以 下 代码 组 成 , fX. 
仪 捕 获 已 终止 子 进程 而 不 关心 其 退出 状态 。 

while (waitpid(-1, NULL, WNOHANG) > 0) 


continue; 


上 述 循 环 会 一 耳 持 续 下 去 ， 下 全 waitpid0 人 返回 0， 表 明 再 无 伪 夏 子 进程 存在 ， 或 -1， 表 示 有 
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错误 发 生 〈 可 能 是 ECHILD， 意 即 再 无 更 多 的 子 进程 )。 


SIGCHLD 处 理 程序 的 设计 问题 


假设 创建 SIGCHLD 处 理 程序 的 时 候 , 该 进程 已 经 有 子 进程 终止 。 那么 内 核 会 立即 为 父 进 
程 产 生 SIGCHLD 信号 吗 ? SUSv3 对 这 一 点 并 未 规定 。 一 些 源 目 系 统 V (System VO 的 实现 在 
这 种 情况 下 会 产生 SIGCHLD 信号 ; 而 另 一 些 系统 ， 包 括 Linux， 则 不 这 么 做 。 为 保障 可 移植 
性 , 应 用 应 在 创建 任何 子 进程 之 前 就 设置 好 SIGCHLD 处 理 程序 , 将 这 一 隐患 消解 于 无 形 。( 无 
AE, XU EE. HEISE ZB s) 

需要 更 深入 考虑 的 问题 是 可 重 入 性 Ceentrancy). 21.1.2 节 特 别 指出 ， 在 信和 号 处 理 程序 中 
使 用 系统 调用 (如 waitpid0 ) 可 能 会 改变 全 局 变量 errno 的 值 。 当 主 程序 企图 显 式 设置 errno 
(参考 35.1 节 对 getpriority0 的 讨论 ) 或 是 在 系统 调用 失败 后 检查 errno 值 时 ， 这 一 变化 会 与 之 发 
生 冲 突 。 出 于 这 一 原因 ， 有 时 在 编写 SIGCHLD 信和 号 处 理 程序 时 ， 需 要 在 一 进入 处 理 程序 时 就 
使 用 本 地 变量 来 保存 errno 值 ， 而 在 返回 前 加 以 恢复 。 请 参考 程序 清单 26-5。 


范例 程序 


程序 清单 26-5 提供 了 一 个 更 为 复杂 的 SIGCHLD 信号 处 理 程 序 示例 。 该 处 理 程 序 为 所 捕获 的 每 
个 子 进程 输出 进程 号 及 其 等 竺 状态。 为 了 醒 拟 调用 处 理 程 序 期 间 产 生 多 个 SIGCHLD 信和 号 而 无 法 
排队 的 效果 ， 利 用 sleep0 调 用 电信 为 地 拉 长 了 处 理 程序 的 执行 时 间 。 主 程序 为 每 个 〈 整 型 ) 命令 行 
参数 创建 一 个 子 进程 4)。 每 个 子 进程 持续 休 虐 其 对 应 命令 行 参数 所 指定 的 秒 数 ， 随 即 退 出 (6)。 从 程 


序 下 面 的 执行 例子 可 以 看 出 ， 尽 管 有 3 个 子 进程 退出 ， 而 父 进程 只 捕获 到 两 次 SIGCHLD 信和 号 。 
$ ./multi SIGCHLD 1 2 4 
16:45:18 Child 1 (PID-17767) exiting 
























































16:45:18 handler: Caught SIGCHLD First invocation of handler 
16:45:18 handler: Reaped child 17767 - child exited, status=0 

16:45:19 Child 2 (PID-17768) exiting These children terminate during... 
16:45:21 Child 3 (PID-17769) exiting first invocation of handler 
16:45:23 handler: returning End of first invocation of handler 
16:45:23 handler: Caught SIGCHLD Second invocation of handler 


16:45:23 handler: Reaped child 17768 - child exited, status=0 
16:45:23 handler: Reaped child 17769 - child exited, status=0 
16:45:28 handler: returning 

16:45:28 All 3 children have terminated; SIGCHLD was caught 2 times 


请 注意 ， 在 程序 清单 26-5 中 ， 在 创建 子 进程 之 前 使 用 了 sigprocmask0 来 阻塞 SIGCHLD 信 
写 (3)。 这 一 做 法 人 确保 了 父 进 程 中 sigsuspendO JB E B AE ff BRIE o V AR UL G7; SX A Be PH. 2E 
SIGCHLD 信和 号， 而 某 一 子 进程 又 在 对 numLiveChildren 的 检查 和 执行 sigsuspendO 调 用 〈 也 可 
以 是 pause0 调 用 ) 之 间 终 止 ， 那 么 sigsuspend0 调 用 会 永远 阻塞 ， 等 待 一 个 早已 捕获 过 的 信和 号 
(6)。22.9 TEMIR T eE ERTE FRF. 


程序 清单 26-5: 通过 SIGCHLD 信号 处 理 程序 捕获 已 终止 的 子 进程 








procexec/multi SIGCHLD.c 
include «signal.h» 
include «sys/wait.h» 
include "print wait status.h" 
include "curr time.h" 
#include "tlpi hdr.h" 


static volatile int numLiveChildren - 0; 
/* Number of children started but not yet waited on */ 
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static void 
sigchldHandler(int sig) 


int status, savedErrno; 
pid t childPid; 


/* UNSAFE: This handler uses non-async-signal-safe functions 
(printf(), printWaitStatus(), currTime(); see Section 21.1.2) */ 


savedErrno - errno; /* In case we modify 'errno' */ 
printf("%s handler: Caught SIGCHLDAn", currTime("AT")); 


while ((childPid = waitpid(-1, &status, WNOHANG)) > 0) { 
printf("%s handler: Reaped child 为 d - ", currTime(" 4T"), 
(long) childPid); 
printWaitStatus(NULL, status); 
numLiveChildren--; 


j 


if (childPid == -1 && errno !- ECHILD) 

errMsg("waitpid"); 
sleep(5); /* Artificially lengthen execution of handler */ 
printf("%s handler: returningWn", currTime("AT")); 


errno - savedErrno; 


j 


int 
main(int argc, char *argv[]) 


int j, sigCnt; 
sigset t blockMask, emptyMask; 
struct sigaction sa; 


if (argc < 2 || stremp(argv[1], "--help") == 0) 
usageErr("Xs child-sleep-time...n", argv[0]); 


setbuf(stdout, NULL); /* Disable buffering of stdout */ 


sigCnt - 0; 
numLiveChildren - argc - 1; 


sigemptyset(8sa.sa mask); 

sa.sa flags = 0; 

sa.sa handler - sigchldHandler; 

if (sigaction(SIGCHLD, &sa, NULL) -- -1) 
errExit("sigaction"); 


/* Block SIGCHLD to prevent its delivery if a child terminates 
before the parent commences the sigsuspend() loop below */ 


sigemptyset(8blockMask); 

sigaddset(&blockMask, SIGCHLD); 

if (sigprocmask(SIG SETMASK, &blockMask, NULL) -- -1) 
errExit("sigprocmask"); 


for (j = 1; j < argc; j++) { 
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switch (fork()) { 
case -1: 
errExit(" fork"); 


case 0: /* Child - sleeps and then exits */ 
(5) sleep(getInt(argv[j], GN NONNEG, "child-sleep-time")); 
printf("%s Child %d (PID-Xld) exitingWn", currTime("XT"), 


j, (long) getpid()); 
 exit(EXIT SUCCESS); 


default: /* Parent - loops to create next child */ 
break; 


} 
} 
/* Parent comes here: wait for SIGCHLD until all children are dead */ 
sigemptyset(&emptyMask); 
while (numLiveChildren > 0) { 
(6) if (sigsuspend(&emptyMask) == -1 && errno !- EINTR) 
errExit("sigsuspend"); 
sigCnt++; 


} 


printf("%s All %d children have terminated; SIGCHLD was caught " 
"Ad times\n", currTime("%T"), argc - 1, sigCnt); 


exit(EXIT SUCCESS); 


procexec/multi SIGCHLD.c 


26.3.2 IgE fS1EBS T XEREAOS SIGCHLD 信和 号 

正如 可 以 使 用 waitpid0 来 监测 已 停止 的 子 进 程 一 样 ， 当 信和 号 导致 子 进 程 停止 时 ， 父 进程 也 
MA N fekal SIGCHLD 信号 。 调 用 sigaction0 设 置 SIGCHLD 信号 处 理 程序 时 ， 如 传 入 SA_ 
NOCLDSTOP 标志 即 可 控制 这 一 行为 。 奉 未 使 用 该 标志 ， 系 统 会 在 子 进程 停止 时 癌 父 进程 发 
送 SIGCHLD fii^; 反之 ， 如 果 使 用 了 这 一 标志 ， 那 么 就 不 会 因子 进程 的 停止 而 发 出 SIGCHLD 
信号 。(22.7 节 中 对 signal0 的 实现 就 未 指定 SA NOCLDSTOP. ) 


























因为 默认 情况 下 会 忽略 信号 SIGCHLD, SA NOCLDSTOP 标志 仅 在 设置 SIGCHLD 信 
号 处 理 程序 时 才 有 意义 。 而 且 ，SA NOCLDSTOP 只 对 SIGCHLD 信号 起 作用 。 


SUSv3 也 允许 ， 当 信号 SIGCONT 导致 已 停止 的 子 进程 恢复 执行 时 ， 回 其 父 进程 发 送 SIGCHLD 
信号 。( 相 当 于 waitpid0 的 WCONTINUED 标志 。) 始 于 版 本 2.6.9，Linux 内 核实 现 了 这 一 特性 。 


26.3.3 忽略 终止 的 子 进 程 


更 有 可 能 像 这 样 处 理 终止 子 进程 :将 对 SIGCHLD 的 处 置 Cdisposition ) 显 式 置 为 SIG_IGN， 
系统 从 而 会 将 其 后 终止 的 子 进 程 立即 删除 ， 毋 庸 转 为 僵尸 进程 。 这 时 ， 会 将 子 进程 的 状态 径 
之 不 问 ， 故 而 所 有 后 续 的 wait (或 类 似 ) 调用 不 会 返回 子 进 程 的 任何 信息 。 

注意 ， 虽 然 对 信号 SIGCHLD 的 默认 处 置 下 是 将 其 忽略 ， 但 显 式 设置 对 SIG IGN 标志 
的 处 置 还 是 会 导致 这 里 所 摘 述 的 行为 差异 。 在 这 方面 ， 对 信号 SIGCHLD 的 处 理 非常 独特 ， 
不 同 于 其 他 信和 号 。 
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如 同 许多 UNIX 实现 一 样 ， 在 Linux 系统 中 将 对 SIGCHLD 信号 的 处 置 置 为 SIG_IGN 并 
不 会 影响 任何 既 有 僵尸 进程 的 状态 ， 对 它们 的 等 待 仍然 要 照常 进行 。 在 其 他 一 些 UNIX 实现 
中 (例如 Solaris 8)， 将 对 SIGCHLD 的 处 置 设置 为 SIG_IGN 确实 会 删除 所 有 已 有 的 僵尸 进程 。 

Hs SIGCHLD 的 SIG IGN 语义 由 来 已 入， 源 于 系统 V (System V)。SUSv3 也 规定 了 此 
处 所 描述 的 行为 ， 不 过 原始 的 POSIX.1 标准 对 此 则 未 作 表 述 。 因 此 ， 在 一 些 较 老 的 UNIX K 
Hir, AE SIGCHLD 并 不 影响 僵尸 进程 的 创建 。 要 防止 产生 僵尸 进程 ， 唯 一 完全 可 移植 的 
方法 就 是 (可 能 是 从 SIGCHLD 信和 号 处 理 程 序 的 内 部 ) 调用 wait0 或 者 waitpid()。 


老 版 本 Linux 内 核实 现 与 SUSv3 标准 的 差异 

SUSv3 规定 ， 如 果 将 对 SIGCHLD 的 处 置 设置 为 SIG IGN， 奢 么 将 丢弃 子 进程 的 资源 使 用 信 
A. Hrt RUSAGE CHILDREN 标志 调用 getrusage() 函 数 ， 其 返回 总 量 中 也 将 不 包含 该 项 信 
A (36.1 50. Am, ÆRA 2.6.9 之 前 的 Linux 内 核 中 ， 还 是 会 记录 子 进程 的 CPU 使 用 时 间 以 及 
资源 的 使 用 情况 ， 并 可 通过 getrusageO 调 用 获取 。 这 一 违规 行为 直 全 Linux 2.6.9 才 得 以 修正 。 



































EN 








将 对 SIGCHLD 的 处 置 设置 为 SIG_IGN 还 会 阻止 timesO C10.7 $) 返回 的 结构 中 包含 子 
进程 的 CPU 使 用 时 间 。 不 过 ， 在 Linux 2.6.9 之 前 ，times0 所 返回 的 信息 同样 存在 违规 行为 。 














SUSv3 规定 ， 如 果 将 对 SIGCHLD 的 处 置 设置 为 SIG IGN， 同 时 ， 父 进程 已 终止 的 子 进程 
中 并 无 处 于 僵尸 状态 且 未 被 等 待 的 情况 ， 那 么 wait() (或 waitpid0) 调用 将 一 直 阻 塞 ， 直 至 所 有 
子 进程 都 终止 ， 届 时 该 调用 将 返回 错误 ECHILD。Linux 2.6 符合 这 一 要 求 。 不 过 在 Linux 2.4 以 
及 更 早期 的 版 本 中 ，waitO 只 会 阻塞 到 下 一 个 子 进程 终止 的 时 刻 ， 随 即 返 回 该 子 进程 的 进程 ID 
及 状态 〈 亦 即 ， 此 行为 与 未 将 对 SIGCHLD 信号 的 处 置 置 为 SIG IGN 时 一 样 )。 


























sigaction() 的 SA NOCLDWAIT 标志 


SUSv3 规定 了 SA NOCLDWAIT 标志 , 可 在 调用 sigaction() 对 SIGCHLD 信号 的 处 置 进行 
设置 时 使 用 此 标志 。 设置 该 标记 的 作用 类 似 于 将 对 SIGCHLD 的 处 置 置 为 SIG_IGN 时 的 效果 。 
Linux 2.4 及 其 早期 版 本 并 未 实现 该 标志 ， 直 至 Linux 2.6 才 实 现 对 其 支持 。 

将 对 SIGCHLD Ir] Ab EE SIG IGN 与 采用 SA NOCLDWAIT 之 间 最 主要 的 区 别 在 于 , 4 
以 SA NOCLDWAIT 设置 信号 处 理 程序 时 ，SUSv3 并 未 规定 系统 在 子 进程 终止 时 是 否 问 其 父 进 
程 发 送 SIGCHLD 信和 号。 换言之 ， 当 指定 SA NOCLDWAIT 时 允许 系统 发 送 SIGCHLD 信号 ， 则 
应 用 程序 即 可 捕捉 这 一 信号 〈 尽 管 由 于 内 核 已 经 丢弃 了 僵尸 进程 ， 造 成 SIGCHLD 处 理 程序 无 
法 用 waitO 来 获得 子 进程 状态 )。 在 包括 Linux 在 内 的 一 些 UNIX 实现 中 ， 内 核 确 实 会 为 父 进程 
产生 SIGCHLD 信和 号。 而 在 另 一 些 UNIX 实现 中 ， 则 不 会 。 





























当 为 SIGCHLD 信号 设置 SA NOCLDWAIT 标志 时 ， 老 版 本 Linux 内 核 的 行为 细节 同 
样 与 SUSv3 不 符 ， 正 如 之 前 在 将 对 SIGCHLD 的 处 置 置 为 SIG IGN 处 所 讨论 的 那样 。 





系统 V 的 SIGCLD 信号 


Linux 系统 中 ， 信 号 SIGCLD 与 信号 SIGCHLD 意义 相同 。 之 所 以 两 个 名 称 并 存 ， 是 由 历 
史 原 因 造 成 的 。SIGCHLD 信号 源 自 BSD，POSIX 标准 采用 了 这 一 名 称 ， 同 时 对 BSD fii 
型 做 了 大 量 标准 化 工作 。 系 统 V 则 提供 了 相应 的 SIGCLD 信号 ， 在 语义 上 稍 许 有 些 不 同 。 

BSD SIGCHLD 信号 与 系统 V SIGCLD 间 的 主要 差别 在 于 ， 将 信号 处 置 为 SIG_IGN 时 不 
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同 的 处 理 方式 。 
。 在 历史 (和 一 些 现 代 ) 的 BSD KIME, BER I SIGCHLD 信号 ， 系 统 仍 会 继续 将 
无 人 等 待 的 子 进 程 变 为 僵尸 进程 。 
。 在 系统 V E, H signalO《〈 而 非 sigaction0) 忽略 SIGCLD 信号 将 导致 子 进 程 在 终止 
时 不 会 转 为 僵尸 进程 。 
如 前 所 述 , 原始 的 POSIX.1 标准 对 于 忽略 SIGCHLD 的 后 条 未 作 规定 ， 从 而 也 认可 了 系统 
V 的 行为 。 而 今 , 系统 V 的 行为 已 成 为 SUSv3 标准 的 一 部 分 (不 过 将 仍然 使 用 SIGCHLD 的 名 称 )。 
衍生 目 系 统 V 的 现代 系统 实现 中 对 该 信号 使 用 了 SIGCHLD 这 一 标准 名 称 ， 同 时 继续 提供 具 
有 相同 含义 的 SIGCLD 信号 。 关 于 SIGCLD 的 更 多 信息 可 参考 [Stevens & Rago, 2005]. 

















26.4 i 


使 用 wait0 和 waitpidO《〈 以 及 其 他 相关 函数 )， 父 进程 可 以 得 到 其 终止 或 停止 子 进 程 的 状 
沪 。 该 状态 表明 子 进程 是 正常 终止 ( 融 有 表示 成 功 或 失败 的 退出 状态 )， 还 是 异常 中 止 ， 因 收 到 
某 个 信号 而 停止 ， 还 是 因 收 到 SIGCONT 信号 而 恢复 执行 。 

如 果子 进程 的 父 进 程 终 止 ， 那 么 子 进 程 将 变 为 扳 儿 进程 ， 并 为 进程 ID 为 1 的 init 进程 接管 。 

子 进程 终止 后 会 变 为 僵尸 进程 ， 仅 当 其 父 进程 调用 wait0 (或 类 似 函 数 ) 获取 子 进程 退出 
状态 时 ， 才 能 将 其 从 系统 中 删除 。 在 设计 长 时 间 运 行 的 程序 ， 诸 如 shell 程序 以 及 守护 进程 
(daemon) 时 ， 应 总 是 捕获 其 所 创建 子 进 程 的 状态 ， 因 为 系统 无 法 杀 死 僵尸 进程 ， 而 未 处 理 的 
僵尸 进程 最 终 将 考 满 内 核 进程 表 。 

捕获 终止 子 进 程 的 一 般 方法 是 为 信号 SIGCHLD 设置 信号 处 理 程 序 。 当 子 进 程 终 止 时 (也 
可 选择 子 进程 因 信号 而 俘 止 时 )， 其 父 进程 会 收 到 SIGCHLD 信和 号。 还 有 另 一 种 移植 性 稍 差 的 
处 理 方 法 ， 进 程 可 选择 将 对 SIGCHLD 信和 与 的 处 置 置 为 忽略 〈SIG_IGN )， 这 时 将 立即 丢弃 终 
止 子 进程 的 状态 《因此 其 父 进 程 从 此 也 无 法 获取 到 这 些 信息 )， 子 进程 也 不 会 成 为 僵尸 进程 。 


更 多 信息 
请 参考 列 于 24.6 节 中 的 更 多 信息 来 源 。 












































26.5 ”练习 


26-l. 编写 一 程序 以 验证 当 一 子 进 程 的 父 进程 终止 时 ， 调 用 getppid0 将 返回 1〈 进 程 init 的 
进程 ID )。 

26-2. 假设 存在 3 个 相互 关联 的 进程 〈 祖 父 、 父 及 子 进 程 )， 祖 父 进 程 没 有 在 父 进程 退出 
之 后 立即 执行 wait0， 所 以 父 进程 变 成 僵尸 进程 。 那 么 请 指出 孙 进 程 何 时 被 init 进程 
收养 《“ 即 孙 进 程 调 用 getppid0 将 返回 1)， 是 在 父 进程 终止 后 ， 还 是 祖父 进程 调用 
waitO 后 ? 请 编写 程序 验证 结果 。 

26-3. 使 用 waitid0 替 换 程序 清单 26-3 (child status.c) 中 的 waitpidO 。 需 要 将 对 函数 print 
WaitStatusO 的 调用 符 换 为 打印 waitidO0 所 返回 siginfo t 结构 中 相关 字段 的 代码 。 

26-4. 程序 清单 26-4 (make zombie.c) 调用 了 sleepO0， 以 便 允 许 子 进程 在 父 进 程 执行 函 
数 systemO 前 得 到 机 会 去 运行 并 终止 。 这 一 方法 理论 上 存在 产生 竞争 条 件 的 可 能 。 
修改 此 程序 ， 使 用 信和 与 来 同步 父子 进程 以 消除 该 苑 争 条 件 。 




















464 Linux/UNIX 系统 编程 手册 ( 上 册 ) 
异步 社区 会 员 flyman150(2410757683@qq.com) EF 尊重 版 权 


Al. 


程序 的 执行 





承接 前 儿 半 对 于 进程 创建 和 终止 的 探讨 , 本 章 首 先 将 介绍 系统 调用 execve(), 通过 该 调用 ， 
进程 能 以 全 新 程序 来 蔡 换 当前 运行 的 程序 ; 接 下 来 会 讨论 函数 system0 的 实现 , 该 函数 可 允许 
调用 者 执行 任意 shell 命令 。 





27.1 执行 新 程序 : execve() 


系统 调用 execve0O 可 以 将 新 程序 加 载 到 某 一 进程 的 内 存 空间 。 在 这 一 操作 过 程 中 , 将 丢弃 
旧 有 程序 ， 而 进程 的 栈 、 数 据 以 及 堆 段 会 被 新 程序 的 相应 部 件 所 蔡 换 。 在 执行 了 各 种 C 语言 
水 数 库 的 运行 时 局 动 代 人 码 以 及 程序 的 初始 化 代码 后 ， 例 如 ，C++ 静 态 构 造 函 数 ， 或 者 以 gee 
constructor JAE (JL 42.4 节 ) 声明 的 C 语言 函数 ， 新 程序 会 从 main0 函 数 处 开始 执行 。 

由 forkO 生 成 的 子 进 程 对 execve0 的 调用 最 为 频繁 ， 不 以 forkO 调 用 为 先导 而 单独 调用 
execve() 的 做 法 在 应 用 中 实 属 罕见 。 

基于 系统 调用 execve0， 还 提供 了 一 系列 冠 以 exec 来 命名 的 上 层 库 函 数 ， 虽 然 接口 方式 
各 寞 ， 但 功能 相同 。 通 党 将 调用 这 些 函 数 加 载 一 个 狐 程 序 的 过 程 称 作 exec 操作 ， 或 是 简单 地 
以 exec0) 来 表示 。 下 面 将 先 描述 execve()， 然 后 再 对 相关 库 函 数 进行 说 明 。 




















#include «unistd.h» 


int execve(const char *pathname, char *const argv[], char *const envp[]); 


Never returns on success; returns -] on error 








参数 pathname 包含 准备 载 入 当前 进程 空间 的 新 程序 的 路 径 名 , 既 可 以 是 绝对 路 径 ( 冠 
之 以 /)， 也 可 以 是 相对 于 调用 进程 当前 工作 目录 (current working directory) 的 相对 路 径 。 

参数 argv 则 指定 了 传递 给 新 进程 的 命令 行 参 数 。 该 数组 对 应 于 C 语言 main() 函 数 的 第 2 
个 参数 (argv)， 且 格式 也 与 乙 相 同 : 是 由 字符 串 指 针 所 组 成 的 列表 ， 以 NULL 结束 。argv[0] 的 
值 则 对 应 于 命令 名 。 通常 情况 下 ,该 值 与 pathname 中 的 basename (路 径 名 的 最 后 部 分 ) 相同 。 

最 后 一 个 参数 envp 指定 了 狐 程 序 的 环境 列表 。 参 数 envp 对 应 于 新 程序 的 environ 数组 : 
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也 是 由 字符 串 指针 组 成 的 列表 ， 以 NULL 结束 ， 所 指 问 的 学 人 符 品格 式 为 name-value (6.7 132. 








Linux 所 特有 的 /proc/PID/exe 文件 是 一 个 符号 链接 , 包含 PID 对 应 进程 中 正在 运行 可 执 
行文 件 的 绝对 路 径 名 。 


调用 execye(0 之 后 ， 因 为 同一 进程 依然 存在 ， 所 以 进程 ID 仍 保 持 不 变 。 如 28.4 TTA, 
还 有 少量 其 他 的 进程 属性 也 未 发 生变 化 。 

如 果 对 pathname 所 指定 的 程序 文件 设置 了 set-user-ID Cset-group-ID) 权限 位 ， 那 么 系统 
调用 会 在 执行 此 文件 时 将 进程 的 有 效 Ceffective) 用 户 CH) ID 置 为 程序 文件 的 属 主 (组 ) ID. 
利用 这 一 机 制 ， 可 令 用 户 在 运行 特定 程序 时 临时 获取 特权 。( 人 参考 9.3 市 )。 

无 论 是 否 更 改 了 有 效 卫 ， 也 不 管 这 一 变化 是 否 生 效 ，execve0 都 会 以 进程 的 有 效用 户 ID 去 
Ti OAH] (saved) setruser-ID， 以 进程 的 有 效 组 ID K% i CRF] (saved) set-group-ID. 

由 于 是 将 调用 程序 取而代之 ,对 execve0 的 成 功 调用 将 永 不 返回 ,而 且 也 无 需 检查 execveO hik 
回 值 ， 因 为 该 值 总 是 雷 打 不 动 地 等 于 -1。 实 际 上 ， 一 旦 函数 返回 ， 就 表明 发 生 了 错误 。 通 常 ， 可 
以 通过 errno 来 判断 出 错 诛 因 。 可 能 目 errno 返回 的 错误 如 下 : 


EACCES 

参数 pathname 没有 指向 一 个 常规 (regular) 文件 ， 未 对 该 文件 赋予 可 执行 权限 ， 或 者 因 
为 pathname 中 某 一 级 目录 不 可 搜索 (not searchable) ( 即 ， 关 闭 了 该 目录 的 可 执行 权限 )。 还 
有 一 种 可 能 ， 是 以 MS NOEXEC 标志 (14.8.1 节 ) KHZ (mount) 文件 所 在 的 文件 系统 ， 从 
而 导致 这 一 错误 。 









































ENOENT 
pathname 所 指 代 的 文件 并 不 存在 。 


ENOEXEC 

RV] pathname 所 指 代 文件 赋予 了 可 执行 权限 ， 但 系统 却 无 法 识别 其 文件 格式 。 一 个 脚 
本 文件 ， 如 果 没 有 包含 用 于 指定 脚本 解释 器 〈interpreter)〈 以 字符 #! 开 头 ) 的 起 始 行 ， 就 可 能 
导致 这 一 错误 。 





EIXIBSY 
存在 一 个 或 多 个 进程 已 经 以 写 入 方式 打开 pathname 所 指 代 的 文件 (4.3.2 35). 


E2BIG 

参数 列表 和 环境 列表 所 策 空 间 总 和 超出 了 允许 的 最 大 值 。 

当 上 述 任 一 条 件 作用 于 执行 脚本 的 脚本 解释 占 ， 或 是 执行 程序 的 ELF 解释 器 时 ， 同 样 会 
产生 相应 错误 。 

















ELF (Executable and Linking Format) 是 一 种 广 为 实 现 的 标准 ， 描 述 了 可 执行 文件 的 布 
局 。 在 执行 期 间 ， 进 程 映像 (image) 通常 是 由 可 执行 文件 的 各 段 (segment) 构造 而 成 (6.3 
W). P, ELF 规格 也 允许 定义 一 个 解释 器 CELF 程序 头 部 的 PT_INTERP 元 素 ) 来 运行 
程序 。 如 果 定 义 了 解释 器 ， 内 核 则 基于 指定 解释 堪 可 执行 文件 的 各 段 来 构建 进程 映像 ， 转 
而 由 解释 器 负责 加 载 和 执行 程序 。 第 41 EAA ELF 解释 器 做 进一步 描述 , 并 给 出 对 深层 信 
县 的 一 些 指引 。 
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示例 程序 


程序 清单 27-1 展示 了 execve0O 的 用 法 。 该 程序 首先 为 新 程序 创建 参数 列表 和 环境 列表 ， 
接着 调用 execve() 来 执行 由 命令 行 参数 (argv[1])〉 所 指定 的 程序 路 径 名 。 

程序 清单 27-2 中 所 展示 的 程序 ， 是 设计 专 供 程序 清单 27-1 中 程序 来 执行 的 。 该 程序 只 是 简单 
显示 一 下 自身 的 命令 行 参数 以 及 环境 列表 (对 后 者 的 访问 使 用 了 全 局 变量 environ, W 6.7 节 所 述 )。 

如 下 shell 会 话 (session) 演示 了 对 程序 清单 27-1 和 程序 清单 27-2 的 使 用 (本 例 在 指定 
执行 程序 时 使 用 的 是 相对 路 径 名 ): 


$ ./t execve ./envargs 

argv[0] = envargs All of the output is printed by envargs 
argv[1] - hello world 

argv[2] = goodbye 

environ: GREET-salut 

environ: BYE-adieu 


程序 清单 27-1: 调用 函数 execve() 来 执行 新 程序 























procexec/t execve.c 
include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


char *argVec[10]; /* Larger than required */ 
char *envVec[] = ( "GREET-salut", "BYE-adieu", NULL }; 


if (argc != 2 || stremp(argv[1], "--help") == 0) 
usageErr("Xs pathnameWNn", argv[0]); 


argVec[0] = strrchr(argv[1], '/'); /* Get basename from argv[1] */ 
if (argVec[0] != NULL) 

argVec[0] e; 
else 


argVec[0] = argv[1]; 
argVec[1] = "hello world"; 
argVec[2] = "goodbye"; 
argVec[3] = NULL; /* List must be NULL-terminated */ 


execve(argv[1], argVec, envVec); 
errExit("execve"); /* If we get here, something went wrong */ 


procexec/t execve.c 


程序 清单 27-2: 显示 参数 列表 和 环境 列表 


procexec/envargs.c 

include "tlpi hdr.h" 
extern char **environ; 
int 
main(int argc, char *argv[]) 

int j; 

char **ep; 
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for (j = 0; j < argc; j++) 
printf('argv[4d] = %s\n", j, argv[j]); 


for (ep = environ; *ep != NULL; ep++) 
printf("environ: %s\n", *ep); 


exit(EXIT_SUCCESS); 
} 


procexec/envargs.c 


27.2 ”exec() 库 函数 


本 市 所 讨论 的 库 函 数 为 执行 execOTE DC T d PP API XCTE. DD X E PR OE] RJ SET 
execve0 调 用 乙 上 ， 只 是 在 为 新 程序 指定 程序 名 、 参 数列 表 以 及 环境 变量 的 方式 上 有 所 不 同 。 








#include «unistd.h» 


int execle(const char *pathname, const char *arg, ... 
/* , (char *) NULL, char *const envp[] */ ); 
int execlp(const char *filename, const char *arg, ... 
/* , (char *) NULL */); 
int execvp(const char *fzlename, char *const argv|]); 
int execv(const char *pathname, char *const argv|]); 
int execl(const char *pathname, const char *arg, ... 
/* , (char *) NULL */); 


None of the above returns on success; all return -1 on error 








KRAZE — T REDI PE Ay AES RRE p SA. xe 27-1 总 结 了 这 些 差 异 ， 下 面 
则 是 详细 说 明 。 

。 大 部 分 execO 图 数 要 求 提供 欲 加 载 新 程序 的 路 径 名 。 而 execlp0 和 execvpO N fo 
许 只 提供 程序 的 文件 名 。 系统 会 在 由 环境 变量 PATH 所 指定 的 目录 列表 中 寻找 相 
应 的 执行 文件 ( 稍 后 将 详细 解释 )。 这 与 shell 对 键入 命令 的 搜索 方式 一 致 。 这 些 
KAAMERATE p CRR PATH)， 以 示 在 操作 上 有 所 不 同 。 如 下 文件 名 中 包含 
“1”， 则 将 其 视 为 相对 或 绝对 路 径 名 ， 不 再 使 用 变量 PATH 来 搜索 文件 。 

e [SZ execle0、execlpO0 和 execl0 要 求 开 发 者 在 调用 中 以 字符 串 列 表 形 陈 来 指定 参数 ， 
而 不 使 用 数组 来 描述 argv 列表 。 首 个 参数 对 应 于 新 程序 maino EA 2501] argv[0]， 因 而 通 
第 与 参数 filename 或 pathname 的 basename 部 分 相同 。 必须 以 NULL 指针 来 终止 参数 列 
表 ， 以 便于 各 调用 定位 列表 的 尾部 。( 上 述 各 原型 注释 中 的 (char*)NULL 部 分 透露 了 这 
一 要 求 。 全 于 为 何 需要 对 NULL 进行 强制 类 型 转换 ， 请 参考 附录 C) 这 些 函 数 的 名 
称 都 包含 字母 1 (表示 list)， 以 示 与 那些 将 以 NULL 结尾 的 数组 作为 参数 列表 的 函数 
有 所 区 别 。 后 者 (execve()、execvpO 和 execvOO 名 称 中 则 包含 字母 v (表示 vector). 

e 国 数 execve0 和 execle0 则 人 允许 开发 者 通过 envp 为 新 程序 显 式 指定 环境 变量 , 其 中 envp 
是 一 个 以 NULL 结束 的 字符 串 指 针 数 组 。 这 些 函 数 命 名 均 以 字母 e (environment) 结 
尾 。 其 他 execO 函 数 将 使 用 调用 者 的 当前 环境 CE environ 中 内 容 ) 作为 新 程序 的 环境 。 

glibc 2.11 兽 加 入 一 个 非 标准 函数 execver(file, argv, envp)。 该 函数 与 execvp() 类 似 , 不 过 并 
非 通过 environ 来 取得 新 程序 的 环境 ， 而 是 通过 参数 envp〈 类 似 于 函数 execve0 和 execle()) 
来 指定 新 环境 。 
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后 面 几 页 会 演示 部 分 exec0 函 数 变 体 的 使 用 。 
表 27-1: exec() 函 数 间 的 差异 总 结 
项 数 对 程序 文件 的 描述 ( -,p ) 对 参数 的 描述 ( v,1) 环境 变量 来 源 (e-) 


execvel) 
execlel) 


27.2.1 环境 变量 PATH 

















PKZ execvpOdl. execlpO 人 允许 调用 者 只 提供 欲 执 行程 序 的 文件 名 。 二 者 均 使 用 环境 变量 
PATH 来 搜索 文件 。PATH HJfize — P EA Bm CO 分 隔 ， 由 多 个 目录 名 ， 也 将 其 称 为 路 径 表 绥 
(path prefixes) 组 成 的 字符 串 。 下 例 中 的 PATH 包含 5 个 目录 : 


$ echo $PATH 
/home/mtk/bin:/usr/local/bin:/usr/bin:/bin:. 


对 于 一 个 登录 shell 而 言 ， 其 PATH 值 将 由 系统 级 和 特定 用 户 的 shell 启动 脚本 来 设置 。 由 于 子 
进程 继承 其 父 进程 的 环境 变量 ，shell 执行 每 个 命令 时 所 创建 的 进程 也 就 继承 了 shell 的 PATH. 

PATH 中 指定 的 路 径 名 既 可 以 是 绝对 路 径 名 《〈 以 /开始 )， 也 可 以 是 相对 路 径 名 。 对 相对 路 
径 名 的 诠释 是 基于 调用 进程 的 当前 工作 目录 《current working directory)。 正 如 前 面 例子 中 所 示 ， 
可 以 以 .点 ) 来 表示 当前 工作 目录 。 


在 PATH 中 包含 一 个 长 度 为 0 的 前 级 ， 也 可 以 用 来 指定 当前 工作 目录 。 表 示 方 式 有 : XE 
续 的 冒号 、 起 始 冒 号 或 尾部 冒号 (例如 ，/usr/bin:/bin: ), SUSv3 废止 了 这 一 技术 ;当前 工作 
目录 应 该 用 . CA) 来 显 式 指定 。 


如 果 没 有 定义 变量 PATH， 那 么 execvp0 和 execlp0 会 采用 默认 的 路 径 列 表 : .:/usr/bin:/bin。 

出 于 安全 方面 的 考虑 ， 通 常会 将 当前 工作 目录 排除 在 超级 用 户 (root) 的 PATH 之 外 。 
这 是 为 了 防止 root 用 户 发 生 如 下 意外 情况 : 执行 当前 工作 目录 下 与 标准 命令 同名 的 程序 ( 事 
先 由 恶意 用 户 故 意 放 置 ), 或 者 将 常用 命令 拼 错 而 执行 了 当前 工作 目录 下 的 其 他 程序 (例如 ， 
输入 sl 而 非 ls)。 一 些 Linux 发 行 版 还 将 当前 工作 目录 排除 在 非特 权 用 户 的 PATH 缺 省 值 之 
外 。 这 里 假定 ， 在 本 书展 示 的 所 有 shell 会 话 日 六 中 ， 对 PATH 的 定义 均 不 包含 当前 工作 目 
录 ， 而 书 中 示例 在 执行 当前 工作 目录 下 的 程序 时 都 冠 以 前 级 ./， 原因 也 正在 于 此 。( 同 时 还 有 
一 重 妙 用 : 在 本 书 的 shell 会 话 日 志 中 ， 从 表现 形式 上 将 示例 程序 与 标准 命令 区 分 开 来 。) 

PR. execvpO Hl exec pO SÆ PATH 包含 的 每 个 目录 中 搜索 文件 ， 从 列表 开头 的 目录 开始 ， 下 
至 成 功 执行 了 既定 文件 。 如 有 条 不 清楚 可 执行 程序 的 具体 位 置 ， 或 是 不 想 因 硬 编码 (hard- code) 
而 对 具体 位 置 产生 依赖 ， 对 PATH 环境 变量 的 这 种 使 用 方式 是 非常 有 效 的 。 

应 该 避免 在 设置 了 setuser-ID 或 set-group-ID 的 程序 中 调用 execvpO0 和 execlpO0， 至 少 应 当 
慎 用 。 需 要 特别 谨慎 地 控制 PATH 环境 变量 ， 以 防 运行 恶意 程序 。 在 实际 操作 中 ， 这 意味 看 应 
用 程序 应 该 使 用 已 知 安全 的 目录 列表 来 窗 新 之 前 定义 的 任何 PATH 值 。 
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程序 清单 27-3 提供 了 一 个 使 用 execlp0O 的 例子 。 下 面 的 shell 会 话 日 志 则 演示 了 如 何 通 过 
该 程序 来 调用 echo 命令 C/bin/echo): 


$ which echo 


/bin/echo 

$ ls -1 /bin/echo 

-IWXI-XI-X 1 root 15428 Mar 19 21:28 /bin/echo 

$ echo $PATH Show contents of PATH environment variable 
/ home/mtk/bin:/usr/local/bin:/usr/bin:/bin / bin is in PATH 

$ ./t execlp echo execlb() uses PATH to successfully find echo 


hello world 
在 上 例 中 ， 程 序 清 单 27-3 程序 将 字符 串 hello world 作为 第 3 个 参数 传递 给 execlpOVA Hl 。 
接 下 来 ， 重 新 对 PATH 进行 定义 ， 从 中 移 去 包含 程序 echo 的 目录 /bin: 


$ PATHz/home/mtk/bin:/usr/local/bin:/usr/bin 

$ ./t execlp echo 

ERROR [ENOENT No such file or directory] execlp 
$ ./t execlp /bin/echo 

hello world 


URAT IL, 4X m execlp0 提 供 文 件 名 ( 即 ， 5ETEHHPAPNOGSUHE 70 时 ， 调 用 会 失败 。 
这 是 因为 在 PATH 包含 的 目录 列表 中 无 法 找到 名 为 echo 的 文件 。 为 一 方面 ， 当 提供 了 包含 一 
个 或 多 个 斜 杠 的 路 径 名 时 ，execlpO 则 会 忽略 PATH 的 内 容 。 


程序 清单 27-3: 使 用 execlp0 在 PATH 中 搜索 文件 





procexec/t execlp.c 
include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


if (argc != 2 || stremp(argv[1], "--help") == 0) 
usageErr("Xs pathnameNn", argv[0]); 


execlp(argv[1], argv[1], "hello world", (char *) NULL); 


errExit("execlp"); /* If we get here, something went wrong */ 
} 
procexec/t execlp.c 
d Iac JA EE ro ^ 
27.2.2 ”将 程序 参数 指定 为 询 表 








如 果 在 编程 时 已 知 某 个 exec() 的 参数 个 数 ， 调 用 execle0、execlp0 或 者 execlO0 时 束 可 以 将 
参数 作为 列表 传 入 。 较 之 于 将 参数 装配 于 一 个 argy 向 量 中 ， 代 码 要 少 一 些 ， 便 于 使 用 。 程 序 
清单 27-4 中 程序 收效 与 程序 清单 27-1 相同 ， 只 是 调用 了 execle() 而 非 execveOQ. 


程序 清单 27-4: 使 用 execle()， 将 程序 参数 指定 为 列表 











procexec/t execle.c 
#include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 
char *envVec[] = ( "GREET-salut", "BYE-adieu", NULL }; 


char *filename; 
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if (argc != 2 || stremp(argv[1], "--help") == 0) 
usageErr("Xs pathnameWNn", argv[0]); 


filename = strrchr(argv[1], '/'); /* Get basename from argv[1] */ 
if (filename !- NULL) 

filename; 
else 

filename - argv[1]; 


execle(argv[1], filename, "hello world", (char *) NULL, envVec); 


errExit("execle"); /* If we get here, something went wrong */ 
j 
procexec/t execle.c 
27.2.8 将 调用 者 的 环境 传递 给 新 程序 








PAZ, execlpO0、execvpO、execl0 和 execv0 不 允许 开发 者 显 式 指定 环境 列表 ， 新 程序 的 环境 
继承 自 调 用 进程 (677 节 )。 这 一 举措 的 后 果 可 谓 是 喜忧参半 。 出 于 安全 方面 的 考虑 ， 有 时 希望 
确保 程序 在 一 个 已 知 〈 安 全 ) 的 环境 列表 下 运行 。38.8 节 将 对 此 做 深入 讨论 。 

程序 清单 27-5 演示 了 如 何 运 用 也 数 execl0 使 新 程序 继承 调用 者 的 环境 。 对 于 通过 fork() 
从 shell 处 所 继承 的 环境 ,程序 首先 用 函数 putenvO 进 行 了 修改 , 接 看 执行 printenv 程序 来 显示 
环境 变量 USER 和 SHELL 的 值 。 运 行程 序 的 输出 如 下 : 




















$ echo $USER $SHELL Display some of the shells environment variables 
blv /bin/bash 

$ ./t execl 

Initial value of USER: blv Copy of environment was inherited from the shell 
britta These two lines are displayed by execed printeno 
/bin/bash 


程序 清单 27-5: 调用 函数 execlu， 将 调用 者 的 环境 传递 给 新 程序 
一 procexec/t execl.c 
itinclude <stdlib.h> 
include "tlpi hdr.h" 
int 
main(int argc, char *argv[]) 
printf("Initial value of USER: XsNn", getenv("USER")); 


if (putenv("USER-britta") !- 0) 
errExit("putenv"); 


execl("/usr/bin/printenv", "printenv", "USER", "SHELL", (char *) NULL); 
errExit("execl1"); /* If we get here, something went wrong */ 


procexec/t execl.c 


27.2.4 执行 由 文件 摘 述 符 指 代 的 程序 ， fexecve() 

glibc HÆ 2.3.2 开始 提供 函数 fexecve0， 其 行为 与 execve0 类 似 ， 只 是 指定 将 要 执行 的 程序 是 
以 打开 文件 描述 符 fd 的 方式 ， 而 非 通过 路 径 名 。 有 些 应 用 程序 需要 打开 某 个 程序 文件 ， 通 过 执行 校 
JS C(checksum) 来 验证 文件 内 容 ， 然 后 再 运行 该 程序 ， 这 一 场景 就 较为 适宜 使 用 函数 fexecve0。 























#define GNU SOURCE 
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dinclude <unistd.h> 


int fexecve(int fd, char *const argv[], char *const envp[]); 


Doesn't return on success; returns -1 on error 














当然 ， 即 便 没 有 fexecve0 函 数 ， 也 可 以 调用 open0 来 打开 文件 ， 读 取 并 验证 其 内 容 ， 并 最 
终 运行 。 然 而 ， 在 打开 与 执行 文件 之 间 ， 存 在 将 该 文件 蔡 换 的 可 能 性 《“ 持 有 打开 文件 摘 述 符 
并 不 能 阻止 创建 同名 新 文件 )， 最 终 造成 验证 者 并 非 执 行者 的 情况 。 


27.9 ”解释 器 脚本 


所 谓 解释 需 (interpreter)， 就 是 能 够 读 取 并 执行 文本 格式 命令 的 程序 。( 相 形 之 下 ， 编 译 器 
则 是 将 输入 源 代 但 诺 为 可 在 真实 或 虚拟 机 堪 上 执行 的 机 器 语言 。) 各 种 UNIX shell， 以 及 诸如 
awk, sed, perl, python 和 ruby 之 类 的 程序 都 属于 解释 句 。 除 了 能 够 交互 式 地 恋 取 和 执行 命令 
之 外 ， 解释 占 通 党 还 其 备 这 样 一 种 能 力 : 从 被 称 为 脚本 〈script) 的 文本 文件 中 读 取 和 执行 命令 。 

UNIX 内 核 运 行 解释 器 脚本 的 方式 与 二 进 制 (binary) 程序 无 异 ， 前 提 是 脚本 必须 满足 下 
面 两 点 要 求 : 首先 ， 必 须 赋予 脚本 文件 可 执行 权限 ; 其 次 ， 文 件 的 起 始 行 Cnitial line) 必须 
指定 运行 脚本 解释 器 的 路 人 径 名 。 格 式 如 下 : 


t! interpreter-path | optional-arg | 



































字符 林 必 须 阐 于 该 行 起 始 处 ， 这 两 个 字符 如 与 解释 右 路 径 名 乙 间 可 以 以 空格 分 隔 。 在 解 
释 该 路 径 名 时 不 会 使 用 环境 变量 PATH, 因而 一 般 应 采用 绝对 路 径 。 使 用 相对 路 径 固 然 可 行 ， 
但 很 少见 。 对 其 解释 则 相对 于 局 动 解释 器 进程 的 当前 工作 目录 。 解 释 器 路 径 名 后 还 可 跟随 可 
选 参数 《〈 稍 后 将 解释 其 目的 )， 二 者 之 间 以 空格 分 隔 。 可 选 参数 中 不 应 包含 空格 。 

作为 例子 ，UNIX shell 脚本 通常 以 下 面 这 行 开始 ， 指 定 运 行 该 脚本 的 shell: 

it! /bin/sh 












































解释 器 脚本 文件 首 行 中 的 可 选 参数 不 应 包含 空格 ， 因 为 空格 此 处 所 起 的 作用 完全 取决 于 实 
Ji. Linux 系统 不 会 对 可 选 参数 Coptional-arg) 中 的 空格 做 特殊 解释 ， 将 从 参数 起 始 直 人 到 行 尾 的 
所 有 文本 视 为 一 个 单词 (正如 后 面 所 述 ， 再 将 其 作为 一 整个 参数 传递 给 解释 右 )。 注 意 ， 对 空 
格 的 这 种 处 理 方式 与 shel 的 做 法 形成 鲜明 对 比 ， 后 者 总 是 将 其 视 为 命令 行 中 各 单词 的 界定 符 。 

其 他 UNIX 实现 在 处 理 可 选 参数 中 的 空格 时 ， 其 做 法 与 Linux 有 同 有 有 寞 。 在 6.0 版 本 之 
前 的 FreeBSD 上 ， 可 在 解释 器 路 径 〈interpreter-path) 之 后 跟随 多 个 以 空格 分 隔 的 可 选 参数 
(并 作为 多 个 独立 的 单词 传递 给 解释 器 ); 而 到 了 6.0 版 本 ， 其 行为 又 转 而 与 Linux 趋同 。 而 
Solaris 8 则 使 用 空格 来 表征 可 选 参数 的 结束 ， 同 时 忽略 林 行 中 之 后 的 任何 剩余 文本 。 



































Linux 内 核 要 求 脚 本 的 #! 起 始 行 不 得 超过 127 个 字 节 , 其 中 不 包括 行 尾 的 换行 符 Cnewline )。 
超出 部 分 会 被 悄 无 声 县 地 略 去 。 
SUSv3 并 未 对 脚本 解释 器 的 #! 行 技术 加 以 规范 ， 不 过 大 多 数 UNIX 实现 都 支持 这 一 特性 。 
不 同 的 UNIX 实现 对 于 #! 行 的 长 度 限制 有 所 不 同 。 例 如 ，OpenBSD 3.1 的 限制 为 64 个 
F, m Tru64 5.1 则 为 1024 字 节 。 在 一 些 早期 的 实现 〈 例 如 SunOS 4) 中 ， 这 一 限制 甚至 
I 0 
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解释 器 脚本 的 执行 

因为 脚本 并 不 包 侣 二 进 制 机 喜 公 ,所 以 当 调 用 execve0 来 运行 脚本 时 ， 显然 故 生 了 一 些 不 
同 寻 冲 的 事件 。execve0 如 果 检 测 到 传 入 的 文件 以 网 字 节 序列 “而 ”开始 ， 融 会 析 取 该 行 的 剩 
余部 分 (路 径 名 以 及 参数 )， 然 后 按 如 下 参数 列表 来 执行 解释 器 程序 : 











interpreter-bath | optional-arg | script-path arg... 





这 里 ，interpreter-path 〈 解 释 器 路 径 ) 和 optional-arg (可 选 参 数 ) 都 取 日 脚本 的 #! 行 ，script-path 
(脚本 路 径 ) 是 传递 给 execve0 的 路 径 名 ，arg ... 则 是 通过 变量 argv 传递 给 execveO 的 参数 列 
A (不 过 将 argv[0] 排 除 在 外 )。 图 27-1 对 每 个 脚本 参数 的 起 源 做 了 总 结 。 


HEIE (通过 scripi-path 定 位 ) 


5 interpreter-bath optional-a ro 





在 程序 内 部 调用 execweW) 
execue(script-bath, argu, enup) 





interpreter-bath optional-arg script-bath ap... 


传递 给 解释 器 的 参数 列表 
27-1: 提供 给 可 执行 脚本 的 参数 列表 


编写 一 个 脚本 , 用 程序 清单 6-2 (necho.c) 程序 作为 解释 堪 ,， 用 于 说 明 解 释 器 参数 的 来 源 。 
该 程序 只 是 向 单 地 输出 所 有 的 命令 行 参数 。 接 看， 再 使 用 27-1 中 程序 来 执行 该 脚本 : 


$ cat > necho.script Create script 

it! /home/mtk/bin/necho some argument 

Some junk 

Type Control-D 

$ chmod +x necho.script Make script executable 

$ ./t execve necho.script And exec the script 

argv[0] = /home/mtk/bin/necho First 3 arguments are generated by kernel 
argv[1] = some argument Script argument is treated as a single word 
argv[2] = necho.script This is the script bath 

argv[3] = hello world This was argVec[ 1] given to execue() 
argv[4] = goodbye And this was arg Vec[2] 


在 本 例 中 ,“ 解 释 器 (necho)” 并 不 关心 脚本 的 内 容 Cnecho.script)， 脚 本 的 第 2 行 (Some junk) 
在 执行 时 不 起 作用 。 
2.2 内 核 在 执行 脚本 时 将 只 传递 interpreter-path. (解释 器 路 径 〉 的 basename 部 分 ， 以 作 
为 调用 脚本 的 首 个 参数 。 所 以 ， 对 于 Linux 2.2 来 说 ，argv[0] 的 输出 行 会 只 显示 值 necho。 
大 多 数 UNIX shell 和 解释 器 会 视 字 符 # 为 注释 的 开始 。 因 此 , 这些 解释 器 在 解释 脚本 时 会 急 
上 略 带 有 #! 的 和 初始 行 。 





使 用 脚本 的 optional-arg (可 选 参数 ) 
在 脚本 的 #! 起 始 行 中 ，optional-arg 的 用 途 之 一 是 为 解释 占 指 定 命令 行 参 数 。 对 于 awk 之 
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关 的 解释 需 而 言 ， 这 是 非常 实用 的 特性 。 








自 20 世纪 70 年 代 末 期 开始 ，awk 解释 器 业已 成 为 UNIX 系统 的 一 部 分 。 在 介绍 awk 
语言 的 诸多 书籍 之 中 ， 束 有 一 本 [Aho 等 ，1988] 是 由 该 语言 的 3 rH PIE. mA ud 
命名 也 源 于 3 人 名 字 的 首 字 母 。Awk 的 长 处 在 于 ， 能 快速 为 文本 处 理 程序 创建 原型 。 作 为 
一 门 弱 类 型 语言 ， 其 设计 中 富 含 多 种 文本 处 理 原 素 ， 语 法 结构 则 以 C 语言 为 基础 。 对 于 时 
下 风光 无 限 的 诸多 脚本 语言 (诸如 JavaScript 4l PHP) rfj zi, awk 的 始祖 地 位 壕 庸 置疑 。 


























|I] awk 提供 脚本 有 两 种 不 同方 式 。 黑 认 方 式 是 将 脚本 作为 awk 的 首 个 命令 行 参 数 : 
$ awk 'script' input-file... 

也 可 以 将 awk 脚本 保存 于 文件 乙 中 ， 正 如 下 面 显示 最 长 输入 行 长 度 的 例子 那样 : 

$ cat longest line.awk 

it! /usr/bin/awk 


length > max ( max = length; } 
END ( print max; } 


假设 使 用 如 下 C 代码 来 执行 这 一 脚本 : 

execl("longest line.awk", "longest line.awk", "input.txt", (char *) NULL); 

execl() 转 而 调用 execve()， 以 如 下 参数 列表 来 运行 awk: 

/usr/bin/awk longest line.awk input.txt 

由 于 awk 会 把 字符 串 longest_line.awk 解释 为 一 个 包含 无 效 awk 命令 的 脚本 , 故而 execve0O 调 用 
将 以 失败 告终 。 这 就 需要 有 一 种 方法 来 通知 awk: 该 参数 实际 上 是 包含 脚本 的 文件 名 称 。 在 脚本 的 
#! 起 始 行 中 加 入 二 可 选 参数 ， 就 可 达到 这 一 目的 。 这 等 于 告诉 awk， 后 面 的 参数 是 一 个 脚本 文件 : 

#!/usr/bin/awk -f 


length > max { max = length; } 
END { print max; } 


MÆ, H execl0 调 用 会 使 用 如 下 参数 列表 : 
/usr/bin/awk -f longest line.awk input.txt 


这 样 ，awk 就 可 以 成 功 地 执行 longest line.awk 脚本 来 处 理 输 入 文件 input.txt. 




















使 用 execlp() 和 execvp() 执 行 脚本 


通常 ， 脚 本 缺少 枚 起 始 行将 导致 exec0 函 数 执行 失败 。 不 过 ，execlp0 〇 和 execvp0 〇 的 行事 方 
式 多 少 有 些 不 同 。 前 面 提 到 ， 这 些 函 数 会 通过 环境 变量 PATH 来 获取 目录 列表 ， 并 在 其 中 搜 
索 将 要 执行 的 文件 。 两 个 函数 无 论 谁 找到 访 文 件 ， 如 果 既 具有 可 执行 权限 ， 又 并 非 二 进 制 格 
式 ， 且 起 始 行 也 不 以 # 开 始 ， 那 么 就 会 使 用 shell 来 解释 这 一 文件 。Linux 中 ， 会 将 这 类 文件 视 
同 于 包含 #1/bin/sh 起 始 行 的 文件 来 进行 处 理 。 























27.4 文件 摘 述 符 与 exec() 


默认 情况 下 ， 由 exec0 的 调用 程序 所 打开 的 所 有 文件 摘 述 符 在 execO 的 执行 过 程 中 会 保持 
打开 状态 ， 且 在 狐 程 序 中 依然 有 效 。 这 通 第 很 实用 ， 因 为 调用 程序 可 能 会 以 特定 的 揪 述 符 > 
打开 文件 ， 而 在 新 程序 中 这 些 文件 将 目 动 有 效 ， 无 需 再 去 了 解 文件 名 或 是 把 它们 重新 打开 。 

shell 利用 这 一 特性 为 其 所 执行 的 程序 处 理 VO 重 定向 。 例 如 ， 假 设 键入 如 下 的 shell 命令 : 

$ ls /tmp > dir.txt 
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shell 运行 该 命令 时 ， 执 行 了 以 下 步骤 。 
1. 调用 forkO 创 建 子 进程 ， 子 进程 会 也 运行 shell 的 一 份 拷贝 〈 因 此 命令 行 也 有 一 份 搁 贝 )。 
2. T shell 以 描述 符 1《〈 标 准 输出 ) 打开 文件 dirtxt 用 于 得 出。 可 能 会 采取 以 下 任 一 方式 。 
a) f shell 关闭 摘 述 符 1 CSTDOUT FILENO) 后 ， 随 即 打 开 文 件 dirtxt。 因 为 open) Æ 
为 描述 符 取 值 时 总 是 取 最 小 值 ， 而 标准 输入 《描述 符 0) 又 仍 处 于 打开 状态 ， 所 以 会 
以 描述 符 1 来 打开 文件 。 
shell 打开 文件 dirtxt， 获 取 一 个 新 的 文件 描述 符 。 之 后 ， 如 果 访 文件 描述 符 不 是 标准 输 
出 ， 那 么 shell 会 使 用 dup20 强 制 将 标准 输出 复制 为 新 摘 述 符 的 副本 ， 并 将 此 时 已 然 无 
用 的 新 摘 述 符 关 财 。( 这 种 方法 较 之 前 者 更 为 安全 ， 因 为 它 并 不 依赖 于 打开 文件 描述 符 
的 低 值 取 数 原则 。〉 源 代码 顺序 大 体 如 下 : 
fd = open("dir.txt", O WRONLY | O CREAT, 
S IRUSR | S IWUSR | S IRGRP | S IWGRP | S IROTH | S IWOTH); 
/* yw-rw-rw- */ 
if (fd != STDOUT FILENO) ( 


dup2(fd, STDOUT FILENO); 
close(fd); 











b 


NA 











} 
3. f shell 执行 程序 1s。1s 将 其 结果 输出 到 标准 输出 ， 亦 即 文件 dir.txt 中 。 


此 处 对 shell 处 理 VO 重 定 问 的 解释 有 所 人 简化。 特别 是 ， 某 些 命令 ， 即 所 谓 shell 内 建 命 令 ， 
是 由 shell 直接 运行 的 ， 并 未 调用 fork0 或 者 exec0。 在 处 理 WO 重 定 同 时 ， 针 对 这 样 的 命令 必 
须 进 行 尾 殊 处 理 。 

将 某 一 shell 命令 实现 为 内 建 命令 ， 不 外 平 如 下 两 个 目的 ; 效率 以 及 会 对 shell 产生 副 作 
用 (side effect)。 一 些 频 或 使 用 的 命令 (如 pwd, echo 和 test) 逻辑 都 很 简单 ， 放 在 shell 内 
部 实现 效率 会 更 高 。 将 其 他 命令 内 置 于 shel 实现 ， 则 是 希望 命令 对 shell 本 身 能 产生 副作用 : 更 
改 shell 所 存储 的 信息 ， 修 改 shell 进程 的 属性 ， 亦 或 是 影响 shell 进程 的 运行 。 例 如 ，cd 命令 必须 
改变 shell 自身 的 工作 目录 ， 故 而 不 应 在 一 个 独立 进程 中 执行 。 产 生 副 作用 的 内 建 命令 还 包括 
exec, exit, read, set, source, ulimit, umask, wait 以 及 shell 的 作业 控制 (job-control) 命令 (jobs、 
fg 和 bg)。 想 了 解 shell 文 持 的 全 套 内 建 命 令 ， 可 参考 shell 手册 页 (manual page) 文档 。 














执行 时 关闭 (close-on-exec) 标志 (FD CLOEXEC) 


在 执行 exec0 之 朋 ， 程 序 有 时 需要 确保 关闭 茶 些 特定 的 文件 摘 述 符 。 尤 其 是 在 特权 进程 中 
调用 exec(0 来 局 动 一 个 未 知 程序 时 《并 非 目 己 编写 )， 四 或 是 局 动 程 序 并 不 需要 使 用 这 些 已 打开 
的 文件 描述 符 时 ， 从 安全 编程 的 角度 出 有 发， 应当 在 加 载 新 程序 之 前 确保 关闭 那些 不 必要 的 文件 
描述 符 。 对 所 有 此 闫 描述 符 施 以 closeO 调 用 就 可 达到 这 一 目的 ， 然而 这 一 做 法 存在 如 下 局 限 性 。 
o 菏 些 摘 述 符 可 能 是 由 库 函 数 打 开 的 。 但 库 函 数 无 法 使 主 程序 在 执行 exec0 之 前 关闭 相 
应 的 文件 描述 符 。 作 为 基本 原则 ， 库 图 数 应 总 是 为 其 打开 的 文件 设置 执行 时 关闭 
(close-on-exec) 标 坊 ， 稍 后 将 介绍 所 使 用 的 技术 。 

e 如 条 execO 因 荣 种 原因 而 调用 失败 ， 可 能 还 需要 使 摘 述 符 保 持 打 开 状态 。 如 果 这 些 搞 
述 符 已 然 天 财 ， 将 它们 重新 打开 并 指 回 相同 文件 的 难度 很 大 ， 基 本 上 不 太 可 能 。 

为 此 ， 内 核 为 每 个 文件 摘 述 符 提 供 了 执行 时 天 财 标志 。 如 果 设 置 了 这 一 标志 ， 那 么 在 成 
功 执 行 execO0 时 ， 会 自动 关闭 该 文件 描述 符 ， 如 果 调 用 execO 失 败 ， 文 件 摘 述 符 则 会 保持 打开 
状态 。 可 以 通过 系统 调用 fent (5.2 市 ) 来 访问 执行 时 关闭 标记 。fent10 的 F_GETFD 操作 可 
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以 获取 文件 搬 述 得 标 记 的 一 份 捞 贝 : 
int flags; 


flags = fcntl(fd, F GETFD); 
if (flags -- -1) 
errExit("fcnt1"); 


获取 这 些 标志 后 ， 可 以 对 FD CLOEXEC 位 进行 修改 ， 再 调用 fcnt10 的 F_SETFD 操作 令 
AX : 
flags |- FD CLOEXEC; 


if (fcntl(fd, F SETFD, flags) == -1) 
errExit("fcnt1"); 





S 








实际 上 FD_CLOEXEC j Cf ETATE bes P HE RI ARER SA. AMAM EN 1« TE 
较 老 一 些 的 程序 中 ， 有 时 可 以 看 到 以 fentl(fd, F_SETFD,1) 的 调用 方式 来 设置 执行 时 关闭 标 
志 ， 其 事实 依据 是 这 种 操作 不 可 能 有 影响 到 其 他 位 。 但 理论 上 ， 情 况 不 会 总 是 一 成 不 变 (R 
来 ,一些 UNIX 系统 可 能 会 实现 其 他 的 标志 位 )， 所 以 还 是 使 用 正文 所 示 的 技术 较为 稳妥 。 

包括 Linux 在 内 的 许多 UNIX 实现 ,还 允许 以 另外 两 种 非 标 准 的 ioctO 调 用 来 修改 执行 
时 关闭 标志 : 以 ioctl(fd, FIOCLEX)7J fd 设置 此 标志 , 以 ioctl(fd, FIONCLEX) 来 清除 此 标志 。 

















当 使 用 dup0、dup20 或 fcntO 为 一 文件 描述 符 创 建 副本 时 ,总 是 会 清除 副本 描述 符 的 执行 
时 关闭 标记 。( 这 一 现象 妹 有 其 历史 洲 源 ， 也 顺应 了 SUSv3 的 要 求 。) 

程序 清单 27-6 展示 了 对 执行 时 关闭 标志 的 操作 。 如 果 运 行 时 市 有 命令 行 参数 (可 为 任 总 字符 
串 )， 该 程序 首先 为 标准 得 出 设置 执行 时 关闭 标志 ， 随 后 执行 1 命令 。 程 序 运 行 的 结果 如 下 : 














$ ./closeonexec Exec ls without closing standard output 
-IWXI-Xr-X 1 mtk users 28098 Jun 15 13:59 closeonexec 
$ ./closeonexec n Sets close-on-exec flag for standard output 


ls: write error: Bad file descriptor 


上 例 中 第 2 次 运行 该 程序 时 ，1s 检测 出 其 标准 输出 已 然 天 闭 ， 故 而 问 标 准 错误 stderr) 
输出 了 一 条 错误 信息 。 


程序 清单 27-6: 为 一 文件 搬 述 符 设 置 执 行 时 关闭 标记 


procexec/closeonexec.c 
include «fcntl.h» 
include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


{ 
int flags; 


if (argc > 1) 1 
flags - fcntl(STDOUT FILENO, F GETFD); /* Fetch flags */ 
if (flags -- -1) 
errExit("fcntl - F GETFD"); 
flags |- FD CLOEXEC; /* Turn on FD CLOEXEC */ 


if (fcntl(STDOUT FILENO, F SETFD, flags) -- -1) /* Update flags */ 
errExit("fcntl - F SETFD"); 
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execlp("ls", "Is", "-1", argv[0], (char *) NULL); 
errExit("execlp"); 


j 


procexec/closeonexec.c 


27.5 ”信号 与 exec() 


exec(0 在 执行 时 会 将 现 有 进程 的 文本 段 丢 弃 。 该 文本 段 可 能 包含 了 由 调用 进程 创建 的 信和 号 
处 理 器 程序 。 既 然 处 理 器 已 经 不 知 所 踪 ， 内 核 就 会 将 对 所 有 已 设 信号 的 处 置 重 置 为 SIG_DFL。 
而 对 所 有 其 他 信号 (即将 处 置 置 为 SIG IGN 或 SIG_DFL 的 信号 ) 的 处 置 则 保持 不 变 。 这 也 符 
合 SUSv3 的 要 求 。 

不 过 ， 遭 忽略 的 SIGCHLD 信号 属于 SUSv3 中 的 特例 。( 之 前 曾 在 26.3.3 THK, NE 
SIGCHLD 和 能够 阻止 僵尸 进程 的 产生 )。 至 于 调用 exec0 之 后 , 是 继续 让 遭 忽 略 的 SIGCHLD 信和 号 
保持 被 忽略 状态 ， 还 是 将 对 其 处 置 重 置 为 SIG DFL, SUSv3 对 此 不 置 可 否 。Linux 的 操作 取 其 
前 者 ， 而 其 他 一 些 UNIX 实现 (如 : Solaris) 则 采用 后 者 。 这 就 意味 着 ， 对 于 忽略 SIGCHLD 的 
程序 而 言 ， 要 最 大 限度 的 保证 可 移植 性 ， 就 应 该 在 调用 exec0 之 前 执行 signal (SIGCHLD, 
SIG DEFL)。 此 外 ， 程 序 也 不 应 当 假设 对 SIGCHLD 处 置 的 初始 设置 是 SIG DFL 之 外 的 其 他 值 。 

老 程 序 的 数据 段 、 堆 以 及 栈 悉数 被 毁 ， 这 也 意味 着 通过 sigaltstack() (21.3 市 ) 所 创建 的 任 
何 备 选 信号 栈 都 会 丢失 。 由 于 exec0 在 调用 期 间 不 会 保护 备 选 信号 栈 ， 故 而 也 会 将 所 有 信和 号 的 
SA ONSTACK 位 清除 掉 。 

在 调用 exec0 期 间 ， 进 程 信号 掩 人 码 以 及 挂 起 (pending) 信号 的 设置 均 得 以 保存 。 这 一 特 
性 允许 对 新 程序 的 信号 进行 阻塞 和 排队 处 理 。 不 过 d. SUSv3 指出 ， 许 多 现 有 应 用 程序 的 编写 
都 基于 如 下 的 错误 假设 : 程序 月 动 时 将 对 某 些 特定 信号 的 处 置 置 为 SIG_DFL， 又 或 者 并 未 阻 
塞 这 些 信和 与 。( 特 别 是 ，C 语言 标准 对 信和 号 的 规范 很 弱 ， 对 信和 号 阻塞 也 未 置 一 词 ， 所 以 为 非 UNIX 
系统 所 编写 的 C 程序 也 不 可 能 去 解除 对 信号 的 阻 蹇 。) 为 此 ，SUSv3 建议 ， 在 调用 execOdAAT 
任何 程序 的 过 程 中 ， 不 应 当 阻 塞 或 忽略 信号 。 这 里 的 “任何 程序 ”是 指 并 非 由 exec0 的 调用 者 
所 编写 的 程序 。 至 于 说 如 果 执 行 和 被 执行 的 程序 均 出 自 一 人 之 手 ， 又 或 者 对 运行 程序 处 理 信 
导 的 手法 知 根 知 底 ， 那 自然 又 另 当 别 论 。 
















































































27.6 - shell 命令 : system() 


程序 可 通过 调用 system() 函 数 来 执行 任意 的 shell ME. APE system0) 的 操作 ， 下 一 
节 将 a fork, exec), waitO^ll exitO 来 实现 system()- 





44.5 节 所 介绍 的 popenO0 和 pcloseO 函 数 同样 可 以 用 来 执行 shel 命令 ， 而 且 还 允许 调用 
程序 向 命令 发 送 输入 信息 ， 或 是 读 取 命 令 的 输出 。 





dinclude <stdlib.h> 


int system(const char *command); 








See main text for a description of return value 





EKZ systemO 创 建 一 个 子 进 程 来 运行 shell， 并 以 之 执行 命令 command。 其 调用 示例 如 下 : 


第 27 章 程序 的 执行 477 
异步 社区 会 员 flyman150(2410757683@qq.com) EF 尊重 版 权 


system("1s | wc"); 
system() 的 主要 优点 在 于 简便 。 
e 无 需 处 理 对 forkO、execO0、waitO0 和 exitO 的 调用 细节 。 
e SystemO 会 代为 处 理 错误 和 信和 号 。 
e 因为 systemOfiE H] shell 来 执行 命令 (command)， 所 以 会 在 执行 command 之 前 对 其 进行 
所 有 的 常规 shell 处 理 、 蔡 换 以 及 重 定 同 操作 。 为 应 用 增加 “执行 一 条 shell 命令 ”的 功 
能 不 过 是 举 手 之 劳 。( 许 多 交互 式 应 用 程序 以 “! command” 的 形式 提供 了 这 一 功能 。) 
但 这 些 优点 是 以 低 效率 为 代价 的 。 使 用 systemO 运 行 命令 需要 创建 至 少 两 个 进程 。 一 个 用 于 
运行 shell， 男 外 一 个 或 多 个 则 用 于 shell 所 执行 的 命令 | (执行 每 个 命令 都 会 调用 一 次 exec())。 
如 果 对 效率 或 者 速度 有 所 要 求 ， 最 好 还 是 直接 调用 fork0 和 exec0 来 执行 既定 程序 。 
system() 的 返回 值 如 下 。 
e "^ command 7j NULL 指针 时 , 如 果 shell 可 用 则 system0O 返 回 非 0 值 , 知 不 可 用 则 返回 0。 
这 种 返回 值 方式 源 于 C 语言 标准 ， 因 为 并 未 与 任何 操作 系统 绑 定 ， 所 以 如 果 system0is 
行 在 非 UNIX 系统 上 , 那么 该 系统 可 能 是 没有 shell 的 ,此 外 ,即便 所 有 UNIX 实现 都 有 shell, 
如 果 程 序 在 调用 system(O 之 前 又 调用 了 chroot, IBA shell 依然 可 能 无 效 。 奎 command 
不 为 NULL， 则 systemgO 的 返回 值 由 本 列表 中 的 余下 规则 决定 。 
e 如 果 无 法 创建 子 进程 或 是 无 法 获取 其 终止 状态 ， 那 么 systemO 返 回 -1。 
e 知 子 进程 不 能 执行 shell， 则 system0 的 返回 值 会 与 子 shell 调用 _exit(127) 终 止 时 一 样 。 
。 如 果 所 有 的 系统 调用 都 成 功 ，systemO 会 返回 执行 command KF shell 的 终止 状态 。 
shell 的 终止 状态 是 其 执行 最 后 一 条 命令 时 的 退出 状态 : 如 果 命 令 为 信号 所 杀 ， 大 多 数 
shell 会 以 值 128+n 退出 ， 其 中 n 为 信号 编号 〈 如 果 是 子 shel 为 信号 所 杀 ， 那 么 其 终 
止 状态 如 26.1.3 节 所 述 )。 
并 执行 既定 名 称 的 程序 , 承 会 导致 后 一 种 情况 的 发 生 ),，( 通 过 systemgO 的 返回 值 ) 是 无 法 区 分 的 。 
在 最 后 两 种 情况 中 , system() 的 返回 值 与 waitpidO 所 返回 的 等 竺 状态 Cwait status) 形式 相同 。 
因此 ， 可 以 使 用 26.1.3 节 所 述 函 数 来 分 析 返 回 值 ， 并 以 printWaitStatus0 函 数 ( 见 程序 清单 26-2) 
加 以 显示 。 












































示例 程序 


程序 清单 27-7 演示 了 systemg 的 用 法 。 程 序 循环 读 取 命 令 字 符 串 ,再 使 用 systemO 来 执行 命 
令 ， 并 对 SystemgO 的 返回 值 进行 分 机 和 展示 。 下 面 是 一 个 运行 的 例子 : 


$ ./t system 

Command: whoami 

mtk 

system() returned: status-0x0000 (0,0) 
child exited, status=0 








~e 


Command: ls | grep XYZ Shell terminates with the status of... 
system() returned: status=0x0100 (1,0) its last command (grep), which... 
child exited, status=1 found no match, and so did an exit( 1) 


Command: exit 127 

system() returned: status=0x7f00 (127,0) 

(Probably) could not invoke shell Actually, not true in this case 
Command: sleep 100 

Type Control-Z to suspend foreground process group 
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[1]+ Stopped ./t system 


$ ps | grep sleep Find PID of sleep 

29361 pts/6 00:00:00 sleep 

$ kill 29361 And send a signal to terminate it 

$ fg Bring t system bach into foreground 
./t system 


system() returned: status-0x000f (0,15) 
child killed by signal 15 (Terminated) 
Command: ^D$ Type Control-D to terminate program 


程序 清单 27-7: 通过 system() 执 行 shell 命令 
procexec/t system.c 


include «sys/wait.h» 
include "print wait status.h" 
include "tlpi hdr.h" 


itdefine MAX CMD LEN 200 


int 
main(int argc, char *argv[]) 


char str[MAX CMD LEN]; /* Command to be executed by system() */ 
int status; /* Status return from system() */ 
for (55) ( /* Read and execute a shell command */ 
printf("Command: "); 
fflush(stdout); 
if (fgets(str, MAX CMD LEN, stdin) -- NULL) 
break; /* end-of-file */ 


status - system(str); 
printf("system() returned: status=0x%04x (Xd, d)Nn", 
(unsigned int) status, status »» 8, status & Oxff); 


if (status -- -1) ( 
errExit("system"); 
} else { 
if (WIFEXITED(status) && WEXITSTATUS(status) == 127) 
printf("(Probably) could not invoke shellin"); 
else /* Shell successfully executed command */ 
printWaitStatus(NULL, status); 


j 


exit(EXIT SUCCESS); 


procexec/t system.c 


在 设置 用 户 ID (set-user-ID) 和 组 ID (set-group-ID) 程序 中 避免 使 用 system() 


当 设 置 了 用 户 ID 和 组 ID 的 程序 在 特权 模式 下 运行 时 ， 绝 不 能 调用 system(O)。 即 便 此 类 程 
序 并 未 允许 用 户 指 定 需要 执行 的 命令 文本 ， 鉴 于 shel 对 操作 的 控制 有 赖 于 各 种 环境 变量 ， 故 而 
使 用 systemO Z A^ n Dt 4923 s Sin oe az AS ES. 

例如 ， 在 较 老 的 Bourne shell 中 ， 环 境 变量 IFS (定义 了 用 于 将 命令 行 拆 分 为 独立 单词 的 内 
BBC MSN) 束 引 发 了 辱 干 起 对 系统 入 侵 的 成 功 案 例 。 如 果 将 IFS 定义 为 a， 那 么 shel SHF 
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FFE shar 视 为 带 有 参数 T 的 单词 sh， 并 局 动 另 一 shell 进程 来 执行 当前 工作 目录 下 名 为 r 的 脚本 ， 
这 就 一 改 命令 的 原意 〈 执 行 名 为 shar 的 命令 )。 对 这 一 安全 漏洞 的 修复 举措 是 ， 将 IFS 只 应 用 于 
shell 扩展 所 产生 的 单词 。 此 外 ， 现 代 shell 会 在 局 动 时 重 置 IFS (为 由 空格 、Tab 以 及 换行 3 NF 
符 组 成 的 字符 串 )， 以 确保 即使 IFS 的 继承 值 很 奇怪 ， 脚 本 的 行为 也 会 保持 一 致 。 作 为 进一步 的 
安全 举措 ， 当 从 设置 用 尸 《组 ) ID 程序 中 调用 时 ，bash 会 回转 为 实际 用 户 (组 ) ID 的 “ 真 映 ”。 

应 用 需要 加 载 其 他 程序 时 ， 为 确保 安全 过 关 ， 应 当 直 接 调用 forkO0 和 execO 系 函数 (execlp0 
和 execvpO 除 外 ) 之 一 。 




















27./ system() 的 实现 


本 市 将 说 明 如 何 实现 system0 的 功能 。 首 先 给 出 一 个 便 化 版 实现 ,接着 指出 这 一 实现 的 缺 
失 所 在 ， 最 后 再 展示 了 一 个 完整 的 实现 。 











对 system() 的 简化 实现 
命令 sh 的 参数 -c 提供 了 一 种 简单 的 方法 ， 可 以 执行 包公 


$ sh -c "ls | wc" 


n» 
Hi 
gll 
3 
AP 
c 
4} 
zu 
pu) 








38 38 — 444 
因此 ,为 了 实现 systemO, 15 2 8H] forkO 来 创建 一 个 子 进程 ， 并 以 对 应 于 上 例 sh 命令 的 
参数 来 调用 execl0: 


execl("/bin/sh", "sh", "-c", command, (char *) NULL); 

为 了 收集 systemO 上 所 创建 的 子 进程 状态 ， 还 以 指定 的 子 进程 ID 调用 了 waitpidO. UEH wait 
并 不 合适 ， 因 为 waitO 等 竺 的 是 任 一 子 进 程 ， 因 而 无 意 间 所 获取 的 子 进 程 状态 可 能 属于 其 他 子 
MERE.) 程序 清单 27-8 是 对 systemO 的 简化 实现 。 


程序 清单 27-8: 一 个 缺乏 信和 号 处 理 的 system0 实 现 











procexec/simple system.c 


include <unistd.h> 
include «sys/wait.h» 
&include <sys/types.h> 


int 
system(char *command) 


int status; 
pid t childPid; 


switch (childPid = fork()) { 

case -1: /* Error */ 
return -1; 

case 0: /* Child */ 
execl("/bin/sh", "sh", "-c", command, (char *) NULL); 
| exit(127); /* Failed exec */ 


default: /* Parent */ 
if (waitpid(childPid, 8status, 0) == -1) 
return -1; 
else 
return status; 


j 


480 Linux/UNIX 系统 编程 手册 CER) 
异步 社区 会 员 flyman150(2410757683 (9 qq.com) EF 尊重 版 权 


procexec/simple system.c 


在 system() 内 部 正确 处 理 信 号 


给 system0 〇 的 实现 带 来 复杂 性 的 是 对 信号 的 正确 处 理 。 

首先 需要 考 碟 的 信号 是 SIGCHLD。 假 设 调用 system0) 的 程序 还 直接 创建 了 其 他 子 进程 ， 
对 SIGCHLD 的 信号 处 理 器 目 身 也 执行 了 waitO。 在 这 种 情况 下 ， 当 由 system0O 所 创建 的 子 进 
程 退出 并 产生 SIGCHLD 信号 时 ， 在 system() 有 机 会 调用 waitpid0 之 前 ， 主 程序 的 信号 处 理 器 
程序 可 能 会 率先 得 以 执行 (收集 子 进程 的 状态 )。 这 是 竞争 条 件 (race condition) 的 又 一 例证 。 
这 会 产生 两 种 不 恨 后 果 。 

。 调用 程序 会 误 以 为 其 所 创建 的 某 个 子 进程 终止 了 。 

e system() 疯 数 却 无 法 获取 其 所 创建 子 进程 的 终止 状态 。 

所 以 ，system0) 在 运行 期 间 必须 阻塞 SIGCHLD 信号。 

其 他 需要 关注 的 信号 则 是 分 别 由 终端 的 中 断 (interrupt) (通常 为 Ctrl-C) 和 退出 (guit) 
(通常 为 Ctrl\) 符 所 产生 的 SIGINT 和 SIGQUIT 信号 。 考 虑 执行 如 下 调用 的 后 果 : 

System(" Sleep 20"); 

此 时 此 刻 ， 会 有 3 个 进程 在 运行 : 执行 调用 程序 的 进程 、 一 个 shell 进程 ， 以 及 sleep H 
程 。 如 图 27-2 所 示 。 


为 提高 效率 , 如 果 赋 予 -c 选项 的 是 一 条 简单 命令 , 较 之 于 管道 (pipeline ) 或 序列 Csequence )， 
一 些 shell (包括 bash) 会 下 接 执行 该 命令 ， 而 不 会 再 去 创建 一 个 子 shell。 对 于 采用 此 类 优化 的 
shel 而 言 ， 因 为 只 有 两 个 进程 〈 调 用 进程 和 sleep 进程 )， 所 以 图 27-2 有 失 准 确 。 不 过 ， 本 节 
关于 system0O 如 何 处 理 信 号 的 论述 仍然 适用 。 


图 27-2 中 所 示 的 所 有 进程 构成 终端 前 台 进 程 组 的 一 部 分 。(34.2 节 将 详细 讨论 进程 
组 。) 所 以 ， 在 输入 中 断 或 退出 符 时 ， 会 将 相应 信和 号 发 送 给 所 有 3 个 进程 。shell 在 等 待 子 
进程 期 间 会 忽略 SIGINT 和 SIGQUIT 信和 号。 不过， 默认 情况 下 这 些 信号 会 杀 死 调用 程序 与 
sleep 进程 。 





















































前 端 进程 组 
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调用 进程 
fork(), exec() i 


fork(), exec() 


l 

| 

| 

| —-L 
: shell 创 建 的 子 进程 (用 于 
j | 


执行 传递 给 wwemW 的 命令 ) 
-————— PÓ€ 


27-2: 执行 system ("sleep 20" ) 期 间 的 进程 情 ) 


-«—— —34— fem) 的 调用 者 
| 






| 
«—— —1—- 由 systepi) 创 建 的 了 shell 





调用 进程 和 所 执行 的 命令 应 当 如 何 应 对 这 些 信 号 呢 ? SUSv3 的 规定 如 下 。 

。 调用 进程 在 执行 命令 期 间 应 忽略 SIGINT 和 SIGQUIT 信和 号 。 

e 子 进程 对 上 述 两 信号 的 处 理 ， 如 同调 用 进程 调用 了 fork0 和 exec() 一 般 ， 也 就 是 说 , 将 
对 已 处 理 信和 号 的 处 置 重 置 为 默认 值 ， 而 对 其 他 信和 号 的 处 置 则 保持 不 变 。 
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按照 SUSv3 所 规范 的 方式 来 处 理 信和 号 是 最 为 合理 的 ， 有 其 原因 如 下 。 
。 让 所 有 的 进程 都 对 这 上 坚信 号 做 出 啊 应 是 没有 意义 的 ， 用 户 会 对 应 用 的 行为 困惑 不 已 。 
。 与 上 述 相 类 似 , 一 面 在 执行 命令 的 进程 中 忽略 这 些 信 和 号, 而 同时 又 在 调用 进程 中 投 对 它 
们 的 缺 省 处 置 来 行事 ， 这 同样 也 说 不 通 。 用 户 信 此 可 以 将 调用 进程 杀 反 ， 同 时 放任 其 
所 执行 的 命令 继续 运行 。 这 与 实际 情况 也 并 不 相符 : 当 命 令 传递 给 system0) 执 行 时 ， 
调用 进程 实际 上 已 经 放弃 了 控制 权 即 阻 蜂 于 waitpidO 调 用 中 )。 
。 SystemO 运 行 的 可 能 是 一 个 交互 式 应 用 ， 让 此 类 应 用 啊 应 终 疹 产 生 的 信号 是 合理 的 。 
SUSv3 要 求 按 上 述 方式 来 处 理 SIGINT 和 SIGQUIT, 但 同时 指出 , 对 于 上 暗中 调用 system 
来 执行 任务 的 程序 ， 这 一 做 法 可 能 会 产生 不 民 后 果 。 执 行 命令 时 如 按 下 Ctrl-C 或 Cti, R 
Adi SystemO 的 子 进 程 , 而 应 用 程序 会 继续 运行 (用 户 并 不 希望 如 此 )。 以 此 方式 调用 systemo 
HER INL SE fr SystemO 上 所 返回 的 终止 状态 ， 一 旦 发 现 命令 因 信号 而 终止 ， 应 采取 相应 措施 。 
























































system() 实 现 的 改进 版 


程序 清单 27-9 所 示 为 遵循 上 述 规 则 的 systemO 实 现 。 关 于 该 实现 ， 需 注意 以 下 几 点 。 

e 如 前 所 述 ， 当 command 7j NULL 指针 时 ， 若 shell 可 用 ， 则 system0O 应 返回 非 0 值 ， 如 
不 可 用 ， 则 返回 0。 要 得 出 结论 ， 唯 一 可 靠 的 办 法 束 是 尝试 运行 shell。 程 序 这 里 的 做 法 
是 : 递归 调用 system() 去 运行 shell 命令 “:” 并 检查 该 递归 调用 的 返回 状态 是 否 为 0 QD. 
“:” 是 一 个 shell 内 建 命令 ， 无 所 作为 却 总 是 返回 成 功 。 执 行 命令 exit 0 也 可 获得 相同 
效果 。( 仅 仅 通过 access0) 来 判断 文件 /bin/sh 存在 与 否 ， 是 人 否 上 共有 可 执行 权限 的 做 法 存 
在 局 限 性 。 在 chrootO 环 境 中 ， 即 使 具有 可 执行 权限 的 shell 文件 存在 ， 如 果 与 其 进行 
动态 链接 的 共享 库 无 效 ， 依 然 无 法 执行 shell。) 

e 只 有 父 进程 〈systemgO 的 调用 者 ) 才 需 要 阻塞 SIGCHLD@， 同 时 还 需要 忽略 SIGINT 
和 SIGQUITG) .不 过 , 必须 在 调用 fork0 之 前 执行 这 些 动作 , 因为 如 果 在 父 进程 的 forkO 
之 后 执行 ， 将 出 现 竞争 条 件 。( 假 设 : 如 果 在 父 进 程 有 机 会 阻 帮 SIGCHLD 之 前 ， 子 进 
程 束 退出 了 。) 结果 是 ， 如 同 稍 后 所 述 ， 子 进程 必须 取消 对 信号 属性 的 这 些 变更 。 

e 父 进 程 并 未 对 sigaction0 以 及 sigprocmask( Ui] H ETT 8 vet AOOO, 3X PALLA 9 
于 操作 对 信和 号 的 处 置 和 信号 掩 码 。 这 样 做 原因 有 二 。 其 一 ， 这 些 调用 失手 的 可 能 性 不 
大 。 实 际 上 ， 只 有 指定 参数 有 误 时 才 会 失败 ， 而 只 要 一 开始 调试 就 能 搞定 此 类 问题 。 
其 二 ， 这 里 假定 ， 较 之 于 此 类 信和 号 操控 函数 ， 调 用 者 更 关注 fork0 或 waitpid0 的 成 败 与 
fri. HH, Æ systemgO 尾 部 的 信号 处 理 操作 前 后 ， 分 别 有 代 码 来 保存 和 恢复 errno， 以 
便 一 旦 fork0O 或 waitpi dO 失败 ， 调 用 者 能 查 明 原因 。 如 果 因 信号 操作 失败 而 返回 -1， 那 
么 调用 者 会 误 认 为 是 system0) 执 行 command 失败 所 致 。 


SUSv3 仅仅 指出 在 创建 子 进 程 失 败 或 无 法 获取 子 进 程 状态 时 ，systemO 返 回 -1。 并 未 提 
及 systemO 在 处 理 信 号 失败 时 也 会 返回 -1。 


e 子 进程 中 对 于 信号 相关 的 系统 调用 也 未 执行 错误 检查 4)(5)。 一 方面 ， 无 法 报告 此 类 错 
误 C exit(127) 是 预 留 给 执行 shell 时 报告 错误 之 用 )， 鸭 一 方面 ， 这 一 失败 也 不 会 殊 
及 system() 的 调用 者 ， 二 者 分 属于 不 同 进程 。 

e 子 进程 刚 从 forkO 返 回 时 ， 会 将 对 SIGINT 和 SIGQUIT 的 处 置 置 为 SIG IGN (继承 
自 父 进程 )。 不 过 ， 如 前 所 述 ， 子 进程 处 理 这 些 信 号 时 就 如 同 SystemgO 的 调用 者 执行 
了 fork() 和 exec()。fork0O) 不 会 改变 子 进 程 对 这 些 信号 的 处 理 方式 。 而 execO0 则 会 将 对 
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CABE S RI AB EE ECCO BAAREN Ef ei I AB EE (27.5 市 )。 因 此 ， 如 
东 调 用 者 对 SIGINT 和 SIGQUIT 的 处 置 设置 并 非 SIG. IGN. 那么 子 进程 会 将 其 年 为 
SIG_DEFLG。 











一 些 system0 实 现 反而 会 将 子 进程 对 SIGINT 和 SIGQUIT 的 处 置 重 置 为 在 调用 者 中 生 
效 的 设置 。 这 一 做 法 的 依据 是 ， 后 续 对 execl0 的 调用 会 自动 将 对 这 些 已 处 理 信号 的 处 置 重 
置 为 默认 值 。 不 过 ， 如 果 调用 者 正在 处 理 两 个 信号 之 一 时 ， 这 可 能 会 导致 不 希望 的 行为 发 
生 。 在 这 种 情况 下 ， 如 果 在 调用 execl0 之 前 的 瞬间 有 信号 送 达 子 进程 ， 那 么 在 信号 经 由 
sigprocmask() 解 除 阻塞 后 ， 子 进程 还 是 会 调用 信号 处 理 器 程序 。 





























e 子 进 程 如 果 调 用 execl0 失 败 ， 就 会 以 exit()， 而 非 exit0 来 终止 进程 全。 这 是 为 了 防止 
对 子 进程 stdio 绥 冲 区 中 的 任何 未 写 入 数据 进行 刷新 。 

e 父 进 程 必须 使 用 waitpid(O) 来 专 候 其 所 创建 的 特定 子 进 程 @D。 如 果 使 用 wait0， 不 经 意 
间 可 能 会 捕获 到 其 他 子 进程 的 状态 。 

e 有 虽然 system() 实 现 并 未 强制 要 求 使 用 信号 处 理 占 程序 ， 但 调用 程序 还 是 可 能 会 去 创建 
它们 ， 从 而 中 断 对 waitpi dO 的 阻塞 调用 。 SUSv3 明确 要 求 在 这 种 情况 下 必须 重新 等 待 。 
所 以 , WREE EINTR RO, 则 循环 调用 waitpidO E39] p 7] EJS o WR e Hf R, 
则 退出 waitpidO 循 环 。 


程序 清单 27-9: system() 的 实现 











procexec/system.c 
include <unistd.h> 
include «signal.h» 
#include «sys/wait.h» 
include <sys/types.h> 
include «errno.h» 
int 
system(const char *command) 
sigset t blockMask, origMask; 
struct sigaction salgnore, saO0rigOuit, saOrigInt, saDefault; 
pid t childPid; 
int status, savedErrno; 
(D if (command -- NULL) /* Is a shell available? */ 
return system(":") == 0; 
sigemptyset(8blockMask); /* Block SIGCHLD */ 
sigaddset(&blockMask, SIGCHLD); 
© sigprocmask(SIG BLOCK, &blockMask, &origMask); 
salgnore.sa handler = SIG_IGN; /* Ignore SIGINT and SIGQUIT */ 
salgnore.sa flags = 0; 
sigemptyset(&saIgnore.sa_mask); 
© sigaction(SIGINT, &saIgnore, 8sa0rigInt); 
sigaction(SIGQUIT, &saIgnore, &sa0rigOuit); 
switch (childPid = fork()) { 
case -1: /* fork() failed */ 
status - -1; 
break; /* Carry on to reset signal attributes */ 
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case 0: /* Child: exec command */ 
saDefault.sa handler - SIG DFL; 
saDefault.sa flags - 0; 
sigemptyset(&saDefault.sa mask); 


出 if (sa0rigInt.sa handler !- SIG IGN) 
sigaction(SIGINT, 8&saDefault, NULL); 

if (sa0rigQuit.sa handler !- SIG IGN) 
sigaction(SIGQUIT, &saDefault, NULL); 


(5) sigprocmask(SIG SETMASK, &origMask, NULL); 
execl("/bin/sh", "sh", "-c", command, (char *) NULL); 
(6)  exit(127); /* We could not exec the shell */ 
default: /* Parent: wait for our child to terminate */ 
JW) while (waitpid(childPid, &status, 0) == -1) ( 
if (errno != EINTR) { /* Error other than EINTR */ 
status = -1; 
break; /* So exit loop */ 
} 
} 
break; 
} 


/* Unblock SIGCHLD, restore dispositions of SIGINT and SIGOUIT */ 
(8) savedErrno - errno; /* The following may change 'errno' */ 


(9) sigprocmask(SIG SETMASK, &origMask, NULL); 
sigaction(SIGINT, &saOrigInt, NULL); 
sigaction(SIGQUIT, &saOrigQuit, NULL); 


(40) errno - savedErrno; 


return status; 


procexec/system.c 


关于 system() 的 更 多 细节 


为 保障 应 用 程序 的 可 移植 性 ， 应 确保 在 将 对 SIGCHLD 的 处 置 置 为 SIG_IGN 的 情况 下 不 
去 调用 systemO0， 因 为 此 时 waitpid0 将 无 法 获取 子 进程 的 状态 。( 忽 略 SIGCHLD 会 寻 致 立即 
EA THEAS. W 26.3.3 节 所 述 。) 

在 一 些 UNIX 实现 中 , 如 果 在 将 对 SIGCHLD 的 处 置 置 为 SIG_IGN 的 情况 下 调用 systemo, 
systemgO 的 应 对 策略 是 : 临时 将 其 改 为 SIG. DFL., 只 要 在 把 对 SIGCHLD 的 处 置 重 置 为 SIG_ IGN 
I, UNIX 实现 能 够 处 理 僵 尸 子 进程 〈Linux 不 在 此 列 )， 这 种 方法 就 是 可 行 的 。( 如 果 系 统 做 
不 到 这 一 点 ， 按 此 方式 实现 system() 将 产生 如 下 不 恨 后 果 : 在 调用 者 执行 system() 期 间 ， 如 果 
男 一 子 进 程 终 止 了 ， 那 么 该 子 进程 将 成 为 伪 尸 进程 ， 且 无 法 回收 ,) 

对 于 一 些 UNIX 实现 (尤其 是 Solaris), /bin/sh 并 非 标准 的 POSIX shell。 若 希望 确保 执行 
标准 shell， 则 必须 使 用 库 函 数 confstr0 来 获取 配置 变量 CS PATH 的 值 。 该 值 的 风格 与 PATH 
相同 ， 包 含 了 标准 系统 工具 的 目录 列表 。 可 以 将 该 列表 赋 给 变量 PATH， 随 即 调 用 execlpO 以 
执行 标准 shell， 具 体 如 下 : 
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char path[PATH MAX]; 


if (confstr( CS PATH, path, PATH MAX) -- O) 


 exit(127); 
if (setenv("PATH", path, 1) -- -1) 

 exit(127); 
execlp("sh", "sh", "-c", command, (char *) NULL); 
 exit(127); 


27.8 Ri 


| 进程 可 使 用 execve0 以 一 新 程序 蕉 换 当 前 增长 运行 的 程序 a execve() 的 参数 允许 为 狐 程 序 
指定 参数 列表 Carev) 和 环境 列表 。 构 建 于 execve0 之 上 ， 存 在 多 种 命名 相似 的 函数 ， 功 能 相 
同 ， 但 提供 的 接口 不 同 。 

所 有 的 exec0 函 数 均 可 用 于 加 载 二 进 制 的 可 执行 文件 或 是 执行 解释 器 脚本 。 当 进程 执行 脚 
本 时 ， 脚 本 解释 器 程序 将 蔡 换 进 程 当 前 执行 的 程序 。 脚 本 的 起 始 行 〈 以 所 开头 ) 指定 了 解释 器 
的 路 径 名 ， 供 识别 解释 喜之 用 。 如 果 没 有 这 一 起 始 行 ， 那 么 上 只 能 通过 execlp0 或 execvpO2K 4A 
行 脚 本 ， 并 默认 把 shell 作为 脚本 解释 器 。 

本 章 还 展示 了 如 何 组 合 使 用 forkO0、execO、exit0 和 waitO 来 实现 systemO RZ VA ER n] 
用 于 执行 任意 shell 命令 。 


更 多 的 信息 
请 参考 24.6 帮 所 列 的 更 多 信息 来 源 。 











27.9 ”练习 


27-1. 如 下 shell 会话 的 最 后 一 条 命令 使 用 程序 清单 27-3 程序 来 执行 程序 xyz。 结 果 如 何 ? 


$ echo $PATH 

/usr/local/bin:/usr/bin:/bin:./dir1:./dir2 

$ ls -l diri 

total 8 

-YW-r--r-- 1 mtk Users 7860 Jun 13 11:55 xyz 
$ ls -1 dir2 

total 28 

-YWXr-Xr-x 1 mtk Users 27452 Jun 13 11:55 xyz 
$ ./t execlp xyz 


27-2. AH execve) SEIN execlp0。 需 使 用 stdarg(3) API KALI execlpO 所 提供 的 变 长 参数 列表 。 
还 需要 使 用 malloc 函数 库 中 国 数 为 参数 以 及 环境 癌 量 分 配 衬 间 。 最 后 ， 请 注意 ， 要 检 
得 特定 目录 下 某 个 文件 是 否 存在 且 可 以 执行 , 有 一 种 简单 方法 : 尝试 执行 该 文件 即 可 。 
27-3. 如 果 赋 了 予 如 下 脚本 可 执行 权限 并 以 exec0 运 行 ， 输 出 结果 如 何 ? 


#!/bin/cat -n 
Hello world 


27-4. 下 列 代 码 会 有 什么 效果 ? 在 何 种 情况 下 会 起 作用 ? 
childPid = fork(); 


if (childPid == -1) 
errExit("fork1"); 
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if (childPid == 0) { /* Child */ 
switch (fork()) ( 
case -1: errExit("fork2"); 


case 0: /* Grandchild */ 

/* ----- Do real work here ----- id 

exit(EXIT SUCCESS); /* After doing real work */ 
default: 

exit(EXIT SUCCESS); /* Make grandchild an orphan */ 
} 


} 
/* Parent falls through to here */ 


if (waitpid(childPid, 8&status, 0) == -1) 
errExit("waitpid"); 


/* Parent carries on to do other things */ 


27-5. 运行 如 下 程序 时 无 输出 。 试 问 原因 何在 ? 
#include "tlpi hdr.h" 





int 
main(int argc, char *argv[]) 


printf("Hello world"); 


execlp("sleep", "sleep", "o", (char *) NULL); 
} 


27-6. 假设 父 进 程 为 信号 SIGCHLD 创建 了 一 处 理 需 程序 ， 同 时 阻 堵 访 信号。 随后， 其 某 

子 进程 退出 ， 父 进程 接 独 执行 waitO 以 获取 该 子 进 程 的 状态 。 当 父 进程 解除 对 

SIGCHLD 的 阻塞 时 ， 会 发 生 什么 ”编写 一 个 程序 来 验证 答案 。 这 一 结果 与 调用 
system() 函 数 的 程序 之 间 有 什么 关联 ? 
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详 述 进程 创建 和 程 友 执 行 








本 章 对 第 24 章 到 第 27 章 的 内 容 进行 了 拓展 ， 涵 盖 进 程 创 建 和 程序 执行 的 多 个 主题 。 首 
先是 进程 记 账 Cprocess accounting)， 这 一 内 核 特 性 会 使 系统 在 每 个 进程 结束 后 记录 一 条 账单 
信息 。 接 着 ， 会 讨论 Linux 特有 的 系统 调用 cloneO, Linux 系统 创建 线程 就 有 赖 于 这 一 底层 
API。 然 后 对 forkO0、vforkO0 和 clone() 的 性 能 进行 了 比较 。 最 后 ， 本 章 束 fork() 和 exec(O 对 进程 
属性 的 影响 做 了 总 结 。 








28.1 ”进程 记 账 


打开 进程 记 账 功能 后 ， 内 核 会 在 每 个 进程 终止 时 将 一 条 记 账 信息 写 入 系统 级 的 进程 记 账 
文件 。 这 条 账单 记录 包含 了 内 核 为 该 进程 所 维护 的 多 种 信息 ， 包 括 终止 状态 以 及 进程 消耗 的 
CPU 时 间 。 借 助 于 标准 工具 (sa(8) 对 账单 文件 进行 汇总 ，lastcomm(1) 则 束 先 前 执行 的 命令 列 
出 相关 信息 ) 或 是 定制 应 用 ， 可 对 记 账 文件 进行 分 析 。 

















内 核 2.6.10 之 前 ， 内 核 会 为 基于 NPTL 线程 实现 所 创建 的 每 个 线程 单独 记录 一 条 进程 
记 账 信息 。 目 内 核 2.6.10 开始 ， 只 有 当 最 后 一 个 线程 退出 时 才 会 为 整个 进程 保存 一 条 账单 
记录 。 全 于 更 老 的 LinuxThread 线程 实现 ， 则 会 为 每 个 线程 单独 记录 一 条 进程 记 账 信息 。 














从 历史 上 看 ， 进 程 记 账 主要 用 于 在 多 用 户 UNIX. 系统 上 针对 用 户 所 消耗 的 系统 资源 进行 
计 费 。 不 过 ， 如 果 进 程 的 信息 并 未 由 其 父 进程 进行 监控 和 报告 ， 那 么 就 可 以 使 用 进程 记 账 来 
获取 。 

虽然 大 部 分 UNIX 实现 都 支持 进程 记 账 功能 ， 但 SUSv3 并 未 对 其 进行 规范 。 账 单 记 录 的 
格式 、 记 账 文件 的 位 置 也 随 系统 实现 的 不 同 而 多 少 存在 差别 。 本 节 所 述 是 针对 Linux 系统 的 细 
节 ， 但 会 在 论述 过 程 中 点 出 其 与 其 他 Unix 系统 的 差异 。 














Linux 系统 的 进程 记 账 功能 属于 可 选 内 核 组 件 ， 可 以 通过 CONFIG BSD PROCESS_ 
ACCT 选项 进行 配置 。 
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打开 和 关闭 进程 记 账 功能 








特权 进程 可 利用 系统 调用 acct0 来 打开 和 关闭 进程 记 账 功能 。 应 用 程序 很 少 使 用 这 一 系统 











调用 。 一 般 会 将 相应 命令 置 于 系统 局 动 脚本 中 ， 在 系统 每 次 重 局 时 开局 进程 记 账 功能 。 








#define BSD SOURCE 
#include <unistd.h> 


int acct(const char *acctfile); 


Returns 0 on success, or -1 on error 





为 了 打开 进程 账单 功能 ， 需 要 在 参数 acctfile 中 指定 一 个 现 有 常规 文件 的 路 径 名 。 记 账 文 





件 通常 的 路 径 名 是 /vavlog/pacct 或 /usr/account/pacct。 若 想 关 闭 进 程 记 账 功能 ， 则 指定 acctfile 
jj NULL 即 可 。 





程序 清单 28-1 中 程序 使 用 acct0 来 开关 进程 的 记 账 功能 。 该 程序 的 作用 类 似 于 shell 命令 


accton($). 


程序 清单 28-1: 打开 和 关闭 进程 记 账 功能 


procexec/acct on.c 


define BSD SOURCE 
&include <unistd.h> 
include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 
1 
if (argc > 2 || (argc > 1 88 strcmp(argv[1], "--help") == 0)) 
usageErr("%s [file]Wn"); 
if (acct(argv[1]) == -1) 
errExit("acct"); 
printf("Process accounting %s\n", 
(argv[1] == NULL) ? "disabled" : "enabled"); 
exit(EXIT SUCCESS); 
} 
procexec/acct on.c 
进程 账单 记录 





一 旦 打开 进程 记 账 功能 ， 每 当 一 进程 终止 时 ， 束 会 有 一 条 acct 记录 写 入 记 账 文件 。acct 


结构 定义 于 头 文件 <sys/acct.h> 中 ， 其 体 如 下 : 
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typedef u int16 t comp t; /* See text */ 


struct acct ( 


char ac flag; /* Accounting flags (see text) */ 
u int16 t ac uid; /* User ID of process */ 
u int16 t ac gid; /* Group ID of process */ 
u int16 t ac tty; /* Controlling terminal for process (may be 
0 if none, e.g., for a daemon) */ 
u int32 t ac btime; /* Start time (time t; seconds since the Epoch) */ 
comp t ac utime; /* User CPU time (clock ticks) */ 


comp t ac stime; /* System CPU time (clock ticks) */ 
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comp t ac etime; /* Elapsed (real) time (clock ticks) */ 


comp t ac mem; /* Average memory usage (kilobytes) */ 

comp t ac io; /* Bytes transferred by read(2) and write(2) 
(unused) */ 

comp t ac rw; /* Blocks read/written (unused) */ 


comp t ac minflt;  /* Minor page faults (Linux-specific) */ 

comp t ac majflt;  /* Major page faults (Linux-specific) */ 

comp t ac swaps; /* Number of swaps (unused; Linux-specific) */ 
u int32 t ac exitcode; /* Process termination status */ 


#define ACCT COMM 16 


Is 


char ac comm[ACCT COMM+1 |]; 
/* (Null-terminated) command name 
(basename of last execed file) */ 
char ac pad[10]; /* Padding (reserved for future use) */ 


AT acct 55s ETE XU) P Jb ri. 


数据 类 型 u_int16 t 和 ut int32 t 分 别 是 16 位 和 32 位 的 无 符号 整数 类 型 。 

ac flag 字段 〈field) 是 为 进程 记录 多 种 事件 CevenD WALII (bit mask)。 表 28-1 
展示 了 在 该 字段 中 可 能 出 现 的 位 。 如 表 中 所 示 , 并 非 所 有 的 UNIX 实现 都 文 持 这 些 位 。 
另 有 少数 实现 为 该 字段 还 提供 了 一 些 附加 的 位 。 

ac comm 字段 记录 了 该 进程 最 后 执行 的 命令 (程序 文件 ) 名 称 。 内 核 会 在 每 次 调用 
execve() 时 记录 该 值 。 一 些 UNIX 实现 将 该 字段 的 大 小 限制 在 8 个 字 节 以 内 。 

类 型 comp t 是 一 种 浮 点 型 (floating-point) 数字 。 有 时 也 将 该 类 型 值 称 为 压缩 时 钟 周 
期 Ccompressed clock tick)。 访 浮 点 值 由 3 位 (bit) 以 8 为 底 的 指数 以 及 13 位 CbiO 
小 数组 成 ， 指 数 用 来 表示 值 范围 在 s1—8' (2097152) 之 间 的 因子 。 例 如 ， 尾 数 为 
125， 指 数 部 分 为 1 束 表 示 值 为 1000。 程 序 清单 28-2 中 定义 的 函数 (comptToLL() 
可 以 将 该 类 型 转换 为 long long。 因 为 在 x86-32 架构 下 的 系统 中 , 用 于 表示 无 符号 长 整 
型 的 32 位 数 并 不 足以 保存 comp t WARA: (22-1) x8 

3 个 定义 为 comp t 型 的 时 间 字 段 其 度量 单位 为 系统 时 钟 周期 。 要 将 它们 转换 成 秒 ， 必 
须 除 以 sysconf(_SC_CLK_TCK) 的 返回 值 。 

ac exitcode 字段 保存 看 进程 的 退出 状态 〈 如 26.1.3 市 所 述 )。 其 他 大 多 数 UNIX 实现 
则 提供 了 一 个 名 为 ac_stat I] E E T BOKÍTVSE ac_exitcode, 其 中 仪 记录 了 杀 死 进程 的 
言 写 值 (如果 进程 为 信号 所 杀 〉 和 一 个 标志 位 ， 用 于 标识 是 否 因 该 信号 而 导致 进程 转 
储 核心 (dump core)。 二 者 在 源 于 BSD 的 实现 中 均 未 提供 。 
























































表 28-1: 进程 账单 记录 中 ac flag 字段 各 位 的 值 


位 说 朋 


由 fork0 创 建 的 进程 ， 终 止 前 并 未 调用 exec0) 


ASU 拥有 超级 用 户 特 权 的 进程 














ACORE 进程 产生 了 核心 转 储 ( 有 些 实现 未 支持 ) 


证 


因为 只 在 进程 终止 时 才 记 录 账 单 信息 ， 所 以 对 这 些 记 录 的 排序 也 是 按照 进程 的 终止 时 间 
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《并 未 号 入 记录 )， 而 非 司 动 时 间 Cac btime). 
如 条 系统 月 涡 ， 也 不 会 为 当前 运行 的 进程 记录 任何 记 账 信息 。 








由 于 问 记 账 文件 中 写 入 信息 可 能 会 加 速 对 磁盘 空间 的 消耗 ， 为 了 对 进程 记 账 行为 加 以 控 
制 ，Linux 系统 提供 了 名 为 /proc/sys/kernel/acct 的 虚拟 文件 。 此 文件 包含 3 个 值 ， 按 顺序 分 别 
定义 了 如 下 参数 : 高 水 位 (high-water)、 低 水 位 Cow-water) 和 频率 (frequency). 3 个 参数 
通常 的 默认 值 为 4、2 和 30。 如 果 开 局 进程 记 账 特性 且 磁 盘 空 闲 空 间 低 于 低 水 位 Clow-water) 
百分比 ， 将 暂停 记 账 。 如 果 磁 盘 空 闲 空间 升 至 高 水 位 百分比 之 上 ， 则 恢复 记 账 。 频 率 值 则 规 
定 了 两 次 检查 空闲 磁 舟 空间 占 比 之 间 的 间隔 时 间 〈 以 秒 为 单位 )。 











示例 程序 


程序 清单 28-2 中 程序 显示 了 茶 进 程 记 账 文件 记录 中 特定 字段 的 信息 。 以 下 shell 会 话 演示 了 
对 该 程序 的 使 用 。 首 先 新 建 一 个 空 的 进程 记 账 文件 ， 同 时 开局 进程 记 账 功能 。 








$ su Need privilege to enable process accounting 
Password: 

# touch pacct 

it ./acct on pacct This process will be first entry in accounting file 
Process accounting enabled 

# exit Cease being superuser 








从 开局 进程 记 账 功能 到 现在 , 已 经 有 3 个 进程 退出 , 分 别 执行 了 acct on. su 和 bash 程序 。 
进程 bash 由 su 启动， 负责 运行 特权 级 shell Zi. 
接 看 运行 一 系列 命令 ， 借 此 问 记 账 文 件 加 入 更 多 记录 : 





$ sleep 15 & 

[1] 18063 

$ ulimit -c unlimited Allow core dumps (shell built-in) 
$ cat Create a process 


Type Control (generates SIGQUIT signal 3) to kill cat process 
Quit (core dumped) 


$ 

Press Enter to see shell notification of completion of sleep before next shell prompt 
[1]+ Done sleep 15 

$ grep xxx badfile grep fails with status of 2 

grep: badfile: No such file or directory 

$ echo $? The shell obtained status of grep (shell built-in) 
2 





下 面 两 个 命令 执行 的 是 前 面 草 节 中 展示 过 的 两 个 程序 《程序 清单 27-1 和 程序 清单 24-1). 
第 一 条 命令 运行 的 程序 执行 了 /bin/echo， 因 此 ， 写 入 账单 记录 中 的 命令 名 是 echo。 第 二 条 命令 
创建 了 一 个 子 进程 ， 该 子 进程 并 未 调用 exec). 

$ ./t execve /bin/echo 

hello world goodbye 

$ ./t fork 

PID-18350 (child) idata-333 istack-666 

PID-18349 (parent) idata-111 istack-222 

最 后 ， 运 行程 序 清 单 28-2 中 程序 来 租 看 记 账 文件 的 内 容 。 


$ ./acct view pacct 




















command flags term. user start time CPU elapsed 
status time time 
acct on  -S-- 0 root 2010-07-23 17:19:05 0.00 0.00 
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bash ---- O root 2010-07-23 17:18:55 0.02 21.10 
SU -9-- 0 root 2010-07-23 17:18:51 0.01 24.94 
cat --XC 0x83 mtk 2010-07-23 17:19:55 0.00 1.72 
sleep ---- 0 mtk 2010-07-23 17:19:42  Á 0.00 15.01 
grep ---- Ox200  mtk 2010-07-23 17:20:12 0.00 0.00 
echo mec O  mtk 2010-07-23 17:21:15 0.01 0.01 
t fork F--- 0 mtk 2010-07-23 17:21:36 0.00 0.00 
t fork ---- 0 mtk 2010-07-23 17:21:36 0.00 3.01 


得 出 中 的 每 行者 对 应 于 shell 会 话 所 创建 的 一 个 进程 。 ulimit 和 echo 都 是 shell 的 内 建 命令 , 所 以 
并 不 会 创建 新 进程 。 注意， 记 账 文件 中 sleep 之 所 以 出 现在 cat 之 后 ， 是 因为 sleep 在 cat 之 后 才 终 止 。 

大 部 分 输出 的 含义 均 不 言 而 喻 。flags 列 中 的 各 个 字母 表示 每 条 记录 对 哪些 ac flag 位 进行 了 
置 位 〈 参 考 表 28-1)。 至 于 应 如 何 解释 term.status 列 中 的 终止 状态 ，26.1.3 节 有 相关 描述 。 


程序 清单 28-2: 显示 进程 记 账 文件 中 的 数据 




















procexec/acct view.c 


#include «fcntl.h» 

#include «time.h» 

include «sys/stat.h» 

include «sys/acct.h» 

include «limits.h» 

#include "ugid functions.h" /* Declaration of userNameFromId() */ 
include "tlpi hdr.h" 


ildefine TIME BUF SIZE 100 


static long long /* Convert comp t value into long long */ 
comptToLL(comp t ct) 
| 
const int EXP SIZE - 3; /* 3-bit, base-8 exponent */ 
const int MANTISSA SIZE - 13; /* Followed by 13-bit mantissa */ 


const int MANTISSA MASK = (1 << MANTISSA SIZE) - 1; 
long long mantissa, exp; 


mantissa - ct & MANTISSA MASK; 
exp = (ct >> MANTISSA SIZE) & ((1 << EXP SIZE) - 1); 
return mantissa «« (exp * 3); /* Power of 8 = left shift 3 bits */ 


j 


int 
main(int argc, char *argv[]) 
i 
int acctFile; 
struct acct ac; 
ssize t numRead; 
char *s; 
char timeBuf[TIME BUF SIZE|; 
struct tm *loc; 
time t t; 


if (argc != 2 || stremp(argv[1], "--help") == 0) 
usageErr("Xs fileWn", argv[0]); 


acctFile - open(argv[1], O RDONLY); 


if (acctFile -- -1) 
errExit("open"); 
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printf("command flags term. user 
"start time CPU elapsed\n"); 
printf(" status k 
" time time\n"); 


while ((numRead = read(acctFile, &ac, sizeof(struct acct))) > o) ( 
if (numRead !- sizeof(struct acct)) 
fatal("partial read"); 


printf("5-8.8s ^", ac.ac comm); 


printf("Xc", (ac.ac flag & AFORK) ? 'F' '-) 5 
printf("Xc", (ac.ac flag 8 ASU) ? 'S' : '-") ; 
printf("Xc", (ac.ac flag & AXSIG) ? 'X' : '-") ; 
printf("Xc", (ac.ac flag & ACORE) ? 'C' : '-") ; 


Hifdef _ linux - 
printf(" %#6lx  ", (unsigned long) ac.ac exitcode); 
else — /* Many other implementations provide ac stat instead */ 
printf(" *61x X", (unsigned long) ac.ac stat); 


#endif 

s = userNameFromId(ac.ac uid); 

printf("%-8.8s ", (s == NULL) ? "???" : s); 

t = ac.ac btime; 

loc = localtime(8t); 

if (loc -- NULL) { 
printf("???Unknown time??? "); 

} else { 
strftime(timeBuf, TIME BUF SIZE, "%Y-%m-%d %T ", loc); 
printf("%s ", timeBuf); 

} 

printf("%5.2f 47.2f ", (double) (comptToll(ac.ac utime) + 

comptTolLl(ac.ac stime)) / sysconf( SC CLK TCK), 
(double) comptToLL(ac.ac etime) / sysconf( SC CLK TCK)); 
printf("An"); 
} 


if (numRead == -1) 
errExit("read"); 


exit(EXIT SUCCESS); 


procexec/acct view.c 


进程 记 账 文件 格式 (版 本 3) 


从 内 核 2.6.8 开始 ，Linux 引入 了 另 一 版 本 的 进程 记 账 文件 以 备 选用 ， 意 在 突破 传统 记 账 
文件 的 一 些 限 制 。 奋 有 意 使 用 这 种 被 称 为 版 本 3 的 备 选 格 式 ， 需 要 在 编译 内 核 前 打开 内 核 配 
置 选项 CONFIG BSD PROCESS ACCT V3, 

使 用 版 本 3， 操 作 进程 记 账 时 唯一 的 差别 在 于 ， 写 入 记 账 文件 的 记录 格式 不 同 。 新 格式 的 
定义 如 下 : 


struct acct v3 { 
char ac flag; /* Accounting flags */ 
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char ac version; /* Accounting version (3) */ 


u int16 t ac tty; /* Controlling terminal for process */ 

u int32 t ac exitcode; /* Process termination status */ 

u int32 t ac uid; /* 32-bit user ID of process */ 

u int32 t ac gid; /* 32-bit group ID of process */ 

u int32 t ac pid; /* Process ID */ 

u int32 t ac ppid; /* Parent process ID */ 

u int32 t ac btime; /* Start time (time t) */ 

float ac etime; /* Elapsed (real) time (clock ticks) */ 

comp t ac utime; /* User CPU time (clock ticks) */ 

comp t ac stime; /* System CPU time (clock ticks) */ 

comp t ac mem; /* Average memory usage (kilobytes) */ 

comp t ac io; /* Bytes read/written (unused) */ 

comp t ac rw; /* Blocks read/written (unused) */ 

comp t ac minflt; /* Minor page faults */ 

comp t ac majflt; /* Major page faults */ 

comp t ac swaps; /* Number of swaps (unused; Linux-specific) */ 
#define ACCT COMM 16 

char ac comm[ACCT COMM]; /* Command name */ 


h 

DI FÆ acct v3 结构 与 传统 Linux acct 结构 的 主要 差别 。 

e 增加 ac version 字段 。 访 字段 包含 本 类 型 账单 记录 的 版 本 号 。 对 于 acct v3 来 说 ， 总 
E Th 

e 增加 ac pid 和 ac ppid 字段 ， 分 别 包含 终止 进程 的 进程 ID 及 其 父 进 程 ID。 

e 字段 ac uid 和 ac gid 从 16 位 扩展 至 32 位 , 旨 在 容纳 Linux 2.4 所 引入 的 32 位 用 户 ID 
和 组 ID。 (传统 acct 文件 无 法 正确 记录 大 数值 的 用 户 和 组 ID 。) 

e 将 ac etime 字段 类 型 从 comp t 改 为 float， 意 在 能 够 记录 更 长 的 逝去 时 间 。 




















随 本 书 发 布 的 源 代 码 文 件 procexec/acct v3. view.c 中 提供 了 程序 清单 28-2 中 程序 基于 
v3 格式 的 新 版 本 。 


28.2 系统 调用 clone() 


类 似 于 fork0 和 vfork(, Linux 特有 的 系统 调用 clone0O 也 能 创建 一 个 狐 进 程 。 与 前 两 者 不 
同 的 是 ， 后 者 在 进程 创建 期 间 对 步 又 的 控制 更 为 精准 。clone0O 主 要 用 于 线程 库 的 实现 。 由 于 
cloneO 有 损 于 程序 的 可 移植 性 , 政 而 应 避免 在 应 用 程序 申 直接 使 用 ,之 所 以 在 这 里 讨论 cloneO, 
意 在 对 第 29 革 全 第 33 章 所 论述 的 POSIX 线程 有 所 铺 执 ,同时 也 利于 进一步 站 明 forkO 和 vfork 
的 操作 。 


#define GNU SOURCE 
dinclude «sched.h» 











int clone(int (*func) (void *), void *child stack, int flags, void *func avg, ... 
/* pid t *ptid, struct user desc */[s, pid t *ctid */ ); 


Returns process ID of child on success, or -1 on error 








如 同 forkO0， 由 cloneO 创 建 的 新 进程 几 近 于 父 进程 的 翻版 。 
但 与 fork0O 不 同 的 是 ， 克 隆 生 成 的 子 进程 继续 运行 时 不 以 调用 处 为 起 点 ， 转 而 去 调用 以 参 
数 func 所 指定 的 函数 ，func 叉 称 为 子 函数 (child function). WHT AAT func arg 
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指定 。 经 过 适当 转换 ， 子 函数 可 对 该 参数 的 含义 目 由 解读 ， 例如， 可 以 作为 整 型 值 CinO, 18 
可 视 为 指 问 结构 的 指针 。( 之 所 以 可 以 作为 指针 处 理 ， 是 因为 克隆 产生 的 子 进程 对 调用 进程 的 
内 存 既 可 获取 ， 也 可 共有 至 。) 


对 于 内 核 而 言 ，fork()、vforkO 以 及 clone0) 最 终 均 由 同一 函数 实现 (kernel/fork.c 中 的 
do forkO)。 在 这 一 层次 上 ，clone 与 fork 更 为 接近 : sys cloneQJf 7x func 和 func arg 参 
数 , 且 调用 后 sys_cloneO 在 子 进程 中 返回 的 方式 也 与 forkO 相 同 。 正 文 所 述 的 cloneO 是 由 glibc 
为 sys cloneOde f BS eZ. OR AERE Xo. glibc 针对 特定 染 构 的 汇编 源码 中 ， 
例如 sysdeps/unix/sysv/linux/i386/clone.S。) sys_clone() 在 子 进程 中 返回 之 后 ， 由 cloneO 发 起 
对 func 函数 的 调用 。 























X RA func 返回 (此 时 其 返回 值 即 为 进程 的 退出 状态 ) 或 是 调用 exit() (或 exit0)) 之 
后 ,克隆 产生 的 子 进 程 束 会 终止 。 照例 ， 父 进程 可 以 通过 wait(0) 一 类 函数 来 等 待 元 隆子 进程 。 

因为 元 隆 产 生 的 子 进 程 可 能 (类 似 vforkO) 共享 父 进程 的 内 存 ， 所 以 它 不 能 使 用 父 进程 
的 栈 。 相 反 ， 调 用 者 必须 分 配 一 块 大 小 适中 的 内 存 空间 供 子 进程 的 栈 使 用 ， 同 时 将 这 块 内 存 
的 指针 置 于 参数 child stack 中 。 在 大 多 数 便 件 染 构 中 ， 栈 空间 的 增长 方 同 是 癌 下 的 ， 所 以 参 
数 child stack hv 2438 Inl Pr) Bo A TESI reg ru o 




















d IU RDGEAR AJ GS cloneO 设 计 的 一 处 缺陷 。Interl IA-64 架构 束 提 供 了 一 球 经 
AUGE) vLEE API， 称 为 clone20。 该 系统 调用 对 了 于 进程 栈 范围 的 定义 方式 不 依赖 于 栈 的 增 
长 方向， 只 需要 捉 供 栈 的 起 始 地 址 以 及 大 小 即 可 。 详 情 请 参 疯 手册 页 。 




















函数 clone0 的 参数 flags 服务 于 双重 目的 。 首 先 ， 其 低 字 节 中 存放 痢 子 进程 的 终止 信号 
(terminateion signal )， 子 进程 退出 时 其 父 进 程 将 收 到 这 一 信号 。( 如 果 克 隆 产 生 的 子 进程 因 信 号 而 
终止 ， 父 进程 依然 会 收 到 SIGCHLD 信号 。) 该 字 节 也 可 能 为 0， 这 时 将 不 会 产生 任何 信号 。( 借 
助 于 Linux 特有 的 /proc/PID/stat 文件 , 可 以 判定 任何 进程 的 终止 信号 , 详情 请 参阅 proc(5) 手 册页 。) 




















对 于 forkO0 和 vforkO 而 言 ， 就 无 从 选择 终止 信号 ， 只 能 是 SIGCHLD。 


参数 flags 的 剩余 凶 市 则 存放 了 位 掩 码 ,， 用 于 控制 clone() 的 操作 。 表 28-2 对 这 些 位 掩 码 值 
进行 了 总 结 ，28.2.1 节 会 进一步 加 以 说 明 。 





表 28-2: clone() 参 数 flags 的 位 掩 码 值 





CLONE CHILD CLEARTID | 当 子 进程 调用 exec0 或 exitO0 时 ， 清 除 ctid (从 版 本 2.6 开始 ) 


父 、 子 进程 共享 打开 文件 描述 符 表 

父 、 子 进程 共享 与 文件 系统 相关 的 属性 

子 进程 共享 父 进程 的 VO 上 下 文 环境 (从 2.625 版 本 开始 ) 
子 进程 获得 新 的 System V IPC 命名 空间 (从 2.6.19 开始 ) 
子 进程 获得 新 的 网 络 命名 空间 (从 2.4.24 版 本 开始 ) 
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CLONE NEWNS 


进程 获得 新 的 进程 ID 命名 空间 (从 2.6.23 版 本 开始 ) 
将 子 进程 的 父 进程 置 为 调用 者 的 父 进 程 〈 从 2.4 版 本 开始 ) 

















标 志 


标志 已 废止 ， 仅 用 于 系统 启动 进程 (直至 2.4 版 本 为 止 ) 
如 果 正 在 跟踪 父 进程 ， 那 么 子 进 程 也 照 此 办 理 
、 子 进程 共享 对 信号 的 处 置 设置 
、 子 进程 共享 信号 量 还 原 (undo) f MA 2.6 版 本 开始 ) 
将 子 进程 置 于 父 进 程 所 属 的 线程 组 中 OA 2.4 开始 ) 
父 、 子 进程 共享 虚拟 内 存 

clone() 的 余下 参数 分 别 是 : ptid、tls 和 ctid。 这 些 参数 与 线程 的 实现 相关 ， 尤 其 是 在 针对 
线程 ID 以 及 线程 本 地 存储 的 使 用 方面 。28.2.1 节 在 说 明 flags MIHAI, SERIES 
EH. CE Linux 2.4 及 其 之 前 的 版 本 中 ，cloneO 疝 未 提供 上 述 3 个 参数 。 和 直到 Linux 2.6， 为 了 
支持 NPTL POSIX 的 线程 实现 ， 才 特意 加 入 了 这 些 参 数 。) 
































示例 程序 


程序 清单 28-3 是 使 用 cloneO 创 建 子 进程 的 一 个 简单 例子 。 主 程序 押 做 工作 如 下 。 

。 打开 一 个 文件 描述 符 〈( 打 开设 备 /dev/null)， 在 子 进程 中 将 其 关闭 @。 

。 五 所 做 有 命令 行 参 数 ， 则 将 cloneO 的 flags S% AN CLONE FILES), DES. FH 
程 共 圣 同一 文件 搬 述 侍 表 。 有 没有 提供 全 令 行 参 数 ， 则 将 flags 年 0。 

。 分 配 一 个 栈 供 子 进程 使 用 外 。 

e £i CHILD SIG JF 0 且 不 等 于 SIGCHLD@O， 则 忽略 之 ， 以 防 该 信号 将 子 进程 终止 。 之 
所 以 未 忽略 SIGCHLD， 是 因为 那 将 导致 无 法 收集 子 进程 的 退出 状态 。 

。 调用 clone0 创 建 子 进程 @)。 第 三 个 参数 (位 掩 人 码 ) 包含 了 终止 信和 号。 第 四 个 参数 
(func arg) 指定 了 之 前 打开 的 文件 手 述 符 〈 在 书 处 )。 

。 等 待 子 进程 终止 \D。 

。 和 尝试 调用 write0， 以 检查 文件 措 述 符 〈 在 凶 处 打开 ) 是 否 仍 处 于 打开 状态 包 。 程 序 报 
告 writeO 操 作 是 合成 功 。 

克隆 产生 的 子 进程 从 childFuncO0 处 开始 执行 ， 该 函数 (利用 参数 arg) 接收 由 主 程 序 打开 

的 文件 摘 述 符 《〈 在 包 处 )。 子 进程 关闭 文件 摘 述 符 并 调用 return UEO., 
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程序 清单 28-3: 使 用 clone() 创 建 子 进程 


procexec/t clone.c 


define GNU SOURCE 
include «signal.h» 
include «sys/wait.h» 
include «fcntl.h» 
include «sched.h» 
include "tlpi hdr.h" 


itifndef CHILD SIG 

#define CHILD SIG SIGUSR1 /* Signal to be generated on termination 
of cloned child */ 

ftendif 


static int /* Startup function for cloned child */ 
childFunc(void *arg) 


i 
(D if (close(*((int *) arg)) == -1) 
errExit("close"); 


return 0; /* Child terminates now */ 
} 
int 
main(int argc, char *argv[]) 
i 
const int STACK SIZE - 65536; /* Stack size for cloned child */ 
char *stack; /* Start of stack buffer */ 
char *stackTop; /* End of stack buffer */ 


int s, fd, flags; 


© fd = open("/dev/null", O RDWR); /* Child will close this fd */ 
if (fd == -1) 
errExit("open"); 
/* If argc > 1, child shares file descriptor table with parent */ 


e flags - (argc » 1) ? CLONE FILES : 0; 
/* Allocate stack for child */ 


© stack = malloc(STACK_SIZE); 
if (stack == NULL) 
errExit("malloc"); 
stackTop = stack + STACK SIZE; /* Assume stack grows downward */ 


/* Ignore CHILD SIG, in case it is a signal whose default is to 
terminate the process; but don't ignore SIGCHLD (which is ignored 
by default), since that would prevent the creation of a zombie. */ 


© if (CHILD SIG !- 0 8& CHILD SIG !- SIGCHLD) 
if (signal(CHILD SIG, SIG IGN) -- SIG ERR) 
errExit("signal"); 


/* Create child; child commences execution in childFunc() */ 


(6) if (clone(childFunc, stackTop, flags | CHILD SIG, (void *) &fd) -- -1) 
errExit("clone"); 
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/* Parent falls through to here. Wait for child; WCLONE is 
needed for child notifying with signal other than SIGCHLD. */ 


® if (waitpid(-1, NULL, (CHILD SIG != SIGCHLD) ? WCLONE : 0) == -1) 
errExit("waitpid"); 
printf("child has terminatedNn"); 


/* Did close() of file descriptor in child affect parent? */ 


(8) s - write(fd, "x", 1); 
if (s == -1 8& errno == EBADF) 
printf("file descriptor %d has been closedin", fd); 
else if (s -- -1) 
printf("write() on file descriptor Xd failed " 
"unexpectedly (%s)\n", fd, strerror(errno)); 
else 
printf("write() on file descriptor Xd succeededin", fd); 


exit(EXIT SUCCESS); 


procexec/t clone.c 





运行 程序 清单 28-3 中 程序 ， 没 有 命令 行 参数 时 输出 如 下 : 

$ ./t clone Doesn't use CLONE FILES 

child has terminated 

write() on file descriptor 3 succeeded Child's close() did not affect parent 


种 有 命令 行 参 数 运行 程序 时 ， 两 个 进程 将 共 至 文件 插 述 符 表 : 








$ ./t clone x Uses CLONE FILES 
child has terminated 
file descriptor 3 has been closed Child's close() affected parent 





随 本 书 发 布 的 源 代 码 文 件 procexec/demo clone.c 提供 一 个 更 为 复杂 的 cloneO HH. 


28.2.1 clone()f flags 参数 


cloneQff] flags Ze PT aZ C uk" PRYEO,  PIBPÉDSPETI—— (BJ. HR 
并 未 按 字 母 顺序 展开 ， 而 是 着 眼 于 促进 对 概念 理解 ， 从 实现 POSIX 线程 所 使 用 的 标志 开始 。 
从 线程 实现 的 角度 来 看 ， 下 文 多 次 出 现 的 “进程 ”一 词 都 可 用 “线程 ” 巷 代 。 

这 里 需要 指出 ， 某 种 意义 上 ， 对 术语 “线程 ”和 “进程 ”的 区 分 不 过 是 在 玩弄 文字 游 
戏 而 已 。 引 入 术语 “内 核 调 度 实 体 (KSE, kernel scheduling entity)”( 某 些 教 科 书 以 之 来 
指 代 内 核 调度 器 所 处 理 的 对 象 ) 的 概念 对 解释 这 一 点 会 有 所 助 益 。 实 际 上 ， 线 程 和 进程 都 
是 KSE， 只 是 与 其 他 KSE 之 间 对 属性 《虚拟 内 存 、 打 开 文 件 描述 符 、 对 信号 的 处 置 、 进 
程 ID 等 ) 的 共享 程度 不 同 。 针 对 线程 间 属 性 共享 的 方案 不 少 ，POSIX 线程 规范 只 是 其 中 
之 一 

















在 下 面 的 说 明 中 ， 有 时 会 提 及 Linux 平台 对 POSIX 线程 的 两 种 主要 实现 : 年 长 的 
LinuxThreads， 以 及 较为 年 轻 的 NPTL。 关 于 这 两 种 实现 的 更 多 细 市 可 以 在 33.5 市 找到 。 


从 内 核 2.6.16 开始 , Linux 提供 了 新 的 系统 调用 unshare0, 由 cloneO (或 forkO、vforkO) 
创建 的 子 进 程 利用 该 调用 可 以 撤销 对 某 些 属性 的 共享 ( 即 反 转 一 些 clone() flags 位 的 效果 )。 
详细 情况 请 参考 unshare(2) 手 册页 。 
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共享 文件 描述 符 表 : CLONE FILES 


如 果 指定 了 CLONE FILES 标志 ， 父 、 子 进程 会 共享 同一 个 打开 文件 描述 答 表 。 也 就 是 
说 ， 无 论 哪个 进程 对 文件 描述 符 的 分 配 和 释放 Copen), close), dupO. pipe), socketO ^5), 
都 会 影响 到 另 一 进程 。 如 果 未 设置 CLONE FILES, 那么 也 就 不 会 共享 文件 描述 符 表 ， 子 进程 
获取 的 是 父 进程 调用 cloneO 时 文件 摘 述 符 表 的 一 份 找 贝 。 这 些 插 述 符 副 本 与 其 父 进程 中 的 相 
应 描述 符 均 指向 相同 的 打开 文件 《和 forkO I. vforkO 的 情况 一 样 )。 

POSIX 线程 规范 要 求 进程 中 的 所 有 线程 共享 相同 的 打开 文件 描述 符 。 














共享 与 文件 系统 相关 的 信息 : CLONE FS 


如 果 指 定 了 CLONE FS 标志 ， 那 么 父 、 子 进程 将 共享 与 文件 系统 相关 的 信息 Cile system- 
related information): 权限 掩 码 (umask)、 根 目录 以 及 当前 工作 目录 。 也 就 是 说 ， 无 论 在 哪个 
进程 中 调用 umask 0、chdir0 或 者 chrootD， 都 将 影响 到 另 一 个 进程 。 如 末 未 设置 CLONE FS, 
那么 父 、 子 进程 对 此 类 信息 则 会 各 持 一 份 “与 fork0 和 vforkO 的 情况 相同 )。 

POSIX 线程 规范 要 求实 现 CLONE FS 标志 所 提供 的 属性 共享 。 








共享 对 信号 的 处 置 设 置 : CLONE SIGHAND 


如 果 设 置 了 CLONE SIGHAND， 那 么 父 、 子 进程 将 共 至 同一 个 信号 处 置 表 。 无 论 在 哪个 
进程 中 调用 sigaction) &k; signal0 来 改变 对 信号 处 置 的 设置 ， 都 会 影响 其 他 进程 对 信号 的 处 置 。 
右 未 设置 CLONE SIGHAND， 则 不 共享 对 信号 的 处 置 设置 ， 子 进程 只 是 获取 父 进 程 信 号 处 置 
表 的 一 份 副本 (如 同 fork0 和 vfork0)。CLONE SIGHAND 不 会 影响 a 到 进程 的 信号 掩 码 以 及 对 
TE (pending) 信号 的 设置 ， 父 子 进程 的 此 类 设置 是 绝 不 相同 的 。 从 Linux 2.6 开始 ， 如 果 设 
tlf CLONE SIGHAND， 束 必须 同时 设置 CLONE VM. 

POSIX 线程 规 沁 要 求 共 至 对 信和 与 的 处 置 设置 。 





























共享 父 进 程 的 虚拟 内 存 : CLONE VM 


如 果 设 置 了 7 了 CLONE VM 标志 ， 父 、 子 进程 会 共享 同一 份 虚 拟 内 存 页 《如 同 vfork0)。 无 论 
哪个 进程 更 新 了 内 存 ， 或 是 调用 了 mmap0、munmapO0， 夯 一 进程 同样 会 观察 到 这 些 变化 。 如 末 
未 设置 CLONE _ VM， 那么 子 进程 得 到 的 是 对 父 进 程 虚拟 内 存 的 找 贝 (如同 forkO )。 

共享 同一 虚拟 内 存 是 线程 的 关键 属性 之 一 ，POSIX 线程 标准 对 此 也 有 要 求 。 

















线程 组 : CLONE THREAD 

若 设置 了 CLONE THREAD， 则 会 将 子 进 程 置 于 父 进 程 的 线程 组 中 。 如 果 未 设置 该 标志 ， 
那么 会 将 子 进程 置 于 新 的 线程 组 中 。 

POSIX 标准 规定 , 进程 的 所 有 线程 共 圣 同一 进程 ID ( 即 每 个 线程 调用 getpid0 都 应 返回 相 
同 值 )，Linux 从 2.4 版 本 开始 引入 了 线程 组 (threads group)， 以 满足 这 一 需求 。 如 图 28-1 所 
示 ， 线 程 组 就 是 共享 同一 线程 组 标识 (TGID)〉(thread group identifier?) 的 一 组 KSE。 在 对 
CLONE THREAD 的 后 续 讨 论 中 ， 会 将 KSE 视 同 线程 看 待 。 

始 于 Linux2.4, getpidO0 所 返回 的 就 是 调用 者 的 TGID。 换言之 , TGID 和 进程 ID 是 一 回 事 。 
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LinuxThreads 曾 将 POSIX 线程 实现 为 共享 了 多 种 属性 (例如 ， 虚 拟 内 存 )、 进 程 ID 又 各 不 相 
同 的 进程 。 考 虑 到 兼容 性 因素 ， 即 便 是 在 当前 的 Linux 内 核 中 ，LinuxThreads 实现 也 未 提供 
CLONE_THREAD， 因 为 按 此 方式 实现 的 线程 束 可 以 继续 拥有 不 同 的 进程 D. 


[一 一 一 一 一 一 一 一 一 一 一 进程 ID 为 2001 的 进程 ———---------- 
| ! 线程 B 线程 C 线程 D 
PPID=1900 PPID=1900 PPID=1900 

| TGID-2001 TGID-2001 TGID-2001 

I TID-2001 TID=2002 TID=2003 TID=2004 
| 

1 MN 

| 

| 

| 


线程 组 首 线程 (TID 与 TGID 相同 ) 
28-1: 包含 4 个 线程 的 线程 组 


一 个 线程 组 内 的 每 个 线程 都 拥有 一 个 唯一 的 线程 标识 符 Cthread identifier, TID), H A 
PRAH. Linux 2.4 提供 了 一 个 新 的 系统 调用 gettid0， 线 程 可 通过 该 调用 来 获取 目 己 的 线 
FE ID (与 线程 调用 cloneO 时 的 返回 值 相 同 )。 线 程 ID 与 进程 ID 都 使 用 相同 的 数据 类 型 pid_t 
来 表示 。 线 程 ID 在 整个 系统 中 是 唯一 的 , 且 除 了 线程 担当 进程 中 线程 组 首 线程 的 情况 之 外 ， 
内 核能 够 保证 系统 中 不 会 出 现 线程 ID 与 进程 ID 相同 的 情况 。 

线程 组 中 首 个 线程 的 线程 ID 与 其 线程 组 ID 相同, 也 将 该 线程 称 之 为 线程 组 首 线程 (thread 
group leader). 


”此 处 讨论 的 线程 人 D 与 POSIX 线程 所 使 用 的 线程 ID (以 数据 类 型 pthread 表示) 不同。 
后 者 由 POSIX 线程 实现 〈 在 用 户 空间 ) 自行 生成 并 维护 。 


线程 组 中 的 所 有 线程 拥有 同一 父 进程 ID, 即 与 线程 组 首 线程 ID 相同 。 仅 当 线 程 组 中 的 所 
有 线程 都 终止 后 , 其 父 进 程 才 会 收 到 SIGCHLD 信号 (或 其 他 终止 信号 )。 这 些 行为 符合 POSIX 
线程 规范 的 要 求 。 

当 一 个 设置 了 CLONE THREAD 的 线程 终止 时 ， 并 没有 信和 号 会 发 大 给 该 线程 的 创建 者 〈《 即 调用 
cloneO 创 建 终 止 线程 的 线程 )。 相 应 的 ， 也 不 可 能 调用 wait 〈 或 类 似 函 数 ) 来 等 待 一 个 以 CLONE _ 
THREAD 标志 创建 的 线程 。 这 与 POSIX 的 要 求 一 致 。POSIX 线程 与 进程 不 同 , 不 能 使 用 waitO f. 
相反 ， 必 须 调用 pthread join0 来 加 入 。 为 检测 以 CLONE THREAD 标志 创建 的 线程 是 否 终止 ， 需要 
使 用 一 种 特殊 的 同步 原 语 一 一 futex (参考 下文 对 CLONE PARENT SETTID 标志 的 讨论 )。 

如 采 一 个 线程 组 中 的 任 一 线程 调用 了 exec0， 那 么 除了 首 线 程 乙 外 的 其 他 线程 都 会 终止 
(这 一 行为 也 符合 POSIX 线程 规范 的 要 求 )， 新 进程 将 在 首 线程 中 执行 。 换 言 之 ， 新 程序 中 
的 gettid0 调 用 将 会 返回 首 线程 的 线程 ID 。 调 用 execO0 期 间 ， 会 将 该 进程 发 送 给 其 父 进程 的 终 
止 信 号 重 置 为 SIGCHLD. 

如 果 线 程 组 中 的 某 个 线程 调用 fork0 或 vfork0 创 建 了 子 进程 , 那么 组 中 的 任何 线程 都 可 使 
用 wait0 或 类 似 函 数 来 监控 该 子 进程 。 

从 Linux2.6 开始 ， 如 果 设 置 了 CLONE THREAD， 同 时 也 必须 设置 CLONE SIGHAND。 这 
也 与 POSIX 线程 标准 的 深入 要 求 相 契 合 ， 详 细 内 容 可 参考 332 市 关于 POSIX 线程 与 信号 交 
互 的 相关 讨论 。( 内 核 针 对 CLONE THREAD 线程 组 的 信号 处 理 对 应 于 POSIX 标准 对 进程 中 
线程 如 何 处 理 信 号 的 规范 。) 
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线程 库 支 持 : CLONE PARENT SETTID. CLONE CHILD SETTID #0 CLONE CHILD - 
CLEARTID 


为 实现 POSIX 线程 ，Linux 2.6 提供 了 对 CLONE PARENT SETTID, CLONE CHILD- 
SETTID 和 CLONE CHILD CLEARTID 的 支持 。 这 些 标志 会 影响 clone0 对 参数 ptid 和 ctid 的 处 
JE, NPTL 的 线程 实现 使 用 了 CLONE CHILD SETTID 和 CLONE CHILD CLEARTID。 

jj à I CLONE PARENT SETTID, 内 核 会 将 子 线程 的 线程 ID 写 入 ptid 所 指 问 的 位 置 。 
在 对 父 进程 的 内 存 进 行 复制 之 前 ， 会 将 线程 ID 复制 到 ptid 所 指 位 置 。 这 也 意味 着 ， 即 使 没有 
设置 CLONE_VM， 父 、 子 进程 均 能 在 此 位 置 获 得 子 进程 的 线程 D。( 如 上 所 述 ， 创 建 POSIX 
线程 时 总 是 指定 了 CLONE_VM 标志 。) 

CLONE PARENT SETTID 之 所 以 存在 ， 意 在 为 线程 实现 获取 新 线程 ID 提供 一 种 可 徘 的 
手段 。 注 意 ， 通 过 cloneO 的 返回 值 并 不 足以 获取 新 线程 的 线程 ID. 

tid = clone(...); 

问题 在 于 ， 因 为 赋值 操作 只 能 在 clone0 返 回 后 才 会 发 生 ， 所 以 以 上 代 但 会 导致 各 种 竞争 
条 件 。 例 如 ， 假 设 新 线程 终止 ， 而 在 完成 对 dd 的 赋值 前 就 调用 了 终止 信号 的 处 理 器 程序 。 此 
时 ， 处 理 喜 程序 无 法 有 效 访问 td。( 在 线程 库 内 部 ， 可 能 会 将 tid 置 于 一 个 用 以 跟踪 所 有 线程 
状态 的 全 局 结构 中 。) 程序 通常 可 以 通过 直接 调用 clone() 来 规避 这 种 竞争 条 件 。 不 过 ， 线 程 库 
无 法 控制 其 调用 者 程序 的 行为 。 使 用 CLONE PARENT SETTID 可 以 保证 在 cloneQ3kR [ul Z Hif 
束 将 新 线程 的 ID 赋值 给 ptid 指针 ， 从 而 使 线程 库 避 免 了 这 种 范 争 条 件 。 

如 果 设 置 了 CLONE CHILD SETTID, 那么 cloneO 会 将 子 线程 的 线程 ID 写 入 指针 ctid 所 
指 问 的 位 置 。 对 ctid 的 设置 只 会 发 生 在 子 进程 的 内 存 中 ， 不 过 如 果 设 置 了 CLONE VM, 还 是 
会 影响 到 父 进程 。 虽 然 NPTL 并 不 需要 CLONE CHILD SETTID， 但 这 一 标识 还 是 能 给 其 他 
的 线程 库 实 现 市 来 灵活 性 。 

如 果 设 置 了 CLONE CHILD CLEARTID 标志 ,那么 clone0 会 在 子 进 程 终止 时 将 ctid 所 指 
回 的 内 存 内 容 清 零 。 

借助 于 参数 cad 所 提供 的 机 制 ( 稍 后 描述 )，NPTL 线程 实现 可 以 获得 线程 终止 的 通知 。 函 
数 pthread join0 正 需要 这 样 的 通知 ，POSIX 线程 利用 该 函数 来 等 待 另 一 线程 的 终止 。 

使 用 pthread createO 创 建 线程 时 ，NPTL 会 调用 clone0， 其 pid 和 ctid 均 指 问 同 一 位 置 。( 这 
下 是 NPTL 不 需要 CLONE CHILD SETTID 的 原因 所 在 。) 设置 了 CLONE PARENT SETTID 
标志 ， 就 会 以 新 的 线程 ID 对 该 位 置 进行 初始 化 。 当 子 进 程 终 止 ，ctid 遭 清除 时 ， 进 程 中 的 所 
有 线程 都 会 目睹 这 一 变化 (因为 设置 7 了 CLONE VMD. 

内 核 将 ctid 指 问 的 位 置 视 同 futex 一 一 一 种 有 效 的 同步 机 制 来 处 理 。( 关 于 futex 的 更 多 内 
容 请 参考 futex(2) 手 册页 。) 执行 系统 调用 futex0 来 监测 cid 所 指 位 置 的 内 容 变 化 ， 束 可 获得 
线程 终止 的 通知 。( 这 正 是 pthread join0 所 做 的 幕后 工作 。) 内 核 在 清除 ctid 的 同时 ， 也 会 唤 
桓 那 些 调 用 了 futex0 来 监控 该 地 址 内 容 变化 的 任 一 内 核 调 度 实 体 〈 即 线程 )。( 在 POSIX 线程 
的 层面 上 ， 这 会 导致 pthread join0 调 用 去 解除 阻塞 。) 


线程 本 地 存储 : CLONE SETTLS 


WRA J CLONE _ SETTLS， 那 么 参数 ts 所 指向 的 user. desc 结构 会 对 该 线程 所 使 用 的 
线程 本 地 存储 缓冲 区 加 以 描述 。 为 了 支持 NPTL 对 线程 本 地 存储 的 实现 ，Linux 2.6 开始 加 入 
这 一 标志 (31.4 F). AT user desc 结构 的 详情 ， 可 参考 2.6 内 核 代 码 中 对 该 结构 的 定义 和 使 
H, UK set thread area(2) 手 册页 。 
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共享 System V 信号 量 的 撤销 值 : CLONE SYSVSEM 


WRH J CLONE _SYSVSEM， 父 、 了 于 进程 将 共计 同一 个 System V fii^ edi Xe (47.8 
广 )。 如 来 未 设 敬 该 标 忘 ， 父 、 子 进程 名目 持 有 取消 列表 ， 且 子 进程 的 列表 初始 为 空 。 





内 核 从 2.6 有 版 本 开始 文 持 CLONE SYSVSEM, if POSIX 线程 规范 所 要 求 的 共 且 语义 。 


每 进程 挂 载 命 名 空间 : CLONE NEWNS 


Linux 从 内 核 2.4.19 开始 支持 每 进程 挂 载 (mount) 命名 空间 的 概念 。 挂 载 命 名 空间 是 由 
对 mount0 和 umountO 的 调用 来 维护 的 一 组 挂 载 点 。 挂 载 命 名 空间 会 影响 将 路 径 名 解析 为 真实 文 
件 的 过 程 ， 也 会 波及 诸如 chdir0 和 chroot0 之 类 的 系统 调用 。 

默认 情况 下 ， 父 、 子 进程 共享 同一 挂 载 命名 宇 间 ， 一 个 进程 调用 mount0 或 umountO 对 命 
名 空间 所 做 的 改变 , 也 会 为 其 他 进程 所 见 ( 如 同 fork0 和 vfork0O )。 特 权 级 (CAP_ SYS. ADMIN ) 
进程 可 以 指定 CONE NEWNS 标志 ， 以 便 子 进程 去 获取 对 父 进程 挂 载 命 名 空间 的 一 份 拷贝 。 
这 样 一 来 ， 进 程 对 命名 空间 的 修改 就 不 会 为 其 他 进程 所 见 。( 早 期 的 2.4.x 内 核 以 及 更 老 的 版 
本 认为 ， 系 统 的 所 有 进程 共享 同一 个 系统 级 挂 载 命 名 空间 。) 

可 以 利用 每 进程 挂 载 命 名 空间 来 创建 类 似 于 chroot0 监 禁区 (jail) 的 环境 , 而 且 更 加 安全 、 
灵活 ， 例 如 ， 可 以 问 遭 到 监禁 的 进程 提供 一 个 挂 载 点 ， 而 该 点 对 于 其 他 进程 是 不 可 见 的 。 设 
置 虚拟 服务 器 环境 时 也 会 用 到 挂 载 命 名 空间 。 

在 同一 clone0 调 用 中 同时 指定 CLONE. NEWNS 和 CLONE FS 纯 属 无 聊 ， 也 不 允许 这 样 做 。 

















将 子 进程 的 父 进程 置 为 调用 者 的 父 进程 : CLONE PARENT 

默认 情况 下 ， 当 调用 cloneO 创 建新 进程 时 ， 新 进程 的 父 进 程 〈 由 getppid0 返 回 ) Wiz Vi 
用 clone0 的 进程 《 同 fork0 和 vforkO)。 如 果 设 置 了 了 CLONE _ PARENT， 那 么 调用 者 的 父 进程 
就 成 为 子 进程 的 父 进程 。 换 言 之 ，CLONE PARENT 等 同 于 这 样 的 设置 : 子 进程 .PPID = 调用 
者 .PPID。( 未 设置 CLONE PARENT 的 默认 情况 是 : 子 进 程 .PPID = 调用 者 .PID 。) 子 进程 终 
止 时 会 癌 父 进程 〈 子 进程 .PPID) 发 出 信和 号 。 

Linux 从 版 本 2.4 之 后 开始 文 持 CLONE PARENT. Ho ERES POSIX 线程 的 实现 所 
供 支 持 , 不 过 内 核 2.6 找 出 一 种 无 需 此 标志 而 支持 线程 (之 前 所 述 的 CLONE_THREAD ) 的 新 方法 。 





将 子 进程 的 进程 ID 置 为 与 父 进程 相同 : CLONE PID (已 废止 

如 果 设 置 了 CLONE PID， 那 么 子 进程 束 拥 有 与 父 进 程 相同 的 进程 DD。 奋 未 设置 此 标志 ， 
那么 父 、 子 进程 的 进程 D 则 不 同 〈 如 同 forkO0 和 vfork0)。 只 有 系统 引导 进程 (进程 ID 为 0) 
可 能 会 使 用 该 标志 ， 用 于 初始 化 多 处 理 颖 系统 。 

CLONE PID 的 设计 初衷 并 非 供用 户 级 应 用 使 用 。Linux 2.6 已 将 其 移 除 ， 并 以 CLONE I 
DLETASK 取而代之 ， 将 新 进程 的 ID 置 为 0。CLONE IDLETASK 仅 供 内 核 内 部 使 用 《〈 即 使 
在 cloneO 的 参数 中 指定 ， 系 统 也 会 对 其 视而不见 )。 使 用 此 标志 可 为 每 颗 CPU Ge E mas 
闲 进 程 〈idle process)， 在 多 处 理 器 系统 中 可 能 存在 有 多 个 实例 。 




















进程 跟踪 : CLONE PTRACE 和 CLONE UNTRACED 


如 果 设 置 了 CLONE PTRACE 日 正在 跟踪 调用 进程 ， 那 么 也 会 对 子 进程 进行 跟踪 。 关 于 进 
程 跟踪 (由 调试 右 和 strace 命令 使 用 ) 的 细节 ， 请 参考 ptrace(2) 手 册页 。 
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从 内 核 2.6 开始 , 即 可 设置 CLONE UNTRACED 标志 , 这 也 意味 着 跟踪 进程 不 能 强制 将 其 
子 进程 设置 为 CLONE PTRACE. CLONE UNTRACED 标志 供 内 核 创 建 内 核 线程 时 内 部 使 用 。 





挂 起 〈suspending) 父 进程 直至 子 进程 退出 或 调用 exec(): CLONE VFORK 
如 果 设 置 了 CLONE VFORK, 父 进程 将 一 直 挂 起 , 直至 子 进程 调用 exec0 或 exit0 来 释放 
虚拟 内 存 资源 (如 同 vtorkO ) 为 止 。 








支持 容器 (container) 的 clone() 新 标志 


Linux 从 2.6.19 版 本 开始 给 clone0 加 入 了 一 些 新 标志 : CLONE IO, CLONE NEWIPC, 
CLONET NEWNET、CLONE NEWPID、CLONE NEWUSER 和 CLONE NEWUTS。( 参 考 
clone(2) 手 册页 可 获得 有 关 这 些 标志 的 详细 说 明 。) 
这 些 标志 中 的 大 部 分 都 是 为 容器 (container) 的 实现 提供 支持 ([Bhattiprolu et al., 2008])。 
容器 是 轻 量 级 虚拟 化 的 一 种 形式 ， 将 运行 于 同一 内 核 的 进程 组 从 环 蒂 上 彼此 隔离 ， 如 同 运 行 
在 不 同 机 器 上 一 样 。 容 器 可 以 散人 套 ， 一 个 容器 可 以 包含 男 一 个 容器 。 与 完全 虚拟 化 将 每 个 虚 
拟 环 境 运 行 于 不 同 内 核 的 手法 相 比 ， 容 器 的 运作 方式 可 谓 是 大 相 径 性 。 
为 实现 容 姻 ， 内 核 开 发 者 不 得 不 为 内 核 中 的 各 种 全 局 系统 资源 提供 一 个 则 接 层 ， 以 便 每 
个 容器 能 为 这 些 资 源 提供 各 目的 实例 。 这 些 资 源 包括 : 进程 DD、 网 络 协 议 栈 、uname0 返 回 的 
ID, System V IPC 对 象 、 用 户 和 组 ID 命名 空间 …… 
容器 的 用 途 很 多 ， 如 下 上 所 示 。 
e 控制 系统 的 资源 分 配 , 诸如 网 络 带宽 或 CPU 时 间 ( 例 如， 授予 容器 某 甲 75% 的 CPU 时 
D], ARE 2596). 

。 在 单 台 主机 上 提供 多 个 轻 量 级 虚拟 服务 器 。 

e 谎 结 东 个 容器 ， 以 此 来 排 起 该 容器 中 所有 进程 的 执行 ， 并 于 稍 后 重 局 ， 可 能 是 在 迁移 
到 另 一 台 机 器 之 后 。 

。 人 允许 转 储 应 用 程序 的 状态 信息， 记录 于 检查 点 〈checkpointed)， 并 于 之 后 再 行 恢 复 
(或 许 在 应 用 程序 骨 省 之 后 ， 亦 或 是 计划 内 、 外 的 系统 停机 后 )， 从 检查 点 开始 继续 
运行 。 






































clone() 标 志 的 使 用 


大 体 上 说 来 , forkO 相当 于 仪 设置 flags 为 SIGCHLD 的 cloneO 调 用 ， 而 vforkO 则 对 应 于 设 


置 如 下 flags 的 cloneQ: 
CLONE VM | CLONE VFORK | SIGCHLD 





H 2.3.3 版 本 以 来 ， 作 为 NPTL 线程 实现 的 一 部 分 ，glibc Pro GET] ER 2C forko 
了 内 核 的 forkO 系 统 调用 ， 转 而 调用 了 clone()。 该 封装 函数 会 去 调用 任何 由 调用 者 通过 
pthread atfork() (2:25 33.3 节 ) 所 设置 的 fork 处 理 器 程序 。 





LinuxThreads 线程 实现 使 用 cloneO〈 仅 用 到 前 4 个 参数 ) 来 创建 线程 ,对 flags 的 设置 如 下 : 
CLONE VM | CLONE FILES | CLONE FS | CLONE SIGHAND 
NPTL 线程 实现 则 使 用 cloneO. 〈 使 用 了 所 有 7 个 参数 ) 来 创建 线程 ， 对 flags 的 设置 如 下 : 


CLONE VM | CLONE FILES | CLONE FS | CLONE SIGHAND | CLONE THREAD | 
CLONE SETTLS | CLONE PARENT SETTID | CLONE CHILD CLEARTID | CLONE SYSVSEM 
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28.2.2” 因 克隆 生成 的 子 进程 而 对 waitpid() 进 行 的 扩展 
为 等 竺 由 clone0 产 生 的 子 进 程 ，waitpidO0、wait30 和 wait4 0 Jf 41460322 options 可 以 包 
含 如 下 附加 〈Linux FA) fü. 


J WCLONE 

一 经 设置 ， 只 会 等 待 克 隆子 进程 。 如 未 设置 ， 只 会 等 待 非 克隆 子 进程 。 在 这 种 情况 下 ， 
克隆 子 进程 终止 时 发 送 给 其 父 进程 的 信号 并 非 SIGCHLD。 如 果 同 时 还 指定 了 WALL. IA 
将 忽略 WCLONE. 








”WALL ( 自 Linux2.4 之 后 ) 
等 每 所 有 子 进 程 ， 无 论 类 型 (元 隆 、 非 元 隆 通 吃 )。 


. WNOTHREAD (B Linux2.4 之 后 ) 
默认 情况 下 ,等待 (wait) 基调 用 押 等 竺 的 子 进程 ， 其 父 进程 的 范围 过 及 与 调用 者 隶属 同 
一 线程 组 的 任何 进程 。 指 定 _WNOTHREAD 标志 则 限制 调用 者 只 能 等 竺 自己 的 子 进程 。 
waitid() 4^ BE fH]. XR oss o 























28.3 ”进程 的 创建 速度 


K 28-3 对 采用 不 同方 法 创建 进程 的 速度 进行 了 比较 。 测 试 程序 在 循环 中 反复 创建 子 进程 
并 等 每 子 进程 终止 ， 从 而 获得 了 这 一 结 来 。 比 较 过 程 中 使 用 了 3 种 不 同 大 小 的 进程 内 存 ， 如 
表 中 虚拟 内 存 总 量 (total virtual memory) 值 所 示 。 对 不 同 大 小 内 存 的 模拟 ， 依 赖 于 程序 计时 
之 前 在 堆 中 分 配 (malloc0) 的 额外 内 存 。 




















K 28-3 中 的 进程 大 小 (虚拟 内 存 总 量 ) 取 自 命令 ps -o“pid vsz cmd” 输 出 的 VSZ fü. 


表 28-3: 使 用 fork()、vforkO 和 clone0 创 建 10 万 个 进程 所 需 的 时 间 
虚拟 内 存 总 量 


时 间 ( 秒 ) 
12 


126.93 
4135 
(52.55) 


76 
35 


时 间 ( 秒 ) 时 间 ( 秒 ) 
20.38 
(8.98) 


22:27 : 
fork() 4544 
(7.99) ; 
3.52 3.55 3.53 
vfork() 28955 28621 28810 
(2.49) (2.50) (2.51) 
2.97 2.98 2.03 
clone() 34333 34217 34688 
(2.14) (2.13) (2.10) 
135.72 146.15 260.34 
fork) + exec) 764 719 4 
(12.39) (16.69) (61.86) 
forkO 0 107.36 107.81 omi 107.97 
vfork() + exec 
(6.277) (6.35) (6.38) 
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K 28-3 对 于 每 种 进程 大 小 都 提供 了 两 类 统计 数据 。 

e 第 1 项 统计 包含 两 种 度量 时 间 。 以 执行 10 万 次 进程 创建 期 间 所 逝去 的 〈 实 际 ) 时 间 为 主 
〈 较 大 值 )， 以 父 进程 所 消耗 的 CPU 时 间 〈 括 号 内 的 值 ) 为 辅 。 由 于 测试 环境 并 无 其 他 
负载 ， 两 者 之 差 应 是 测试 期 间 创 建 子 进 程 所 消耗 的 时 间 总 量 。 

e 第 2 项 数据 显示 每 (实际 ) 秒 创 建 的 进程 数 ， 即 创建 速率 ， 取 各 种 情况 下 运行 20 次 

的 平均 值 。 实 验 基于 x86-32 系统 ， 内 核 版 本 为 2.6.27。 

前 3 行 针 对 的 是 简单 的 进程 创建 〈 子 进程 不 运行 新 程序 )。 子 进程 在 创建 后 立即 退出 ， 父 
进程 等 待 子 进程 终止 后 再 去 创建 下 一 个 子 进程 。 

第 1 行 取 目 系统 调用 fork()。 由 数据 可 知 ， 进 程 所 占 内 存 越 大 ，fork0 所 需 时 间 也 束 越 长 。 
额外 时 间 花 在 了 为 子 进程 复制 那些 逐渐 变 大 的 页 表 ， 以 及 将 数据 段 、 堆 段 以 及 栈 段 的 页 记录 
标记 为 只 读 的 工作 上 。 因 为 子 进程 并 未 修改 数据 段 或 栈 段 ， 所 以 也 没有 对 页 (page) 复制 。 

"B 2 行 取 目 vfork0。 可 以 看 出 ， 尽 管 进程 大 小 在 增加 ， 但 所 用 时 间 傈 持 不 变 ， 因 为 调用 
vforkO 时 并 未 复制 页 表 或 页 ， 调 用 进程 的 虚拟 内 存 大 小 并 未 造成 影响 。fork0 和 vfork() 在 时 间 
统计 上 的 产值 就 是 复制 进程 页 表 所 需 的 时 间 总 量 。 


K 28-3 中 vforkO0 和 clone0O 的 各 目 数 据 在 不同 的 进程 内 存 大 小 下 。 之 所 以 存在 微小 的 磊 
异 ， 要 归 因 于 采样 误 兰 以 及 调度 的 变化 。 即 使 创建 300MB 大 小 的 进程 ， 两 个 系统 调用 的 时 
间 仍 将 你 持 不 变 。 


第 3 行 数据 的 统计 信息 来 自 对 clone0 的 调用 ， 所 使 用 的 标志 如 下 : 

CLONE VM | CLONE VFORK | CLONE FS | CLONE SIGHAND | CLONE FILES 

前 两 个 标志 模拟 vforkO 的 行为 。 剩 余 的 标志 则 要 求 父 、 子 进程 应 当 共 享 文件 系统 属性 文 
件 权 限 掩 码 umask)、 根 目录 和 当前 工作 目录 ， 信 和 号 处 年 表 以 及 打开 文件 描述 符 表 。clone0) 
和 vfork0O 之 间 的 数据 其 值 则 代表 了 vfork0 将 这 些 信息 拷贝 到 子 进程 的 少量 额外 工作 。 找 贝 文 
件 系 统 属性 和 信号 处 置 表 的 成 本 古 固定 的 。 不 过 ， 找 贝 打 开 文 件 搬 述 符 表 的 开销 则 取决 于 插 
述 符 数量 。 例 如 : 父 进 程 打 开 100 个 文件 ，vfork0 的 实际 时 间 ( 表 中 第 1 列 ) 会 从 3.52 fnm 
至 5.04 秒 ， 但 不 会 影响 clone0 所 需要 的 时 间 。 


对 cloneO 的 计时 针对 的 是 glibe 库 的 封装 函数 clone), WIA IH sys cloneO. 5A 
测试 “在 此 她 不 一 一 列 出 ) 对 sys cloneOsl cloneO( 以 子 函 数 调 用 并 立即 退出 ) 做 了 比较 ， 
实验 结果 表明 ， 时 间 上 的 差异 可 以 忽略 不 计 。 


fork() I vforkO 之 间 的 差别 非常 明显 ， 但 仍 需 要 注意 以 下 几 点 。 

e 最 后 一 列 数据 表明 , 在 大 进程 情况 下 ,vfork0 要 比 forkO 快 逾 30 倍 。 而 针对 羡 通 进程 ， 
则 会 近乎 于 表 中 前 两 列 的 数据 。 

e 因为 进程 的 创建 时 间 往 往 比 exec(0) 的 执行 时 间 要 少 得 多 ， 所 以 如 果 随 后 接着 执行 exec()， 
那么 两 者 间 的 差异 也 就 不 再 明显 。 表 28-3 的 最 后 两 行 数据 说 明了 这 一 点 ， 其 中 的 每 个 
子 进 程 都 去 调用 exec0， 而 非 直 接 退 出 。 程 序 执行 的 是 true 命令 (/bin/true， 选 择 该 程序 
的 原因 是 因为 它 不 产生 任何 输出 )。 这 时 ，forkO0 和 vforkO 之 间 的 相对 差距 就 小 了 许多 。 


事实 上 ， 表 28-3 中 所 示 数 据 并 未 揭示 execO 的 全 部 开销 ， 因 为 测试 程序 的 每 个 循环 中 子 进 
程 均 执 行 同 一 程序 。 根 本 区 未 计 入 把 程序 文件 读 入 内 存 的 磁盘 VO 开销 ， 因 为 第 一 次 运行 exec) 
时 婚 会 将 程序 该 入 内 核 缓冲 区 ， 并 一 直 保 存在 那里 。 如 末 测 试 每 次 循环 执行 的 程序 不 同 《〈 例 如 ， 
复制 同一 程序 ， 并 以 不 同文 件 名 命名 )， 那 么 应 该 可 以 观察 到 execO 的 开销 要 大 出 许多 。 
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28.4 exec() 和 fork() 对 进程 属性 的 " 


进程 有 多 种 属性 ， 其 中 一 部 分 已 经 在 前 面 几 章 有 所 说 明 ， 后 续 章节 将 讨论 其 他 一 些 属 性 。 
关于 这 些 属 性 ， 存 在 两 个 问题 。 

o 当 进 程 执行 exec0 时 ， 这 些 属性 将 发 生 怎 样 的 变化 ? 

e "AAT forkO 时 ， 子 进程 会 继承 哪些 属性 ? 

X 28-4 是 对 这 些 问 题 的 回答 。execO 列 注 明 ， 调 用 execO 期 间 哪 些 属性 得 以 保存 。fork0 
列 则 表明 调用 fork0 之 后 子 进程 继承 ， 或 (有 时 是 ) 共享 了 哪些 属性 。 除 了 标注 为 Linux 特有 
的 属性 之 外 ， 列 出 的 所 有 属性 均 获 得 了 标准 UNIX 实现 的 文 持 ， 调 用 exec0 和 forko HHX E 
们 的 处 理 也 都 符合 SUSv3 规范 。 


K 28-4: exec() 和 fork() 对 进程 属性 的 影响 


AREE, M 
duis s [B] 
文本 段 |a ”| 共享 | 子 进 程 与 父 进程 共享 文本 自 
BRE 8 | 是 | PRIUS; allocaO. longjmpO. siglongjmpO 
rr fean e ea re EET aR 


putenv(). setenv); 直接 修改 environ。execle0 和 execve() 
Lx Lx ra 会 对 其 改写 ， 其 他 execO 调 用 则 会 加 以 保护 


oou | mmapO. munmap. 跨越 forkOXEEz, HASTIS MAP NORES 
内 存 映 射 人 ERVE 标志 得 以 继承 。 带 有 madvise (MADV_ DONTFORK) 
标志 的 映射 则 不 会 跨 forkO 27K 


程 标识 和 凭证 


E 
w» E qe p —— 





























实际 ID setuid()、setgid()， 以 及 相关 调用 








有 效 和 保存 设置 (saved WER setuid()、setgid()， 以 及 相关 调用 。 第 9 章 解 释 了 execO 
set) ID uM Es 是 如 何 影响 这 些 ID 的 


补充 组 ID setgroups(). initgroups() 


文件 、 文 件 IO 和 目录 


open()、close()、dupO、pipe()、socket0 等 。 文 件 搬 述 和 从 
在 跨越 execO 调 用 的 过 程 中 得 以 保存 , 除非 对 其 设置 了 执 
行 时 关闭 (close-on-exec) 标志 。 父 、 子 进程 中 的 描述 从 
指 回 相同 的 打开 文件 描述 ， 参 考 5.4 市 


执行 时 关闭 (close-on- | 是 (如 果 | a 
exec) 标志 关闭 ) 


i " lseek()、 read(). write(). readv(). writev(). 、 子 进程 共 
XTHRE 享 文件 偏 移 





打开 文件 描述 符 见 注释 
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文件 、 文 件 IO fH E 





AP Sg FO HE EE ` 状 太 
打开 文件 状态 标志 共用 fcnt1(F_SETFL)。 父 、 子 进程 共 至 打开 文件 状态 





aio read()、aio write() 以 及 相关 调用 。 调 用 execO 期 间 ， 
会 取消 尚未 完成 的 操作 

opendir()、readdir()。SUSv3 规定 ， 子 进程 获得 父 进 程 目 
录 流 的 一 份 副本 ， 不 过 这 些 副 本 可 以 《也 可 以 不 ) 共享 
目录 流 的 位 置 。Linux 系统 不 共享 目录 流 的 位 置 


chroot() 





个、 
H 





异步 IO 操作 见 注 释 





l H 








文件 系统 


当前 工作 目录 





2 前 E 
根 目录 
文件 模式 创建 掩 码 

i 


A] 
+ 
信 


"rr 
"Fr. 











signal(). sigaction(). "Ef Ab Ei V ELA TA EX LS HJ fei TE 
执行 execO 期 间 保 持 不 变 ; 已 捕获 的 信号 会 恢复 为 的 认 处 
He. 275 21508 


a E; sigprocmask(). sigaction() 


fi EB; raise). killO. sigqueue() 


是 sigaltstack() 








JURE 





HE (pending) 信和 号 


EA 
备 选 信号 栈 > 


"Nt. 


"rn 


定时 器 

间隔 定时 器 

FH alarmO KEETA 
POSIX 定时 器 
POSIX 线程 











5 timer create() / HH X s] H 


见 注释 | forkO 调 用 期 间 ， 子 进程 只 会 复制 调用 线程 
exec0 之 后 ， 将 可 撤销 类 型 和 状态 分 别 重 置 为 PITHREAD 
CANCEL ENABLE 和 PIHREAD CANCEL DEFERRED 





Mii 
"m 











Ili 


"lE 


线程 可 撤销 状态 与 闫 型 








关于 调用 fork0 期 间 对 互 斥 量 以 及 其 他 线程 资源 的 处 理 细 
Bu 24 333 市 


优先 级 与 调度 





互 斥 量 与 条 件 变量 B JE 





nice fH 
调度 策略 及 优先 级 
资源 与 CPU 时 间 
资源 限制 
进程 和 子 进 程 的 CPU 
时 间 

资源 使 用 量 


F T 


nice(). setpriority() 


sched setscheduler(). sched setparam() 


n 由 timesQJA [uH] 


T 由 getrusageQ?A [HI 
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Wi "F 


UI 


BARESAD, NUR 
shm o 


mdq_openO 及 其 相关 调用 。 父 、 子 进程 的 描述 符 都 指 四 同 
POSIX 消息 队列 A 打开 消息 队列 描述 。 子 进 往 并 不 继承 父 进程 的 消息 通 
知 注册 信息 
e: F sem_open() 及 其 相关 调用 。 子 进程 与 父 进 程 共 圣 对 相同 信 


sem_init() 及 其 相关 调用 。 Ln 至 内 存 区 域 ， 
见 注 释 | 那么 子 进程 与 父 进程 共 至 信和 与 量 ; 否则 ， 子 进程 拥有 属于 
目 己 的 信和 号 量 拷贝 


Dock. TAERE ASCE REIER II cU 


" T fent. ue MUR MESE 符 标 记 为 执 
sen Ir] y3c sex a 


杂项 



















































































POSIX 未 命名 信和 号 f 











setlocale(). fEJj C 运行 时 初始 化 的 一 部 分 ， 执 行 新 程序 


地 区 设 首 Hi RH setlocale(LC_ALL，"C") 的 等 效 函数 











浮 点 环境 





Linux 特有 


setfsuid0、setfsgidO0。 一 旦 相应 的 有 效 ID 发 生变 化 ， 那 
J "E 4 cte ID 也 会 随 之 改变 
l — timerfd create()， 子 进程 继承 的 文件 描述 从 与 父 进程 指 问 


能 capset()。 执 行 exec0 期 间 对 能 力 的 处 理 一 如 39.5 节 所 述 


LETS Crm 


能 力 安全 位 (securebits) 见 注释 执行 execO 期 间 ， usd 有 的 安全 位 标志 ， SECBIT 
标志 i KEEP CAPS 除外 ， 总 是 会 清除 该 标志 


CPU Sl Caffinity) sh sched. setaffinity() 


























fcntl (F_SETLEASE)。 子 进程 从 父 进 程 处 继承 对 相同 租 





约 的 引用 
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- ERRARE, MUN 


Linux 特有 
目录 变更 通知 





exec(0 执 行 期 间 会 设置 PR SET DUMPABLE 标志 ， 执 行 
设置 用 户 或 组 ID 程序 的 情况 除外 ， 此 时 将 清除 该 标志 








28.5 人 


当 打 开 进 程 记 账 功能 时 ， 内 核 会 在 系统 中 每 一 进程 终止 时 将 其 账单 记录 写 入 一 个 文件 。 
该 记录 包含 进程 使 用 资源 的 统计 数据 。 

如 同 函数 fork(), Linux 特有 的 cloneO 系 统 调 用 也 会 创建 一 个 新 进程 ， 但 其 对 父子 间 的 共 
享 属 性 有 更 为 精确 的 控制 。 该 系统 调用 主要 用 于 线程 库 的 实现 。 

本 章 对 forkO0、vforkO0 和 cloneO 的 进程 创建 速度 做 了 比较 。 尽 管 vfork() 要 快 于 forkO, fH 
较 之 于 子 进 程 随 后 调用 execO 所 耗费 的 时 间 ， 二 者 间 的 时 间 差 异 也 束 微 不 足 道 了 。 

forkO 创 建 的 子 进程 会 从 其 父 进程 处 继承 〈 有 时 是 共享 ) 某 些 进程 属性 的 副本 ， 而 对 其 他 
进程 属性 则 不 做 继承 。 例 如 ， 子 进程 继承 了 父 进程 文件 描述 符 表 和 信和 号 处 置 的 副本 ， 但 并 不 
继承 父 进程 的 间 隅 定时 堪 、 记 录 锁 或 是 挂 起 信号 集合 。 相 应 地 ， 进 程 执 行 execO0 时 ， 某 些 进 程 
属性 保持 不 变 ， 而 会 将 其 他 属性 重 置 为 缺 省 值 。 例 如 ， 进 程 ID 保持 不 变 ， 文 件 描述 符 保 持 打 
开 《 除 非 设 置 了 执行 时 关闭 标志 )， 间 隔 定 时 器 得 以 保存 ， 挂 起 信号 依然 挂 起 ， 不 过 会 将 对 已 
处 理 信和 号 的 处 置 重 置 为 默认 设置 ， 同 时 与 共享 内 存 段 “ 脱 钧 ” 


更 多 信息 


请 参考 24.6 市 列 出 的 更 多 信息 来 源 。[Frisch, 2002] 第 17 章 描述 了 对 进程 记 账 的 管理 ， 以 
及 不 同 UNIX 实现 之 间 的 差异 。[Bovert & Vesati, 2005] 介 绍 了 系统 调用 cloneO 的 实现 。 






























































28.6 ”练习 


28-1. 编写 一 程序 ， 观 察 fork0 和 vfork() 系 统 调用 在 读者 系统 中 的 速度 。 要 求 每 个 子 进程 
必须 立即 退出 ， 而 父 进程 应 在 创建 下 一 个 子 进程 之 前 调用 wait0， 等 待 当前 子 进程 
退出 。 将 两 个 系统 调用 之 间 的 差别 与 表 28-3 相 比较 。shell 内 建 命令 time 可 用 来 测 
量程 序 的 执行 时 间 。 
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线程 : 介绍 


本 章 及 随后 几 章 将 讨论 POSIX 线程 (thread), JKEN Pthreads。 鉴 于 Pthreads 范围 极 广 ， 
本 书 无 意 涵盖 其 所 有 API。 关 于 线程 的 深入 信息 ， 本 章 会 在 结尾 处 列 出 其 来 源 。 

后 续 各 草 将 主要 描述 Pthreads API 所 规定 的 标准 行为 。33.5 市 则 会 探讨 Linux 的 两 种 主流 
线程 实现 LinuxThreads 和 Native POSIX Threads Library (NPTL ) 一 一 与 线程 标准 间 的 出 入 。 

本 章 会 对 线程 操作 加 以 概述 ， 随 之 将 述 及 线程 的 创建 和 销毁 过 程 。 此 外 ， 在 应 用 程序 设 
计 中 ， 是 选择 多 线程 还 是 多 进程 方式 ? 本章 将 在 最 后 讨论 影响 这 一 选择 的 因素 。 























29.1 概述 


与 进程 (process) 类 似 ， 线 程 (thread〉 是 允许 应 用 程序 并 发 执行 多 个 任务 的 一 种 机 制 。 
如 图 29-1 所 示 ， 一 个 进程 可 以 包含 多 个 线程 。 同 一 程序 中 的 所 有 线程 均 会 独立 执行 相同 程序 ， 
且 共 孚 同一 份 全 局 内 存 区 域 ， 其 中 包括 初始 化 数据 段 (initialized data)、 未 初始 化 数据 段 
(uninitialized data)， 以 及 堆 内 存 段 Cheap segment). (传统 意 义 上 的 UNIX 进程 只 是 多 线程 程 
序 的 一 个 特例 ， 讼 进程 只 包含 一 个 线程 。) 














图 29-1 其 实 做 了 一 些 简化 。 特 别 是 ， 线 程 栈 Cthread stack) 的 位 置 可 能 会 与 共享 库 和 
共享 内 存 区 域 泥 洒 在 一 起 ， 这 取决 于 创建 线程 、 加 载 共 享 库 ， 以 及 映 册 共享 内 存 的 具体 顺 
序 。 而 且 ， 对 于 不 同 的 Linux 发 行 版 ， 线 程 栈 地 址 也 会 有 所 不 同 。 











同一 进程 中 的 多 个 线程 可 以 并 友 执 行 。 在 多 处 理 占 环境 下 ， 多 个 线程 可 以 同时 并 行 。 如 末 一 
线程 因 等 竺 IO 操作 而 章 阻 塞 ， 那 么 其 他 线程 依然 可 以 继续 运行 。( 昌 然 有 时 单独 创建 一 个 专门 执 
4T VO 操作 的 线程 颇 为 有 用 ， 但 采用 另 一 种 VO 模型 则 更 为 可 取 ， 第 63 章 会 对 此 加 以 描述 。) 

对 于 某 些 应 用 而 言 ， 线 程 要 优 于 进程 。 传 统 UNIX 通过 创建 多 个 进程 来 实现 并 行 任务 。 
以 网 络 服务 器 的 设计 为 例 ， 服 务 器 进程 《 父 进程 ) 在 接受 客户 端的 连接 后 ， 会 调用 forkO 来 创 
建 一 个 单独 的 子 进程 ， 以 处 理 与 客户 站 的 通信 《可 参考 60.3 市 )。 采 用 这 种 设计 ， 服 务 器 就 能 




















1 ŽRE: 此 处 指 多 进程 并 发 。 
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也 确实 存在 如 下 一 些 限制 。 


510 


虚拟 内 存 地 址 
(十 六 进 制 ) 


OxCO000000 


主线 程 栈 


| 
线程 2 的 栈 
共享 图 数 库 


0x40000000 | 共享 内 存 
TASK UNMAPPED BASE 


D 线程 3 在 此 处 执行 
F 主线 程 在 此 处 执行 
E 文本 (程序 代码 ) 线程 | 在 此 处 执行 

线程 2 在 此 处 执行 


0x08048000 





OxOO000000 
29-1: 同时 执行 4 个 线程 的 进程 (Linux/x86-32 ) 








进程 间 的 信息 难以 共享 。 由 于 除去 只 读 代 人 码 段 外 ， 父 子 进程 并 未 共享 内 存 ， 因 此 必须 采用 
一 些 进 程 间 通信 (inter-process communication， 人 简称 IPC) 方式 ， 在 进程 间 进 行 信 息 交 换 。 

调用 forkO 来 创建 进程 的 代价 相对 较 高 。 即 便利 用 24.2.2 市 所 描述 的 写 时 复制 
(copy-on-write) 技术 ， 仍 然 需要 复制 诸如 内 存 页 表 (page table) 和 文件 描述 符 表 (file 
descriptor table) 之 类 的 多 种 进程 属性 ， 这 意味 看 forkO 调 用 在 时 间 上 的 开销 依然 不 菲 。 











线程 解决 了 上 述 两 个 问题 。 


线程 乙 间 能 够 方便 、 快 速 地 共 亨 信息 。 只 需 将 数据 复制 到 共 部 《全 局 或 堆 ) 变量 中 即 
可 。 不 过 ， 要 避免 出 现 多 个 线程 试图 同时 修改 同一 份 信息 的 情况 ， 这 需要 使 用 第 30 
草 描 述 的 同步 撤 术 。 

创建 线程 比 创建 进程 通 第 要 快 10 AERES. CE Linux 中 ， 是 通过 系统 调用 clone) 
来 实现 线程 的 ， 表 28-3 展示 了 fork0 和 clone0 在 速度 上 的 差异 。) 线程 的 创建 之 所 以 
较 快 ， 征 因为 调用 fork0 创 建 子 进程 时 所 需 复 制 的 诸多 属性 ， 在 线程 则 本 来 束 古 共 圣 
的 。 特 别 是 ， 既 无 需 及 用 写 时 复制 来 复制 内 存 页 ， 也 无 需 复 制 页 表 。 
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除了 全 局 内 存 之 外 ， 线 程 还 共享 了 一 干 其 他 属性 (这 些 属性 对 于 进程 而 言 是 全 局 性 的 ， 
而 并 非 针 对 某 个 特定 线程 )， 包 括 以 下 内 容 。 

e 进程 ID (process ID) 和 父 进程 ID. 

e 进程 组 ID 与 会 话 ID (session ID). 

o 控制 终端 。 

e 进程 凭证 (process credential) 〈 用 户 ID 和 组 ID )。 

。 打开 的 文件 搞 述 符 。 

e 由 fcntO 创 建 的 记录 人 锁 Crecord lock). 

e 信号 CignaD Ab. 

e 文件 系统 的 相关 信息 : LRR Cumask)、 当 前 工作 目录 和 根 目录 。 

e HIMES CsetitimerO) 和 POSIX 定时 器 (timer create). 

e 系统 V (system V) 信号 量 撤销 Cundo，semadj ) 值 (47.8 市 )。 

e 资源 限制 Cresource limit). 

e CPU 时 间 消 耗 〈 由 timesO 返 回 )。 

e 资源 消耗 (由 getrusage(O 返 回 )。 

e nice 值 (由 setpriorityO0 和 niceO 设 置 )。 

各 线程 所 独 有 的 属性 ， 如 下 列 出 了 其 中 一 部 分 。 

e 线程 ID (thread ID, 29.5 节 )。 

e [i15 (signal mask). 

e AEN (31.3 $). 

oe 备 选 信号 栈 CigaltstackO). 

e errno 变量 。 

e ŞAH (floating-point) XX (JL fenv(3) )。 

e 实时 调度 策略 (real-time scheduling policy) 和 优先 级 (35.2 节 和 35.3 3). 

e CPU 亲和力 (affinity，Linux 所 特有 ，35.4 节 将 加 以 描述 )。 

e 能 力 (capability, Linux 所 特有 ， 第 39 章 将 加 以 描述 )。 

e 栈 ， 本 地 变量 和 函数 的 调用 链接 (linkage) 信息 。 

















如 图 29-1 所 示 ， 上 所 有 的 线程 栈 均 驻 留 于 同一 虚拟 地 址 空间 。 这 也 意味 痢 ， 利 用 一 
个 合适 的 指针 ， 各 线程 可 以 在 对 方 栈 中 相互 共 吾 数据 。 这 种 方法 偶尔 也 能 派 上 用 场 ， 
但 由 于 局 部 变量 的 状态 有 效 与 否 依 赖 于 其 所 驻 留 栈 帧 的 生命 周期 ， 故 而 需要 在 编程 中 
说 恒 处 理 这 一 问题 。( 当 函数 返回 时 , 该 函数 栈 帆 所 占用 的 内 存 区 域 有 可 能 为 后 续 的 隙 
数 调 用 所 重新 使 用 。 如 末 线 程 终止 ， 那 么 新 线程 有 可 能 会 对 已 终止 线程 的 栈 所 占用 的 
内 存 空 间 重 新 加 以 利用 )。 关 无 法 正确 处 理 这 一 依赖 关系 ,由 此 而 产生 的 程序 bug 将 难 
以 捕获 。 

















29.2 Pthreads API 的 详细 背景 

20 世纪 80 EARR, 90 年 代 初 ， 存 在 着 数 种 不 同 的 线程 接口 。1995 年 POSIX.1c 对 POSIX 线 
FE API 进行 了 标准 化 ， 该 标准 后 来 为 SUSv3 所 接纳 。 

有 儿 个 概念 贯穿 整个 Pthreads API， 在 深入 探讨 API 之 前 ， 将 简单 予以 介绍 。 
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线程 数据 类 型 (Pthreads data type) 

Pthreads API 定义 了 一 干 数据 类 型 , K 29-1 列 出 了 其 中 的 一 部 分 。 后 续 章 节 会 对 这 些 数据 
类 型 中 的 绝 大 部 分 加 以 描述 。 

表 29-1: Pthreads 数据 类 型 


数据 类 型 描 o $ 





一 次 性 初始 化 控制 上 下 文 (control context) 











SUSv3 并 未 规定 如 何 实现 这 些 数据 类 型 ， 可 移植 的 程序 应 将 其 视 为 “不 透明 ”数据 。 杰 
即 ， 程 序 应 避免 对 此 类 数据 类 型 变量 的 结构 或 内 容 产 生 任 何 依赖 。 尤 其 是 ， 不 能 使 用 C 语言 
的 比较 操作 答 (==)〉 去 比较 这 些 类 型 的 变量 。 











线程 和 errno 


在 传统 UNIX API 中 ，errno 是 一 全 局 整 型 变量 。 然 而 ， 这 无 法 满足 多 线程 程序 的 需要 。 
如 果 线 程 调用 的 函数 通过 全 局 errno 返回 错误 时 ， 会 与 其 他 发 起 函数 调用 并 检查 errno 的 线程 
混淆 在 一 起 。 换 言 之 ， 这 将 引发 竞争 条 件 (ace condition)。 因 此 ， 在 多 线程 程序 中 ， 每 个 线 
程 都 有 属于 目 己 的 errno。 在 Linux 中 ,线程 特有 errno 的 实现 方式 与 大 多 数 UNIX 实现 相关 似 : 
将 erno 定义 为 一 个 宏 ， 可 展开 为 函数 调用 ， 该 函数 返回 一 个 可 修改 的 左 值 (lvalue)， 且 为 每 
个 线程 所 独 有 。( 因 为 左 值 可 以 修改 ， 多 线程 程序 依然 能 以 errno=value 的 方式 对 errno 赋值 。) 

一 言 以 蔽 之 ，errno 机 制 在 保留 传统 UNIX API 报错 方式 的 同时 ， 也 适应 了 多 线程 环境 。 


























最 初 的 POSIX.1 byife342$ KER HJ C 语言 用 法 , 允许 程序 将 errno 声明 为 extern int errno。 
SUSv3 却 不 允许 这 一 做 法 〈 这 一 变化 实际 发 生 于 1995 年 的 POSIX.1c 标准 之 中 )。 如 今 ， 需 
要 声明 errno 的 程序 必须 包含 <errno.h>， 以 启用 对 errno 的 线程 级 实现 。 


Pthreads 函数 返回 值 


从 系统 调用 和 库 函 数 中 返回 状态 ， 传 统 的 做 法 是 : 返回 0 表示 成 功 ， 返 回 -1 表示 失败 ， 并 设 
置 errno 以 标识 错误 原因 。Pthreads API 则 反 其 道 而 行 之 。 所 有 Pthreads 函数 均 以 返回 0 表示 成 功 ， 
返回 一 正 值 表示 失败 。 这 一 失败 时 的 返回 值 ， 与 传统 UNIX 系统 调用 置 于 ermo 中 的 值 含义 相同 。 

由 于 多 线程 程序 对 errno 的 每 次 引用 都 会 带 来 函数 调用 的 开销 ， 因 此 ， 本 书 示例 并 不 会 直 
接 将 Pthreads 函数 的 返回 值 赋 给 errno， 而 是 使 用 一 个 中 间 变 量 ， 并 利用 目 己 实现 的 诊断 函数 
errExitENÓO (3.5.2 节 )， 如 下 所 示 : 
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pthread t *thread; 
int s; 


S = pthread create(8&thread, NULL, func, &arg); 
if (s != 0) 
errExitEN(s, "pthread create"); 


编译 Pthreads 程序 


在 Linux 平台 上 , 在 编译 调用 了 Pthreads API 的 程序 时 , 需要 设置 cc -pthread 的 编译 选项 。 
使 用 该 选项 的 效果 如 下 。 

。 定义 _REENTRANT 预 处 理 宏 。 这 会 公开 对 少数 可 重 入 (reentrant) AIE H. 

e 程序 会 与 库 libpthread 进行 链接 (等 价 于 -lpthread)。 


编译 多 线程 程序 时 的 具体 编译 选项 会 因 实 现 及 编译 器 的 不 同 而 不 同 。 其 他 一 些 实现 〈 例 
如 Tru64) 使 用 cc -pthread， 而 Solaris 和 HP-UX 则 使 用 cc -mt。 

















29.3 创建 线程 


局 动 程序 时 ， 产 生 的 进程 上 只 有 单条 线程 ， 称 之 为 初始 Cinitial) RE (main) 线程 。 本 市 
将 讨论 其 他 线程 的 创建 过 程 。 
FR XX pthread_createO) 负 责 创建 一 条 新 线程 。 





#include «pthread.h» 


int pthread create(pthread t */hread, const pthread attr t *attr, 
void *(*start)(void *), void *arg); 


Returns 0 on success, or a positive error number on error 











新 线程 通过 调用 市 有 参数 arg 的 图 数 start C BI start(arg)) 而 开始 执行 。 调 用 pthread create() 
的 线程 会 继续 执行 该 调用 之 后 的 语句 。( 如 28.2 节 所 述 , 这 一 行为 与 glibc 库 对 系统 调用 cloneO 
的 包装 函数 行为 相同 。) 

将 参数 arg 声明 为 void* 类 型 ， 意 味 着 可 以 将 指 同 任意 对 象 的 指针 传递 给 start0 函 数 。 一 
般 情 况 下 ，arg 指 问 一 个 全 局 或 堆 变 量 ， 也 可 将 其 置 为 NULL。 如 果 需 要 问 startO 传 递 多 个 参 
数 ， 可 以 将 arg 指 问 一 个 结构 ， 该 结构 的 各 个 字段 则 对 应 于 待 传递 的 参数 。 通 过 审慎 的 类 型 强 
制 转换 ，arg 甚至 可 以 传递 int 类 型 的 值 。 

严格 说 来 ， 对 于 int 与 void* 之 间 相 互 强制 转换 的 后 果 ，C 语言 标准 并 未 加 以 定义 。 不 过 ， 大 
部 分 C 语言 编译 器 允许 这 样 的 操作 ， 并 且 也 能 达成 预期 的 目的 ， 即 intj == (int) ((void*) j)。 

start0) 的 返回 值 类 型 为 void*， 对 其 使 用 方式 与 参数 arg 相同 。 对 后 续 pthread joinO PS ZI HJ d 
述 中 ， 将 论 及 对 该 返回 值 的 使 用 方式 。 

将 经 强制 转换 的 整 型 数 作 为 线程 start 函数 的 返回 值 时 ， 必 须 小 心 谨慎。 原因 在 于 ， 取 消 
线程 〈 见 第 32 章 ) 时 的 返回 值 PTHREAD_CANCELED， 通 常 是 由 实现 所 定义 的 整 型 值 ， 再 
经 强制 转换 为 void* 。 知 线程 某 甲 的 start 函数 将 此 整 型 值 返回 给 正在 执行 pthread join0 操 作 的 线 
程 某 乙 ， 某 乙 会 误 认 为 某 甲 遭 到 了 取消 。 应 用 如 果 采 用 了 线程 取消 技术 并 选择 将 start 函数 的 返回 
值 强制 转换 为 整 型 ， 那 么 就 必须 确保 线程 正常 结束 时 的 返回 值 与 当前 Pthreads 实现 中 的 
PTHREAD CANCELED 不 同 。 如 欲 保 证 程序 的 可 移植 性 ， 则 在 任何 将 要 运行 该 应 用 的 实现 中 ， 
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正常 退出 线程 的 返回 值 应 不 同 于 相应 的 PTHREAD. CANCELED 值 。 

参数 thread 指 问 pthread t 类 型 的 绥 冲 区 ， 在 pthread _create0 返 回 前 ， 会 在 此 保存 一 个 访 
线程 的 唯一 标识 。 后 续 的 Pthreads 函数 将 使 用 该 标识 来 引用 此 线程 。 

SUSv3 明确 指出 ， 在 新 线程 开始 执行 之 前 ， 实 现 无 需 对 thread 参数 所 指 癌 的 缓冲 区 进行 
初始 化 , 即 新 线程 可 能 会 在 pthread_createO 返 回 给 调用 者 之 前 已 经 开始 运行 。 如 新 线程 需要 获 
取 目 己 的 线程 ID， 则 只 能 使 用 pthread self() (29.5 THR) 方法 。 

参数 attr 是 指向 pthread attr t 对 象 的 指针 ， 该 对 象 指定 了 新 线程 的 各 种 属性 。29.8 节 将 
述 及 其 中 的 部 分 属性 。 如 果 将 attr 设置 为 NULL， 那 么 创建 新 线程 时 将 使 用 各 种 默认 属性 ， 本 
书 的 大 部 分 示例 程序 都 采用 这 一 做 法 。 

调用 pthread_createO0 后 ， 应 用 程序 无 从 确定 系统 接 独 会 调度 哪 一 个 线程 来 使 用 CPU 资源 
(在 多 处 理 器 系统 中 ， 多 个 线程 可 能 会 在 不 同 CPU 上 同时 执行 )。 程 序 如 隐 舍 了 对 特定 调度 顺 
序 的 依赖 ， 则 无 疑 会 对 24.4 市 所 述 的 苋 争 条 件 打 开 方 便 之 门 。 如 果 对 执行 顺序 人 确 有 强制 要 求 ， 
那么 就 必须 采用 第 30 章 所 描述 的 同步 技术 。 




















29.4 终止 线程 


可 以 如 下 方式 终止 线程 的 运行 。 

o 线程 start 函数 执行 return 语句 并 返回 指定 值 。 

e 线程 调用 pthread exit()〔 详 见 后 述 )。 

e 调用 pthread_cancel() 取 消 线 程 ( 在 32.1 Wii e. 

。 任意 线程 调用 了 exit0)， 或 者 主线 程 执行 了 return 语句 《在 maino KZ), Ab P$ 
进程 中 的 所 有 线程 立即 终止 。 

pthread_exitO 函 数 将 终止 调用 线程 ， 且 其 返回 值 可 由 另 一 线程 通过 调用 pthread join(0) 来 获取 。 











include «pthread.h» 


void pthread exit(void *retval); 








调用 pthread_exitO 相 当 于 在 线程 的 start 函数 中 执行 return， 不 同 之 处 在 于 ， 可 在 线程 start 
函数 所 调用 的 任意 函数 中 调用 pthread_ exit() 。 

参数 retval 指定 了 线程 的 返回 值 。Retval 所 指 问 的 内 容 不 应 分 配 于 线程 栈 中 ， 因 为 线程 终止 后 ， 
将 无 法 确定 线程 栈 的 内 容 是 否 有 效 。( 例 如 ， 系 统 可 能 会 立刻 将 该 进程 虚拟 内 存 的 这 片区 域 重新 分 
配 ， 供 一 个 新 的 线程 栈 使 用 。) 出 于 同样 的 理由 ， 也 不 应 在 线程 栈 中 分 配 线程 start 函数 的 返回 值 。 

如 果 主 线程 调用 了 pthread_exit()， 而 非 调 用 exit0 或 是 执行 return 语句 ， 那 么 其 他 线程 将 
继续 运行 。 














29.5 ”线程 ID (Thread ID) 


进程 内 部 的 每 个 线程 都 有 一 个 唯一 标识 ， 称 为 线程 ID 。 线 程 ID 会 返回 给 pthread createO 
的 调用 者 ， 一 个 线程 可 以 通过 pthread _selfO 来 获取 自己 的 线程 ID。 











include «pthread.h» 








pthread t pthread self(void); 
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Returns the thread ID of the calling thread 











线程 ID 在 应 用 程序 中 非常 有 用 ， 原 因 如 下 。 

e 不 同 的 Pthreads 函数 利用 线程 ID 来 标识 要 操作 的 目标 线程 。 这 些 孙 数 包括 pthread 
join()、pthread detach), pthread cancelO 4l pthread kill0 等 ， 后 续 章 节 将 会 加 以 讨论 。 

e 在 一 些 应 用 程序 中 ， 以 特定 线程 的 线程 ID 作为 动态 数据 结构 的 标签 ， 这 所 有 用 处 ， 
既 可 用 来 识别 某 个 数据 结构 的 创建 者 或 属 主线 程 ， 叉 可 以 确定 随后 对 该 数据 结构 执行 
操作 的 具体 线程 。 

PEZ pthread_egual0) 可 检查 两 个 线程 的 ID 是否 相 同 。 




















include <pthread.h> 


int pthread equal(pthread t //, pthread t 12); 


Returns nonzero value if (7 and t2 are equal, otherwise 0 

















例如 , 为 了 检 碍 调用 线程 的 线程 卫 与 保存 于 变量 { 中 的 线程 卫 zit; 86. 可 以 编写 如 下 代码 : 
if (pthread equal(tid, pthread self()) 
printf("tid matches selfAn"); 


因为 必须 将 pthread t 作为 一 种 不 透明 的 数据 类 型 加 以 对 每 , 所 以 函数 pthread equalOZé 4^ 
须 的 。Linux 将 pthread t 定义 为 无 符号 长 整 型 (unsigned long)， 但 在 其 他 实现 中 ， 则 有 可 能 
是 一 个 指针 或 结构 。 


在 NPTL 中 ，pthread t 实际 上 是 一 个 经 强制 转化 而 为 无 符号 长 整 型 的 指针 。 














SUSv3 并 未 要 求 将 pthread t 实现 为 一 个 标量 〈scalar) 类 型 ， 该 类 型 也 可 以 是 一 个 结构 。 
因此 ， 下 列 显示 线程 ID 的 代码 实例 并 不 其 有 可 移植 性 〈 尽 管 该 实例 在 包括 Linux 在 内 的 许多 
实现 上 均 可 正常 运行 ， 而 且 有 时 在 调试 程序 时 还 很 实用 )。 

pthread t thr; 




















printf("Thread ID = %ld\n", (long) thr); /* WRONG! */ 

在 Linux 的 线程 实现 中 ， 线 程 ID 在 所 有 进程 中 都 是 唯一 的 。 不 过 在 其 他 实现 中 则 未 必 如 
此 ，SUSv3 特别 指出 ， 应 用 程序 若 使 用 线程 ID 来 标识 其 他 进程 的 线程 ， 其 可 移植 性 将 无 法 得 
到 你 证 。 此 外 ， 在 对 已 终止 线程 施 以 pthread join0， 或 者 在 已 分 离 〈detached) 线程 退出 后 ， 
实现 可 以 复 用 该 线程 的 线程 ID 。( 下 一 节 和 29.7 节 将 分 别 解释 pthread join0 和 线程 的 分 离 。) 





POSIX 线程 ID 与 Linux 专 有 的 系统 调用 gettidO0 所 返回 的 线程 ID 并 不 相同 。POSIX 线 
程 ID 由 线程 库 实 现 来 负责 分 配 和 维护 。gettid0 返 回 的 线程 ID 是 一 个 由 内 核 CKerneD. 分 配 
的 数字 ， 关 似 于 进程 ID (process ID). BAE Linux NPTL 线程 实现 中 ， 每 个 POSIX 线程 都 
对 应 一 个 唯一 的 内 核 线程 DD, 但 应 用 程序 一 般 无 需 了 解 内 核 线程 ID (况且 ,如 果 程 序 依赖 于 
这 一 信息 ， 也 将 无 法 移植 )。 








29.6 连接 (joining) 已 终止 的 线程 
PEZ pthread join A EFE thread 标识 的 线程 终止 。( 如 果 线 程 已 经 终止 ，pthread join) 
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立即 返回 )。 这 种 操作 被 称 为 连接 joining)。 





include «pthread.h» 


int pthread join(pthread t thread, void **retval); 





Returns 0 on success, or a positive error number on error 





fr retval 7j —dE^8dHfb, KSR IER EMEF UL, iik E 2h BI 2k FE Ui H 
return 或 pthred_exitO 时 所 指定 的 值 。 
如 问 pthread join0 传 入 一 个 之 前 已 然 连接 过 的 线程 ID， 将 会 导致 无 法 预知 的 行为 。 例 如 ， 相 
同 的 线程 D 在 参与 一 次 连接 后 恰好 为 为 一 狐 建 线程 所 重用 ， 再 上 度 连 接 的 可 能 就 是 这 个 新 线程 。 
各 线程 并 未 分 离 (detached, ML 29.7 和 )， 则 必须 使 用 ptherad join0 来 进行 连接 。 如 果 未 能 
和 连接， 那么 线程 终止 时 将 产生 僵尸 线程 ， 与 僵尸 进程 (zombie process) 的 概念 相 类 似 (参考 26.2 
节 )。 除 了 当 忱 系统 资源 以 外 ， 人 僵尸 线 程 看 暴 积 过 多 ， 应 用 将 再 也 无 法 创建 新 的 线程 。 
pthread join0 执 行 的 功能 类 似 于 针对 进程 的 waitpi dO 调用， 不 过 二 者 之 间 存 在 一 些 显 铸 氏 别 。 
e 线程 乙 间 的 关系 是 对 等 的 〈peers)。 进 程 中 的 任意 线程 均 可 以 调用 pthread join0 与 该 
进程 的 任何 其 他 线程 连接 起 来 。 例 如 ,如 果 线 程 A 创建 线程 B, 线程 B 再 创建 线程 C， 
那么 线程 A 可 以 连接 线程 C, 线程 C 也 可 以 连接 线程 A。 这 与 进程 间 的 层次 关系 不 同 ， 
父 进程 如 果 使 用 forkO 创 建 了 子 进程 ， 那 么 它 也 是 唯一 能 够 对 子 进 程 调 用 waitO 的 进 
程 。 调 用 pthread_createO 创 建 的 新 线程 与 发 起 调用 的 线程 之 间 ， 就 没有 这 样 的 关系 。 
e 无 法 “连接 任意 线程 ”( 对 于 进程 ， 则 可 以 通过 调用 waitpid(-1，&status，options) 做 到 这 
一 点 )， 也 不 能 以 非 阻塞 (nonblocking) 方式 进行 连接 (类 似 于 设置 WHOHANG 标志 
的 waitpid0 )。 使 用 条 件 (condition) 变量 可 以 实现 类 似 的 功能 ，30.2.4 市 会 给 出 示例 。 





















































限制 pthread joinO 只 能 连接 特定 线程 ID， 这 样 做 是 “别有用心 ”的 。 其 用 意 在 于 ， 程 
序 应 只 能 连接 它 所 “知道 的 ”线程 。 线 程 之 间 并 无 层次 关系 ， 如 果 听 任 “ 与 任意 线程 连接 ” 
的 操作 发 生 ， 那 么 所 请 “任意 ”线程 束 可 以 包括 由 库 函 数 私 目 创建 的 线程 ， 从 而 融 来 问题 。 
(30.2.4 所 展示 的 条 件 变 量 技术 也 上 只 人 允许 线程 连接 它 “ 知 道 的 ”其 他 线程 。) ARE RAU 
在 获取 线程 返回 状态 时 将 不 再 能 与 该 线程 连接 ， 只 会 一 错 再 错 ， 试 图 连接 一 个 已 然 连接 过 
的 线程 DD。 换 言 之 ,“ 连 接任 意 线 程 ” 的 操作 与 模块 化 的 程序 设计 理念 背道而驰 。 














示例 程序 
程序 清单 29-1 中 的 程序 创建 了 一 个 线程 ， 并 与 之 连接 。 
程序 清单 29-1: 一 个 使 用 Pthreads 的 简单 程序 





threads/simple thread.c 


include «pthread.h» 
#include "tlpi hdr.h" 


static void * 
threadFunc(void *arg) 


char *s = (char *) arg; 





1 FE: 本 句 的 两 处 线程 均 指 前 文 由 库 函 数 私 目 创 建 的 线程 。 
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printf("%s", s); 


return (void *) strlen(s); 


j 
int 
main(int argc, char *argv[]) 


pthread t t1; 
void *res; 
int s; 


s = pthread create(&t1, NULL, threadFunc, "Hello worldin"); 
if (s != 0) 
errExitEN(s, "pthread create"); 


printf("Message from main()Wn"); 
s = pthread join(ti, &res); 
if (s != 0) 

errExitEN(s, "pthread join"); 


printf("Thread returned %ld\n", (long) res); 
exit(EXIT SUCCESS); 
} 


threads/simple thread.c 





当 运 行程 序 清 单 29-1 的 程序 时 ， 可 以 看 到 如 下 输出 : 
$ ./simple thread 

Message from main() 

Hello world 

Thread returned 12 


依赖 于 系统 对 两 个 线程 的 具体 调度 ， 第 1 行 与 第 2 行 的 输出 顺序 可 能 会 颠倒 过 来 。 








29.7 ”线程 的 分 离 


默认 情况 下 ， 线 程 是 可 连接 的 joinablej， 也 就 是 说 ， 当 线程 退出 时 ， 其 他 线程 可 以 通过 调 
用 pthread join0 获 取 其 返回 状态 。 有 时 ， 程 序 员 并 不 关心 线程 的 返回 状态 ， 只 是 希望 系统 在 
线程 终止 时 能 够 自动 清理 并 移 除 之 。 在 这 种 情况 下 ， 可 以 调用 pthread_detach() 并 向 thread 参 
数 传 入 指定 线程 的 标识 符 ， 将 该 线程 标记 为 处 于 分 离 〈detached) 状态 。 

















include «pthread.h» 


int pthread detach(pthread t thread); 


Returns 0 on success, or a positive error number on error 








如 下 例 所 示 ， 使 用 pthread detach()， 线 程 可 以 自行 分 离 : 

pthread detach(pthread self()); 

一 旦 线程 处 于 分 离 状 态 ， 就 不 能 再 使 用 pthread join0) 来 获取 其 状态 ， 也 无 法 使 其 重 返 “ 可 
连接 ”状态 。 

其 他 线程 调用 了 exit0， 或 是 主线 程 执行 retum 语句 时 ， 即 便 遭 到 分 离 的 线程 也 还 是 会 受 
到 影响 。 此 时 ， 不 各 线程 处 于 可 连接 状态 还 是 已 分 离 状态 ， 进 程 鸭 所 有 线程 会 立即 终止 。 换 
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SZ, pthread detachO 只 是 控制 线程 终止 之 后 所 发 生 的 事情 ， 而 非 何 时 或 如 何 终止 线程 。 


29.8 ”线程 属性 


前 面 已 然 提 及 pthread. create FAIX pthread attr t 的 attr 参数 , 可 利用 其 在 创建 线程 时 
指定 狐 线程 的 属性 。 本 书 无 意 深入 这 些 属性 的 细节 (关于 此 类 细节 ， 可 参考 本 草 结 尾 处 的 参 
考 资 料 列表 )， 也 不 会 将 操作 pthread_attr t 对 象 的 各 种 Pthreads 函数 原型 一 一 询 出 ， 只 会 点 
如 下 之 类 的 一 些 属性 : 线程 栈 的 位 置 和 大 小 、 线 程 调度 策略 和 优先 级 (类似 于 35.2 市 和 35.3 
节 上 所 摘 述 的 进程 实时 调度 条 上 略 和 优先 级 )， 以 及 线程 是 否 处 于 可 连接 或 分 离 状 态 。 

作为 线程 属性 的 使 用 示例 ， 程 序 清单 29-2 中 的 代码 创建 了 一 个 新 线程 ， 该 线程 刚 一 创建 
即 遭 分离 (而 非 之 后 再 调用 pthread_detachO )。 这 段 代 码 首 先 以 缺少 值 对 线程 属性 结构 进行 初 
始 化 ， 接 独 为 创建 分 离线 程 而 设置 属性 ， 最 后 再 以 此 线程 属性 结构 来 创建 新 线程 。 线 程 一 旦 
创建 ， 就 无 需 再 保留 该 属性 对 象 ， 故 而 程序 将 其 销毁 。 
程序 清单 29-2: 使 用 分 离 属性 创建 线程 























from threads/detached attrib.c 


pthread t thr; 
pthread attr t attr; 


int s; 
s = pthread attr init(BSattr); /* Assigns default values */ 
if (s !- 0) 


errExitEN(s, "pthread attr init"); 


s = pthread attr setdetachstate(&attr, PTHREAD CREATE DETACHED); 
if (s != 0) 
errExitEN(s, "pthread attr setdetachstate"); 


s = pthread create(8thr, &attr, threadFunc, (void *) 1); 
if (s != 0) 
errExitEN(s, "pthread create"); 


s = pthread attr destroy(&attr); /* No longer needed */ 
if (s !- 0) 
errExitEN(s, "pthread attr destroy"); 
from threads/detached attrib.c 


29.9 线程 VS 进程 


将 应 用 程序 实现 为 一 组 线程 还 是 进程 ? 本 节 将 简单 考虑 一 下 可 能 有 影响 这 一 决定 的 部 分 因 
素 。 先 从 多 线程 方法 的 优点 开始 。 

e 线程 间 的 数据 共享 很 简单 。 相 形 之 下 ， 进 程 间 的 数据 共享 需要 更 多 的 投入 。( 例 如 ， 
创建 共 孚 内存 段 或 者 使 用 管道 pipe)。 

e 创建 线程 要 快 于 创建 进程 。 线 程 间 的 上 下 文 切 换 〈context-switch)， 其 消耗 时 间 一 般 
也 比 进程 要 短 。 

线程 相对 于 进程 的 一 些 缺 点 如 下 上 所 示 。 

。 多 线程 编程 时 ， 需 要 确保 调用 线程 安全 (thread-safe) 的 函数 ， 或 者 以 线程 安全 的 方 
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式 来 调用 函数 。(31.1 和 将 讨论 线程 安全 的 概念 。) 多 进程 应 用 则 无 需 关注 这 些 。 

e 于 个 线程 中 的 bug《〈 例 如 ， 通 过 一 个 错误 的 指针 来 修改 内 存 ) 可 能 会 危及 该 进程 的 所 
有 线程 , 因为 它们 共享 着 相同 的 地 址 空间 和 其 他 属性 。 相 比 之 下 , 进程 间 的 隔离 更 彻底 。 

e 每 个 线程 都 在 争 用 宿主 进程 Chost process). 中 有 限 的 虚拟 地 址 空间 。 特 别 是 ， 一 旦 每 
个 线程 栈 以 及 线程 特有 数据 〈 或 线程 本 地 存储 ) 消耗 挥 进 程 虚拟 地 址 空间 的 一 部 分 ， 
则 后 续 线 程 将 无 缘 使 用 这 些 区 域 。 虽 然 有 效 地 址 空间 很 大 《例如 ， 在 x86-32 平台 上 通 
第 有 3GB)， 但 当 进 程 分 配 大 量 线程 ， 认 或 线程 使 用 大 量 内 存 时 ， 这 一 因素 的 限制 作 
用 也 束 突 显 出 来 。 与 之 相反 ， 每 个 进程 都 可 以 使 用 全 部 的 有 效 虚 拟 内 存 ， 仪 受制 于 实 
RAAM (swap) TA 

影响 选择 的 还 有 如 下 几 点 。 

。 在 多 线程 应 用 中 处 理 信 号 ， 需 要 小 心 设计 。( 作 为 通则 ， 一 般 建议 在 多 线程 程序 中 避 
RSD 关于 线程 与 信号 ， 33.2 节 会 做 深入 讨论 。 

。 在 多 线程 应 用 中 ， 所 有 线程 必须 运行 同一 个 程序 (尽管 可 能 是 位 于 不 同 函 数 中 )。 对 
于 多 进程 应 用 ， 不 同 的 进程 可 以 运行 不 同 的 程序 。 

e 除了 数据 ， 线 程 还 可 以 共 阐 某 些 其 他 信息 《〈 例 如， 文件 摘 述 符 、 信 和 号 处 置 、 当 前 工作 
目录 ， 以 及 用 户 ID 和 组 ID)。 优 劣 之 判 ， 视 应 用 而 定 。 















































29.10 ”总 结 


在 多 线程 程序 中 ， 多 个 线程 并 发 执行 同一 程序 。 所 有 线程 共享 相同 的 全 局 和 堆 变 量 ， 但 
每 个 线程 部 配 有 用 来 存放 局 部 变量 的 私有 栈 。 (同一 进程 申 的 线程 还 共享 ， 王 其 他 属性 ,包括 
进程 ID、 打 开 的 文件 描述 符 、 信 号 处 置 、 当 前 工作 目录 以 及 资源 限制 

线程 与 进程 间 的 关键 区 别 在 于 , 晓 程 比 进程 更 易于 共享 信息 ,这 也 是 许多 应 用 程序 省 
进程 而 取 线 程 的 主要 原因 。 对 于 菏 些 操作 来 说 (例如 ， 创 建 线程 比 创建 进程 快 ;， 线 程 还 
可 以 提供 更 好 的 性 能 。 但 是 ， 在 程序 设计 的 进程 /线程 之 争 中 ， 这 往往 不 会 是 决定 性 因素 。 

可 使 用 pthread create0 来 创建 线程 。 每 个 线程 随后 可 调用 pthread_exit0 独 并 退出 。( 如 有 任 一 线 
程 调用 了 exit0， 那 么 所 有 线程 将 立即 终止 。) 除非 将 线程 标记 为 分 离 状态 “例如 通过 调用 pthread 
detached0)， 其 他 线程 要 连接 该 线程 ， 则 必须 使 用 pthread join0， 由 其 返回 遭 连 接线 程 的 退出 状态 。 


进 阶 信息 

[Butenhof，1996] 对 Pthreads 进行 了 透彻 而 清晰 的 前 述 。[Robbins & Robbins，2003] 对 
Pthreads 的 各 方面 都 有 涉及 。[Tanen-baum, 2007] 对 线程 概念 的 介绍 更 具 理 论 化 , 涵 兰 主题 包括 
H Festi (mutex), mK. Ceritical region)、 条 件 变 量 以 及 死 锁 (deadlock ) 检测 及 规避 。[Vahalia， 
1996] 提 供 了 线程 实现 的 背景 知识 。 












































29.11 练习 


29-1. 大 一 线程 执行 了 如 下 代码 ， 可 能 会 产生 什么 结果 ? 
pthread join(pthread self(), NULL); 
在 Linux 上 编写 一 个 程序 ， 观 察 一 下 实际 会 发 生 什 么 情况 。 假 设 代 码 中 有 一 变量 tid, 
其 中 包含 了 茶 个 线程 ID， 在 目 身 发 起 pthread join(tid, NULLD) 调 用 时 ， 要 避免 造成 
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与 上 述 语句 相同 的 后 末 ， 该 线程 应 采取 何 种 措施 ? 
除了 缺少 错误 检查 ， 以 及 对 各 种 变量 和 结构 的 声明 外 ， 下 列 程序 还 有 什么 问题 ? 


static void * 
threadFunc(void *arg) 





29-2. 


{ 
struct someStruct *pbuf = (struct someStruct *) arg; 
/* Do some work with structure pointed to by 'pbuf' */ 
} 
int 


main(int argc, char *argv[]) 
struct someStruct buf; 


pthread create(&thr, NULL, threadFunc, (void *) 8&buf); 
pthread exit(NULL); 
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线程 : 线程 同步 


本 章 介 绍 线程 用 来 同步 役 此 行为 的 两 个 工具 : HERE (mutexe) MEFE (condition 
variable)。 互 斥 量 可 以 帮助 线程 同步 对 共 孕 资源 的 使 用 ， 以 防 如 下 情况 发 生 : 线程 菜 甲 试图 访 
问 一 共享 变量 时 ， 线 程 某 乙 正在 对 其 进行 修改 。 条 件 变 量 则 是 在 此 之 外 的 拾遗 补缺 ， 人 允许 线 
程 相 互通 知 共享 变量 〈 或 其 他 共享 资源 ) 的 状态 发 生 了 变化 。 














30.1 保护 对 共 圣 变量 的 访问 : 互 斥 量 


线程 的 主要 优势 在 于 ， 能 够 通过 全 局 变量 来 共享 信息 。 不 过 ， 这 种 便捷 的 共享 是 有 代价 的 : 必 
须 确保 多 个 线程 不 会 同时 修改 同一 变量 ， 或 者 某 一 线程 不 会 读 取 正 由 其 他 线程 修改 的 变量 。 术 语 
临界 区 《critical section) 是 指 访问 某 一 共享 资源 的 代码 片段 ,并且 这 段 代 人 码 的 执行 应 为 原子 (atomic) 
操作 ， 亦 即 ， 同 时 访问 同一 共享 资源 的 其 他 线程 不 应 中 断 该 片段 的 执行 。 

程序 清单 30-1 中 的 人 简单 示例 ， 展 示 了 以 非 原子 方式 访问 共享 资源 时 所 发 生 的 问题 。 该 程 
序 创建 了 两 个 线程 ， 且 均 执 行 同 一 函数 。 该 函数 执行 一 个 循环 ， 重 复 以 下 步骤 : 将 glob 复制 
到 本 地 变量 loc 中 ， 然 后 递增 loc, HHE loc 复制 回 glob， 以 此 不 断 增 加 全 局 变量 glob 的 值 。 
因为 loc 是 分 配 于 线程 栈 中 的 自动 变量 (automatic variable)， 所 以 每 个 线程 都 有 一 份 。 循 环 重 
复 的 次 数 要 么 由 命令 行 参数 指定 ， 要 么 取 默 认 值 。 


程序 清单 30-1: 两 线程 以 销 误 方式 递增 全 局 变量 的 值 





















































threads/thread incr.c 


include «pthread.h» 
#include "tlpi hdr.h" 


static int glob - 0; 


static void * /* Loop 'arg' times incrementing 'glob' */ 
threadFunc(void *arg) 


i 
int loops - *((int *) arg); 
int loc, j; 
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for (j = 0; j < loops; j++) 1 


loc = glob; 
loc++; 
glob = loc; 
} 
return NULL; 
} 
int 


main(int argc, char *argv[]) 


pthread t t1, t2; 
int loops, S; 


loops = (argc > 1) ? getInt(argv[1], GN GT O, "num-loops") : 10000000; 


S = pthread create(&t1, NULL, threadFunc, 8loops); 
if (s != 0) 

errExitEN(s, "pthread create"); 
s = pthread create(8t2, NULL, threadFunc, 8loops); 
if (s != 0) 

errExitEN(s, "pthread create"); 


S = pthread join(t1, NULL); 
if (s != 0) 
errExitEN(s, "pthread join"); 
S - pthread join(t2, NULL); 
if (s != 0) 
errExitEN(s, "pthread join"); 


printf("glob = %d\n", glob); 
exit(EXIT SUCCESS); 


threads/thread incr.c 








运行 程序 清单 30-1 中 的 示例 ， 并 指定 每 个 线程 均 对 该 变量 递增 1000 次 ， 看 起 来 一 切 正 常 。 


$ ./thread incr 1000 
glob - 2000 


不 过 ， 很 有 可 能 会 发 生 如 下 情况 : 在 线程 茶 乙 尚未 得 以 运行 时 ， 线 程 东 甲 已 经 执行 完毕 








并 且 退 出 了 。 如 朵 加 大 每 个 线程 的 工作 量 ， 结 来 将 完全 不 同 。 
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$ ./thread incr 10000000 
glob - 16517656 


执行 到 最 后 , glob 的 值 本 应 为 2000 万 ,问题 的 原因 是 由 于 如 下 的 执行 序列 (参见 图 30-15. 
线程 1 将 glob 值 赋 给 局 部 变量 loc. fix blog 的 当前 值 为 2000。 

线程 1 的 时 间 厂 期 满 ， 线 程 2 开始 执行 。 

线程 2 执行 多 次 循环 : 将 全 局 变量 glob 的 值 置 于 局 部 变量 loc， 递 增 loc， 再 将 结果 写 回 变量 
glob, 4 1 IEF, glob 的 值 为 2000。 假设 线程 2 的 时 间 户 到 期 时 ，8glob 的 值 已 经 增补 3000。 
线程 1 获得 另 一 时 间 上 请， 并 从 上 次 俘 止 处 恢复 执行 。 线 程 1 在 上 次 运行 时 ， 已 将 glob 的 
值 (2000) 赋 给 loc， 现 在 递增 loc， 再 将 loc 的 值 2001 写 回 glob。 此 时 ， 线 程 2 此 前 递 
WO PETENS ROS SUITE n o 

如 条 使 用 同样 的 命令 行 参数 将 该 程序 运行 多 次 ，glob 的 值 会 波动 很 大 : 
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线程 1 线程 2 
elob 的 ! 
ws hh rubo H 
TH {É RH 
' loc = glob; ! 
- loce; 
' glob = loc; i 
: | 
2000 ! 
| loc - glob; 
: 时 间 片 T 时 间 片 
| : 到 期 开始 
| i 
' | 重复 
i loc = glob; 
| i loce; 
3000 glob = loc; 
开始 i 结束 i 


| 
i 
loce*; 
2001 glob = loc; 


30-1: 两 个 线程 不 使 用 同步 技术 递增 全 局 变量 的 值 


$ ./thread incr 10000000 
glob - 10880429 
$ ./thread incr 10000000 
glob - 13493953 


这 一 行为 的 不 确定 性 ， 实 应 归咎 于 内 核 CPU 调度 决定 的 难以 预见 。 若 在 复杂 程序 中 发 生 
这 一 不 人 确定 行为 ， 则 意味 看 此 类 错误 将 侦 尔 友 作 ， 难 以 重 现 ， 因 此 也 很 难 发 现 。 

使 用 如 下 语句 ， 将 程序 清单 30-1 中 函数 threadFuncO 内 for 循环 中 的 3 Ara be, TU 
乎 可 以 解决 这 一 问题 : 

globe; /* or: ++glob; */ 

不 过 ， 在 很 多 硬件 架构 上 【例如 ，RISC 系统 )， 编 译 器 依然 会 将 这 条 语句 转换 成 机 器 人 码 ， 
其 执行 步骤 仍旧 等 同 于 threadFunc 循环 内 的 3 REA. MAZ, AE C 语言 的 递增 符 看 似 简 
单 ， 其 操作 也 未 必 就 属于 原子 操作 ， 依 然 可 能 发 生 上 述 行为 。 

为 避 倪 线程 更 新 共享 变量 时 所 出 现 问 题 ， 必 须 使 用 互 斥 量 (mutex 是 mutual exclusion 的 


















































4H t3) 来 确 你 同时 仅 有 一 个 线程 可 以 访问 东 项 共 胖 资源 。 更 为 全 面 的 说 法 是 ， 可 以 使 用 互 斥 
量 来 你 证 对 任 总共 圣 资源 的 原子 访问 ， 而 保护 共 至 变量 是 其 最 第 见 的 用 法 。 








互 斥 量 有 两 种 状态 : 已 锁定 docked) 和 未 锁定 (unlocked)。 任 何 时 候 ， 全 多 只 有 一 个 线 
程 可 以 锁定 该 互 太 量 。 试 图 对 已 经 锁定 的 菜 一 互 斥 量 册 次 加 锁 ， 将 可 能 阻 守 线 程 或 者 报错 失 
败 ， 有 基体 取决 于 加 锁 时 使 用 的 方法 。 

一 旦 线程 锁定 互 斥 量 ， 随 即 成 为 该 互 斥 量 的 所 有 者 。 只 有 上 所 有 者 才能 给 互 斥 量 解锁 。 这 
一 属性 改善 了 使 用 互 斥 量 的 代 但 结构 ， 也 顾及 到 对 互 斥 量 实现 的 优化 。 因 为 所 有 权 的 关系 ， 
有 时 会 使 用 术语 获取 (acquire) 和 释放 (release) 来 蔡 代 加 锁 和 解锁 。 

一 般 情 况 下 ， 对 每 一 共享 资源 《可 能 由 多 个 相关 变量 组 成 ) 会 使 用 不 同 的 互 斥 量 ， 每 一 
线程 在 访问 同一 资源 时 将 采用 如 下 协议 。 

e 针对 共享 资源 锁定 互 斥 量 。 
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e 访问 共享 资源 。 
e XSH EEM 
如 果 多 个 线程 试图 执行 这 一 代码 块 (一 个 临界 区 ), FERA AREER HE (其 
他 线程 将 遭 到 阻塞 )， 即 同时 只 有 一 个 线程 能 够 进入 这 段 代 但 区 域 ， 如 图 30-2 所 示 。 
线程 A 线程 B 
锁定 互 斥 量 M 

















锁定 互 斥 量 M 
i | 
AES VAT x8 DH 3E 
访问 共享 资源 
| 
| 
| 
| 
ee leads 
访问 共享 资源 


解锁 互 斥 量 M 


图 30-2: 使 用 互 斥 量 来 保护 临界 区 
最 后 请 注意 ， 使 用 互 斥 锁 仅 是 一 种 建议 ， 而 非 强 制 。 处 即 ， 线 程 可 以 考 夸 不 使 用 互 斥 量 而 仅 
访问 相应 的 共享 变量 。 为 了 安全 地 处 理 共 孚 变量 ， 所 有 线程 在 使 用 互 斥 量 时 必须 互相 协调 ， 痢 守 
既定 的 锁定 规则 。 


30.1.1 BER ROB RE SE 

互 斥 量 既 可 以 像 静 态 变 量 那样 分 配 ， 也 可 以 在 运行 时 动态 创建 〈 例 如 ， 通 过 mallooOfE— 
堪 内 存 中 分 配 )。 动 态 互 斥 量 的 创建 稍微 有 些 复杂 ， 将 延 后 至 30.1.5 节 再 做 讨论 。 

互 斥 量 是 属于 pthread mutex t 类 型 的 变量 。 在 使 用 之 前 必须 对 其 初始 化 。 对 于 静态 分 配 


的 互 斥 量 而 言 ， 可 如 下 例 所 示 ， 将 PTHREAD MUTEX INITIALIZER WA HJE. 
pthread mutex t mtx = PTHREAD MUTEX INITIALIZER; 


依照 SUSv3 的 规定 ， 对 某 一 互 斥 量 的 副本 〈copy) 执行 本 节 (0.1 节 ) 后 续 所 述 的 操作 将 
导致 未 定义 的 结果 。 此 类 操作 只 能 施 之 于 如 下 两 类 互 斥 量 的 “ 真 身 ”， 经 由 PTHREAD 
MUTEX INITIALIZER 初始 化 的 静态 互 斥 量 或 者 经 由 pthrad mutex init() YE 30.1.5 节 讨论 ) 
初始 化 的 动态 互 斥 量 。 
























































30.1.2 ”加 锁 和 解锁 互 斥 量 
初始 化 之 后 ， 互 帮 量 处 于 未 锁定 状态 。 函 数 pthread mutex lockO 可 以 锁定 某 一 互 太 量 ， 而 
PEZ pthread mutex unlockO 则 可 以 将 一 个 互 斥 量 解锁 。 











#include «pthread.h» 


int pthread mutex lock(pthread mutex t *»utex); 
int pthread mutex unlock(pthread mutex t *mulex); 








Doth return 0 on success, or a positive error number on error 
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要 锁定 互 太 量 ， 在 调用 pthread mutex lockOll] RIRE He 8. "pA Hes T A BOE 
Tus. VOBIS BOEH IS BBRII. AGUA EEOZSBOE T 1-— et JA pthread 
mutex lockO 调 用 会 一 直 堵 塞 ， 直 至 该 互 斥 量 科 解锁， 到 那 时 ， 调 用 将 锁定 互 斥 量 并 返回 。 

如 果 发 起 pthread mutex lockO 调 用 的 线程 目 身 之 前 已 然 将 目标 互 斥 量 锁定 ， 对 于 互 斥 量 
的 默认 类 型 而 言 ， 可 能 会 产生 两 种 后 果 一 一 视 具 体 实现 而 定 : 线程 陷入 死 锁 Cdeadlock), 
试图 锁定 已 为 目 己 所 持 有 的 互 斥 量 而 站 到 阻 套 ;或 者 调用 失败 ， 返 回 EDEADLK 错误 。 在 Linux 
上 ， 和 默认 情况 下 线程 会 发 生死 锁 。(30.1.7 节 在 讨论 互 斥 量 类 型 时 会 述 及 一 些 其 他 的 可 能 行为 。) 

PK Æt pthread_mutex_unlockO 将 解锁 之 前 已 遭 调 用 线程 锁定 的 互 斥 量 。 以 下 行为 均 属 错误 : 
对 处 于 未 锁定 状态 的 互 斥 量 进 行 解 锁 ， 或 者 解锁 由 其 他 线程 锁定 的 互 斥 量 。 

如 条 有 有 不止 一 个 线程 在 等 待 获取 由 函数 pthread_mutex_unlockO 解 锁 的 互 厅 量 ， 则 无 泛 判 
Iro ve T FP UH Je EAS e 
















































































示例 程序 
程序 清单 30-2 是 对 程序 清单 30-1 的 修改 , 使 用 了 一 个 互 斥 量 来 保护 对 全 局 变量 glob 的 访问 。 
使 用 与 之 前 类 似 的 命令 行 来 运行 这 个 改版 程序 ， 可 以 看 到 对 glob 的 累加 总 是 能 够 保持 正确 。 


$ ./thread incr mutex 10000000 
glob = 20000000 




















程序 清单 30-2: 使 用 互 斥 量 保护 对 全 局 变量 的 访问 


threads/thread incr mutex.c 
include «pthread.h» 
#include "tlpi hdr.h" 


static int glob - 0; 
static pthread mutex t mtx - PTHREAD MUTEX INITIALIZER; 


static void * /* Loop 'arg' times incrementing 'glob' */ 
threadFunc(void *arg) 
| 

int loops = *((int *) arg); 

int loc, j, S; 


for (j = 0; j < loops; j++) 1 
s = pthread mutex lock(&mtx); 
if (s != 0) 
errExitEN(s, "pthread mutex lock"); 
loc - glob; 
loce; 
glob - loc; 


s = pthread mutex unlock(8mtx); 
if (s != 0) 


errExitEN(s, "pthread mutex unlock"); 


j 


return NULL; 
} 


int 
main(int argc, char *argv[]) 
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pthread t t1, t2; 
int loops, s; 


loops = (argc > 1) ? getInt(argv[1], GN GT 0, "num-loops") : 10000000; 


s = pthread create(&t1, NULL, threadFunc, 8loops); 
if (s != 0) 

errExitEN(s, "pthread create"); 
S = pthread create(8t2, NULL, threadFunc, 8&loops); 
if (s != 0) 

errExitEN(s, "pthread create"); 


s = pthread join(t1, NULL); 
if (s != 0) 
errExitEN(s, "pthread join"); 
s = pthread join(t2, NULL); 
if (s != 0) 
errExitEN(s, "pthread join"); 


printf("glob = %d\n", glob); 
exit(EXIT SUCCESS); 


threads/thread incr mutex.c 


pthread mutex trylock()*H pthread mutex timedlock() 


Pthreads API 提供 了 pthread mutex lockO PK ZH] Pj 2E f: pthread mutex trylockO 和 
pthread mutex timedlock()。 可 参考 手册 页 (manual page) 获取 这 些 函 数 的 原型 。 

如 条 信号 量 已 然 锁定 ， 对 其 执行 函数 pthread mutex _trylockO 会 失败 并 返回 EBUSY 错误 ， 
除 此 之 外 ， 该 函数 与 pthread mutex lockO 行 为 相同 。 

除了 调用 者 可 以 指定 一 个 附加 参数 abstime《〈 设 置 线程 等 待 获取 互 斥 量 时 休眠 的 时 间 限 制 ) 
Ah, AŽ pthread mutex timedlock() 5 pthread mutex lock A ÆJ]. WRA% abstime 指定 的 
时 间 间 隔 期 满 ， 而 调用 线程 又 没有 获得 对 互 斥 量 的 所 有 权 ， 那 么 函数 pthread mutex timedlock() 
返回 ETIMEDOUT 错误 。 

PEZ pthread mutex trylock() 和 pthread mutex timedlock() 比 pthread mutex lockO 的 使 用 
频率 要 低 很 多 。 在 大 多 数 经 过 民 好 设计 的 应 用 程序 中 ， 线 程 对 互 斥 量 的 持 有 时 间 应 尽 可 能 短 ， 
以 避免 妨碍 其 他 线程 的 并 发 执行 。 这 也 保证 了 遭 堵 完 的 其 他 线程 可 以 很 快 获取 对 互 斥 量 的 锁 
定 。 右 某 一 线程 使 用 pthread_mutex_trylockO 周 期 性 地 轮 询 是 否 可 以 对 互 斥 量 加 锁 ， 则 有 可 能 
要 承担 这 样 的 风险 : 当 队 列 中 的 其 他 线程 通过 调用 pthread mutex lockO 相 继 获 得 对 互 斥 量 的 
访问 时 ， 访 线程 将 始终 与 此 互 斥 量 无 缘 。 


30.1.3 互 斥 量 的 性 能 

使 用 互 斥 量 的 开销 有 多 大 ?前 面 已 经 展示 了 递增 共享 变量 程序 的 两 个 不 同 版 本 : 没有 使 用 
互 斥 量 的 程序 清单 30-1 和 使 用 互 斥 量 的 程序 清单 30-2。 在 x86-32 架构 的 Linux 2.6.31 C5 NPTL) 
系统 下 运行 这 两 个 程序 ， 如 念 单一 线程 循环 1000 万 次 ， 前 者 共 花费 了 0.35 秒 〈 并 产生 错误 结果 )， 
而 后 者 则 需要 3.1 秒 。 

乍 看 起 来 ， 代 价 极 高 。 不 过 ， 考 虑 一 下 前 者 (程序 清单 30-1) 执行 的 主 循环 。 在 该 版 本 中 ， 
函数 threadFunc() 于 for 循环 中 ， 先 递增 循环 控制 变量 ， 再 将 其 与 另 一 变量 进行 比较 ， 随 后 执行 
两 个 复制 操作 和 一 个 递增 操作 ， 最 后 返回 循环 起 始 处 开始 下 一 次 循环 。 而 后 者 一 一 使 用 互 斥 量 
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的 版 本 《程序 清单 30-2) 执行 了 相同 步骤 ， 不 过 在 每 次 循环 的 前 后 多 了 加 锁 和 解锁 互 斥 量 的 工 
作 。 换 言 之 ， 对 互 斥 量 加 锁 和 解锁 的 开销 略 低 于 第 1 个 程序 的 10 次 循环 操作 。 成 本 相对 比 
较 低 廉 。 此 外 ， 在 通 利 情 况 下 ， 线 程 会 花费 更 多 时 间 去 做 其 他 工作 ， 对 互 斥 量 的 加 锁 和 解锁 
操作 相对 要 少 得 多 ， 因 此 使 用 互 斥 量 对 于 大 部 分 应 用 程序 的 性 能 并 无 显著 影 啊 。 

进而 言 之 ,在 相同 系统 上 运行 一 些 简 单 的 测试 程序 ， 结 果 显 示 ， 如 将 使 用 函数 fendO CUL 
55.3 5) 加 锁 、 解 锁 一 请 文件 区 域 的 代码 循环 2000 万 次 ， 需 耗 时 44 秒 ， 而 将 对 系统 V 信和 号 量 
(semaphore) (Jl, 47 章 ) 的 递增 和 递减 代码 循环 2000 万 次 ， 则 需要 28 秒 。 文 件 锁 和 信号 量 的 
问题 在 于 ， 其 锁定 和 解锁 总 是 需要 发 起 系统 调用 Csystem call)， 而 每 个 系统 调用 的 开销 虽 小 ， 
但 占 为 可 观 ( 见 3.1 市 )。 与 之 相反 ， 互 斥 量 的 实现 采用 了 机 器 语言 级 的 原子 操作 (在 内 存 中 执 
行 ， 对 所 有 线程 可 见 )， 只 有 发 生 锁 的 争 用 时 才 会 执行 系统 调用 。 

Linux 上 ， 互 斥 量 的 实现 采用 了 futes GS EI Ex HP ax]. Fes" D fast user space mutex | 
的 首 字母 缩写 )， 而 对 锁 委 用 的 处 理 则 使 用 了 futexO 系 统 调用 。 本 书 无 意 描述 futex， 其 设计 意 
图 也 并 非 供用 户 空 间 Cuser space) 应 用 程序 直接 使 用 , 不 过 [Drepper 2004(a)] 给 出 了 详细 描述 ， 
还 讨论 了 如 何 使 用 futexes 来 实现 互 斥 量 。[Eranke et al., 2002] — fa H futex FEA RIERS 
的 论文 (已 经 过 时 )， 介 绍 了 futex 的 早期 实现 以 及 因 其 所 珊 来 的 性 能 提升 。 


30.1.4 互 斥 量 的 死 锁 
有 时 ， 一 个 线程 需要 同时 访问 两 个 或 更 多 不 同 的 共享 资源 ， 而 每 个 资源 又 都 由 不 同 的 互 斥 
量 管理 。 当 超过 一 个 线程 加 锁 同 一 组 互 斥 量 时 ， 束 有 可 能 发 生死 锁 。 图 30-3 展示 了 一 个 死 锁 的 
例子 ， 其 中 每 个 线程 都 成 功 地 锁 住 一 个 互 斥 量 ， 接 看 试图 对 已 为 另 一 线程 锁定 的 互 斥 量 加 锁 。 
两 个 线程 将 无 限期 地 等 每 下 去 。 
线程 点 kft B 






























































l. pthread_mutex_lock{( mutex 1); l. pthread_ mutex. lock(mutex2); 
2. pthread mutex. lock(mutex2); 2. pthread mutex. lock(mutex1); 
阻塞 阻塞 
30-3: 两 个 线程 分 别 锁定 两 个 互 斥 量 所 导致 的 死 锁 


要 避免 此 类 死 锁 问 题 ， 最 简单 的 方法 是 定义 互 斥 量 的 层级 关系 。 当 多 个 线程 对 一 组 互 斥 
量 操作 时 ， 总 是 应 该 以 相同 顺序 对 该 组 互 斥 量 进 行 锁 定 。 例 如 ， 在 图 30-3 所 示 场 景 中 ， 如 果 两 
个 线程 总 是 先 锁 定 mutexl 再 锁定 mutex2， 和 死 锁 驶 不 会 出 现 。 有 时 ， 互 斥 量 间 的 层级 关系 多 辑 
清晰 。 不 过 ， 即 便 没 有 ， 依 然 可 以 设计 出 所 有 线程 都 必须 遵循 的 强制 层级 顺序 。 

男 一 种 方案 的 使 用 频率 较 低 ， 束 是 “和 演 斌 一下， 然后 恢复 ” 在 这 种 方 宁 中 ， 线 程 先 使 用 
函数 pthread mutex lockO 锁 定 第 1 个 互 斥 量 ， 然 后 使 用 函数 pthread mutex trylock0 来 锁定 其 余 
互 斥 量 。 如 果 任 一 pthread _mutex_trylock() 调 用 失败 (返回 EBUSY)， 那 么 该 线程 将 释放 所 有 
互 太 量 ， 也 许 经 过 一 段 时 间 间 隅 ， 从 头 绸 试 。 较 之 于 按 锁 的 层级 关系 来 规避 死 锁 ， 这 种 方法 
效率 要 低 一 些 ， 因 为 可 能 需要 历经 多 次 循环 。 另 一 方面 ， 由 于 无 需 受 制 于 严格 的 互 斥 量 层级 
关系， 该 方法 也 更 为 灵活 。[Butenhof, 1996] 中 载 有 这 一 方案 的 范例 。 


30.1.5 ”动态 初始 化 互 斥 量 


静态 初始 值 PTHREAD MUTEX INITIALIZER， 只 能 用 于 对 如 下 互 斥 量 进行 初始 化 : 经 由 静 
态 分 配 且 携 市 默认 属性 。 其 他 情况 下 ， 必 须 调用 pthread mutex_initO 对 互 斥 量 进行 动态 初始 化 。 
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include «pthread.h» 


int pthread mutex init(pthread mutex t *mutex, const pthread mutexattr t *attr); 


Returns 0 on success, or a positive error number on error 














参数 mutex 指定 函数 执行 初始 化 操作 的 目标 互 斥 量 。 参 数 attr 是 指 癌 pthread mutexattr t 类 
型 对 象 的 指针 ， 访 对 象 在 函数 调用 之 前 已 经 过 了 初始 化 处 理 ， 用 于 定义 互 斥 量 的 属性 。( 下 贡 
会 介绍 更 多 互 斥 量 属性 。) 大 将 attr 参数 置 为 NULL， 则 访 互 斥 量 的 各 种 属性 会 取 默 认 值 。 

SUSv3 规定 ， 初 始 化 一 个 业已 初始 化 的 互 斥 量 将 导致 未 定义 的 行为 ， 应 当 避 免 这 一 行为 。 

在 如 下 情况 下 ， 必 须 使 用 函数 pthread mutex initO, MAFREN E. 

e 动态 分 配 于 推 中 的 互 斥 量 。 人 例如， 动态 创建 针对 茶 一 结构 的 链表 ， 表 中 每 个 结构 都 包 

含 一 个 pthread mutex { 关 型 的 字段 来 存放 互 太 量 ， 们 以 体 护 对 该 结构 的 访问 。 

。 五 奈 量 是 在 栈 中 分 配 的 日 动 变 量 。 

e 初始 化 经 由 静态 分 配 ， 且 不 使 用 默认 属性 的 互 斥 量 。 

当 不 再 需要 经 由 上 自动 或 动态 分 配 的 互 斥 量 时 ， 应 使 用 pthread mutex destroy0 将 其 销毁 。( 对 于 
使 用 PIHREAD MUTEX INITIALIZER FSKUR EJE, rH pthread mutex destroyO.) 




























































































#include <pthread.h> 


int pthread mutex destroy(pthread mutex t *mutex); 








Returns 0 on success, or a positive error number on error 











只 有 当 互 斥 量 处 于 未 锁定 状态 ， 且 后 续 也 无 任何 线程 企 儿 锁定 它 时 ， 将 其 销毁 才 是 安全 
的 。 寿 互 斥 量 驻 留 于 动态 分 配 的 一 片 内 存 区 域 中 ， 应 在 杰 放 (free) JE A Ee bs a FEE B e 
对 于 目 动 分 配 的 互 斥 量 ， 也 应 在 特 主 国 数 返回 前 将 其 销毁 。 

经 由 pthread mnutex_destroy0O 销 毁 的 互 斥 量 ， 可 调用 pthread mutex initO0 对 其 重新 初始 化 。 


30.4.6 ” 互 斥 量 的 属性 

如 前 所 述 ， 可 以 在 pthread mutex initO 函 数 的 arg 参数 中 指定 pthread mutexattr t 类 型 对 象 ， 对 
互 斥 量 的 属性 进行 定义 。 通 过 pthread mutexattr t 类 型 对 象 对 互 斥 量 属性 进行 初始 化 和 读 取 操 作 的 
Pthreads 也 数 有 多 个 。 本 书 不 打算 深入 讨论 互 帮 量 属性 的 细 方 ， 也 不 会 将 初始 化 pthread mutexattr t 
对 象 内 属性 的 各 种 函数 原型 一 一 列 出 。 不 过 ， 下 一 节 会 讨论 互 斥 量 的 属性 之 一 : 类 型 。 


30.1.7 互 斥 量 类 型 


前 面 儿 页 对 互 斥 量 的 行为 做 了 奉 干 论述 。 

。 问 一 线程 不 应 对 同一 互 斥 量 加 锁 两 次 。 

。 线程 不 应 对 不 为 目 己 所 拥有 的 互 斥 量 解锁 《办 即 ， 疝 未 锁定 互 太 量 )。 

。 线程 不 应 对 一 尚未 锁定 的 互 斥 量 做 解锁 动作 。 

准 傅 地 说 ， 上 述 情况 的 结束 将 取决 于 互 太 量 次 型 (type). SUSv3 定义 了 以 下 互 斥 量 关 型 。 










































































PTHREAD MUTEX NORMAL 
该 闫 型 的 互 斥 量 不 具有 和 死 锁 检 训 《〈“ 目 检 ) 芒 能 。 如 线程 试图 对 已 由 目 己 锁定 的 互 斥 量 加 
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锁 ， 则 发 生死 锁 。 互 斥 量 处 于 未 锁定 状态 ， 或 者 已 由 其 他 线程 锁定 ， 对 其 解锁 会 导致 不 确定 
的 结果 。( 在 Linux 上 ， 对 这 类 互 斥 量 的 上 述 两 种 操作 都 会 成 功 。) 


PTHREAD_MUTEX_ERRORCHECK 

对 此 类 互 斥 量 的 所 有 操作 都 会 执行 错误 检查 。 所 有 上 述 3 种 情况 都 会 导致 相关 Pthreads K 
数 返回 错误 。 这 类 互 厂 量 运行 起 来 比 一 般 类 型 要 慢 ， 不 过 可 将 其 作为 调试 工具 ， 以 发 现 程序 
在 哪里 违反 了 互 斥 量 使 用 的 基本 原则 。 


PIHREAD MUTEX RECURSIVE 

递归 互 斥 量 维护 有 一 个 锁 计 数 器 。 当 线程 第 1 次 取得 互 斥 量 时 ， 会 将 锁 计 数 器 置 1。 后 续 
由 同一 线程 执行 的 每 次 加 锁 操作 会 递增 锁 计 数 费 的 数值 ， 而 解锁 操作 则 递减 计数 费 计 数 。 只 
有 当 锁 计数 器 值 降 至 0 时 ， 才 会 释放 (release， 亦 即 可 为 其 他 线程 所 用 ) 该 互 斥 量 。 解 锁 时 如 
目标 互 斥 量 处 于 未 锁定 状态 ， 或 是 已 由 其 他 线程 锁定 ， 操 作 都 会 失败 。 

Linux 的 线程 实现 针对 以 上 各 种 类 型 的 互 斥 量 提供 了 非 标准 的 静态 初始 值 ( 例 如 , PIHREAD 
RECURSIVE MUTEX INITIALIZER NP)， 以 便 对 那些 通过 静态 分 配 的 互 斥 量 进行 初始 化 ， 而 无 
需 使 用 pthread_mutex_initO 函 数 。 不 过 ， 为 保证 程序 的 可 移植 性 ， 应 该 避免 使 用 这 些 初 始 值 。 

除了 上 述 类 型 ，SUSv3 还 定义 了 PTHREAD MUTEX DEFAULT 类 型 。 使 用 PTHREAD - 
MUTEX INITIALIZER 初始 化 的 互 斥 量 ， 或 是 经 调用 参数 attr 为 NULL 的 pthread mutex_initO KZ 
所 创建 的 互 斥 量 ， 都 属于 此 类 型 。 人 至 于 该 类 型 互 斥 量 在 本 节 开 始 处 3 个 场景 中 的 行为 ， 规 范 有 意 未 
作 定 义 ， 意 在 为 互 斥 量 的 高 效 实现 保 留 最 大 的 灵活 性 。Linux E, PTHREAD MUTEX DEFAULT 
类 型 互 斥 量 的 行为 与 PTHREAD MUTEX NORMAL 类 型 相仿 。 

程序 清单 30-3 演示 了 如 何 设置 互 斥 量 类 型 ， 本 例 创 建 了 一 个 带 有 错误 检查 属性 (error-checking) 
的 互 斥 量 。 
程序 清单 30-3: 设置 互 斥 量 类 型 





































































































pthread mutex t mtx; 
pthread mutexattr t mtxAttr; 
int s, type; 


s = pthread mutexattr init(&mtxAttr); 
if (s != 0) 
errExitEN(s, "pthread mutexattr init"); 
s = pthread mutexattr settype(8mtxAttr, PTHREAD MUTEX ERRORCHECK); 
if (s != 0) 
errExitEN(s, "pthread mutexattr settype"); 


s - pthread mutex init(mtx, &mtxAttr); 
if (s !- 0) 
errExitEN(s, "pthread mutex init"); 
s = pthread mutexattr destroy(&mtxAttr); /* No longer needed */ 


if (s != 0) 
errExitEN(s, "pthread mutexattr destroy"); 


30.2 ”通知 状态 的 改变 : 条 件 变量 (Condition Variable) 


互 斥 量 防止 多 个 线程 同时 访问 同一 共 孚 变量 。 条 件 变量 允许 一 个 线程 就 某 个 共享 变量 (或 
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其 他 共享 资源 ) 的 状态 变化 通知 其 他 线程 ， 并 让 其 他 线程 等 待 〈 堵 塞 于 ) 这 一 通知 。 
一 个 未 使 用 条 件 变量 的 简单 例子 有 助 于 展示 条 件 变量 的 重要 性 。 假 设 由 若干 线程 生成 一 
些 “产品 单元 (result unitb)” 供 主线 程 消费 。 还 使 用 了 一 个 由 互 斥 量 保护 的 变量 avail 来 代表 
待 消费 产品 的 数量 ， 
static pthread mutex t mtx = PTHREAD MUTEX INITIALIZER; 

















static int avail - 0; 
本 广 引 用 的 代码 厂 段 摘自 于 随 本 书 友 布 的 源 代 人 码 文件 threads/prod no condvar.c. 
生产 者 线程 的 源 代 码 如 下 : 


/* Code to produce a unit omitted */ 





s = pthread mutex lock(&mtx); 
if (s !- 0) 
errExitEN(s, "pthread mutex lock"); 


avail++; /* Let consumer know another unit is available */ 


s = pthread mutex unlock(8mtx); 
if (s !- 0) 

errExitEN(s, "pthread mutex unlock"); 
主线 程 〈 消 费 者 ) BM P: 
for (55) 1 

S - pthread mutex lock(&mtx); 

if (s != 0) 

errExitEN(s, "pthread mutex lock"); 





while (avail > 0) ( /* Consume all available units */ 
/* Do something with produced unit */ 
avail--; 


j 


s = pthread mutex unlock(8&mtx); 
if (s != 0) 
errExitEN(s, "pthread mutex unlock"); 


} 

上 述 代码 虽然 可 行 , 但 由 于 主线 程 不 俘 地 循环 检查 变量 avail 的 状态 ,故而 造成 CPU 资源 
的 浪费 。 采 用 了 条 件 变 量 Ccondition variable )， 这 一 问题 就 迎 妨 而 解 : 允许 一 个 线程 休眠 (等 
TI) 直至 接 获 另 一 线程 的 通知 〈 收 到 信号 ) 去 执行 茶 些 操作 《〈 例 如 ， 出 现 一 些 “ 情 况 ” 后 ， 
等 每 者 必须 立即 做 出 啊 应 )。 

条 件 变 量 总 是 绪 合 互 斥 量 使 用 。 条 件 变 量 驶 共享 变量 的 状态 改变 发 出 通知 ， 而 互 斥 量 则 
提供 对 该 共享 变量 访问 的 互 斥 (mutual exclusion)。 这 里 使 用 的 术语 “信号 ”(signal)， 与 第 
20 章 至 第 22 章 所 述 信号 CsignaD 无 关 ， 而 是 发 出 信号 的 意思 。 


30.2.1 由 静态 分 配 的 条 件 变量 


如 同 互 斥 量 一 样 ， 条 件 变 量 的 分 配 ， 有 静 态 和 动态 之 分 。 条 件 变量 的 动态 创建 延 后 到 30.2.5 
节 有 再 行 描述 ， 这 里 先 讨 论 一 下 静态 分 配 。 

条 件 变量 的 数据 关 型 是 pthread_count t。 关 似 于 互 斥 量 ， 使 用 条 件 变 量 前 必须 对 其 初始 化 。 
对 于 经 由 静态 分 配 的 条 件 变量 ， 将 其 赋值 为 PTHREAD_ COND INITALIZER 即 完成 初始 化 操 
作 。 可 参考 下 面 的 例子 : 













































































530 Linux/UNIX 系统 编程 手册 ( 上 册 ) 
异步 社区 会 员 flyman150(2410757683 (9 qq.com) EF 尊重 版 权 


pthread cond t cond - PTHREAD COND INITIALIZER; 











依据 SUSv3 规定 ， 将 本 节 后 续 所 描述 的 操作 施 之 于 一 个 条 件 变量 的 副本 〈copy) 时 ， 其 结 
果 末 定义 。 所 有 操作 仪 能 针对 条 件 变 量 的 原本 执行 ， 要 么 经 由 PTHREAD_COND INITIALIZE 
进行 了 静态 初始 化 ， 要 么 使 用 pthread cond init0 做 了 动态 初始 化 (30.2.5 节 描 述 ) 处 理 。 


30.2.2 ”通知 和 等 待 条 件 变 量 
条 件 变 量 的 主要 操作 是 发 送信 号 〈signal) 和 等 待 (wait)。 发 送信 号 操作 即 通知 一 个 或 多 
个 处 于 等 待 状态 的 线程 ， 某 个 共享 变量 的 状态 已 经 改变 。 等 竺 操作 是 指 在 收 到 一 个 通知 六 一 
直 处 于 阻塞 状态 。 
国 数 pthread cond _ signal0 和 pthread cond broadcastO 均 可 针对 由 参数 cond 所 指定 的 条 件 
变量 而 发 送信 号 。pthread_cond_waitO 函 数 将 阻塞 一 线程 ， 直 至 收 到 条 件 变 量 cond 的 通知 。 





























#include «pthread.h» 


int pthread cond signal(pthread cond t *cond); 
int pthread cond broadcast(pthread cond t *cond); 
int pthread cond wait(pthread cond t *cond, pthread mutex t *mutex); 


All return 0 on success, or a positive error number on error 











PAIX pthread cond signal0 和 pthread cond broadcastQ-Z EI ÆT, AXT pthread 
cond waitO 的 多 个 线程 处 理 方 式 不 同 。pthread_cond signal) PK Zt Hi, pu tfe We 29 ^b — 4 38i 381 BH 3€ 
的 线程 ， 而 pthread cond broadcastO 则 会 唤醒 所 有 遭 阻 塞 的 线程 。 

使 用 函数 pthread_cond_broadcastO0 总 能 产生 正确 结果 (因为 所 有 线程 应 都 能 处 理 多 余 和 虚 
假 的 唤醒 动作 )， 但 函数 pthread cond signal ZEHA. ME, RA AN mR HE 
论 是 其 中 哪 条 ) 等 竺 线程 来 处 理 共 享 变量 的 状态 变化 时 ， 才 应 使 用 pthread_cond signalO. Jv 
用 这 种 方式 的 典型 情况 是 ， 所 有 等 行 线程 都 在 执行 完全 相同 的 任务 。 基 于 这 些 假设 ， 函 数 
pthread cond signalO 会 比 pthread cond broadcastO 更 具 效 率 ， 因 为 这 可 以 避免 发 生 如 下 情况 。 
1. 同时 唤醒 所 有 等 待 线程。 

2. 有 某 一 线程 首先 获得 调度 。 此 线程 检 否 了 共 衬 变量 的 状态 〈 在 相关 互 斥 量 的 保护 之 下 )， 故 

现 还 有 任务 需要 完成 。 该 线程 执行 了 所 需 工 作 ， 并 改变 共享 变量 状态 ， 以 表明 任务 完成 ， 

最 后 释放 对 相关 互 斥 量 的 锁定 。 

3. 剩余 的 每 个 线程 轮流 锁定 互 斥 量 并 检测 共 孚 变量 的 状态 。 不 过 ， 由 于 第 一 个 线程 所 做 的 工作 ， 
余下 的 线程 发 现 无 事 可 人 做， 随即 解 锁 互 斥 量 转 而 休眠 《〈 即 再 次 调用 pthread_cond wait())。 


相形 之 下 ,函数 pthread cond broadcastO 所 处 理 的 情况 是 : 处 于 等 每 状态 的 所 有 线程 执行 
的 任务 不 同 ( 即 各 线程 关联 于 条 件 变 量 的 判定 条 件 不 同 )。 

条 件 变量 并 不 保存 状态 信息 ， 只 是 传递 应 用 程序 状态 信息 的 一 种 通讯 机 制 。 发 送信 号 时 
奋 无 任何 线程 在 等 待 该 条 件 变 量 ， 这 个 信号 也 吏 会 不 了 了 之 。 线 程 如 在 此 后 等 待 该 条 件 变 量 ， 
只 有 当 再 次 收 到 此 变量 的 下 一 信号 时 ， 方 可 解除 阻 豆 状态 。 

PK ZA pthread cond timedwait() 与 图 数 pthread cond waitO 儿 近 相 同 ， 唯 一 的 区 别 在 于 ， 由 
参数 abstime 来 指定 一 个 线程 等 竺 条 件 变 量 通 知 时 休眠 时 间 的 上 限 。 


#include «pthread.h» 
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int pthread cond timedwait(pthread cond t *cond, pthread mutex t *mutex, 
const struct timespec *abstime); 








Returns 0 on success, or a positive error number on error 





参数 abstime 是 一 个 timespec 类 型 的 结构 CIL 23.4.2 节 )， 用 以 指定 日 Epoch (参考 10.1 
W) 以 来 以 秒 和 纳 秒 (nanosecond) 为 单位 表示 的 绝对 (absolute) 时 间 。 如 果 abstime 指定 的 
时 则 间隔 到 期 日 无 相关 条 件 变 量 的 通知 ， 则 人 返回 ETIMEOUT 错误 。 


在 生产 者 -消费 者 (producer-consumer) 示例 中 使 用 条 件 变量 


下 面 对 前 面 的 示例 作出 修改 ， 引 入 条 件 变 量 。 对 全 局 变量 、 相 关 互 斥 量 以 及 条 件 变量 的 
声明 代码 如 下 : 

static pthread mutex t mtx = PTHREAD MUTEX INITIALIZER; 

static pthread cond t cond - PTHREAD COND INITIALIZER; 























static int avail - 
本 节 中 的 代码 片段 摘 目 随 本 书 发 布 的 源 代码 文件 threads/prod condvar.c. 


除了 增加 对 函数 pthread cond signal0 的 调用 外 ， 生 产 者 线程 的 代码 与 之 前 并 无 变化 : 
= pthread mutex lock(&mtx); 
if (s != 0) 
errExitEN(s, "pthread mutex lock"); 





avail++; /* Let consumer know another unit is available */ 


= pthread mutex unlock(&mtx); 
if (s != 0) 
errExitEN(s, "pthread mutex unlock"); 


= pthread cond signal(&cond); /* Wake sleeping consumer */ 
if (s != 0) 
errExitEN(s, "pthread cond signal"); 


在 分 析 消 费 者 代码 之 前 ， 需 要 对 pthread_cond_waitO 函 数 做 更 为 详细 的 解释 。 前 文 已 经 指 
， 条 件 变 量 总 是 要 与 一 个 互 斥 量 相 关 。 将 这 些 对 象 通过 函数 参数 传递 给 pthread_cond wait()， 
。 fM HJE mutex。 

e 堵塞 调用 线程 ， 直 至 另 一 线程 殉 条 件 变 量 cond 发 出 信号。 

e 重新 锁定 mutex. 

设计 pthread cond waitO 执 行 上 述 步骤 ， 是 因为 通 钟 情况 下 代码 会 以 如 下 方式 访问 共享 变量 


= pthread mutex lock(8mtx); 
if (s != 0) 
errExitEN(s, "pthread mutex lock"); 





























while (/* Check that shared variable is not in state we want */) 
pthread cond wait(8&cond, &mtx); 


/* Now shared variable is in desired state; do some work */ 
= pthread mutex unlock(8&mtx); 


if (s != 0) 
errExitEN(s, "pthread mutex unlock"); 
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下 一 节 将 会 介绍 为 何 将 pthread cond waitO 调 用 置 于 while 循环 中 ， 而 非 站 语句 中 。 
在 以 上 代码 中 ， 两 处 对 共享 变量 的 访问 都 必须 置 于 互 斥 量 的 保护 之 下 ， 其 原因 之 前 已 做 




















了 解释 。 换 言 乙 ， 条 件 变量 与 互 斥 量 之 间 存 在 者 天 然 的 关联 关系 。 


1. 
2: 
3. 








ZEFETETE T8 1g ARFER ETAS BOE HR BE. 

MARKERES. 

如 朱 共 孚 变量 未 处 于 预期 状态 ,线程 应 在 等 竺 条 件 变量 并 进入 休眠 前 解锁 互 太 量 〈 以 便 其 
他 线程 能 访问 该 共享 变量 )。 

当 线程 因为 条 件 变 量 的 通知 而 被 再 度 唤醒 时 , 必须 对 互 斥 量 再 次 加 锁 , 因为 在 典型 情况 下 ， 
线程 会 立即 访问 共 胖 变量 。 


PK Z pthread cond_waitO 会 目 动 执行 最 后 两 步 中 对 互 斥 量 的 解锁 和 加 锁 动 作 。 第 3 步 中 互 









































斥 量 的 杰 放 与 陷入 对 条 件 变 量 的 等 竺 同属 于 一 个 原子 操作 。 换 名 话说 ， 在 函数 
pthread cond waitO 的 调用 线程 陷入 对 条 件 变 量 的 等 竺 之 前 , 其 他 线程 不 可 能 获取 到 该 互 斥 量 ， 
也 不 可 能 吏 该 条 件 变量 发 出 信和 号。 


























通过 观察 得 出 推论 : 条 件 变量 与 互 斥 量 之 间 存 在 天 然 关 系 ， 同 时 等 竺 相同 条 件 变 量 的 
所 有 线程 在 调用 pthread cond waitO 或 pthread cond timedwaitO 时 必须 指定 同一 互 斥 量 。 
实际 上 ，pthread_cond_waitO 在 调用 期 间 能 将 条 件 变量 与 一 个 唯一 的 互 斥 量 做 动态 绑 定 。 
SUSv3 规定 , 在 针对 同一 条 件 变 量 并 发 调用 pthread_cond_waitO 时 ,大 使 用 多 个 互 斥 量 会 导 





























致 未 定义 的 结果 。 
结合 以 上 所 有 细节 ， 使 用 pthread_cond_waitO 修 改 主 〈 消 费 者 ) 线程 的 代码 如 下 : 
for (55) { 
S - pthread mutex lock(&mtx); 
if (s != 0) 
errExitEN(s, "pthread mutex lock"); 
while (avail == 0) { /* Wait for something to consume */ 
S = pthread cond wait(&cond, &mtx); 
if (s != 0) 
errExitEN(s, "pthread cond wait"); 
} 
while (avail > 0) { /* Consume all available units */ 
/* Do something with produced unit */ 
avail--; 
} 


s = pthread mutex unlock(8&mtx); 
if (s != 0) 
errExitEN(s, "pthread mutex unlock"); 


/* Perhaps do other work here that doesn't require mutex lock */ 


) 
最 后 ， 再 看 一 下 pthread cond Signal0 和 pthread cond broadcast() 的 使 用 。 前 面 展 示 的 生 





产 者 代码 先 调用 了 pthread mutex unlock()， 接 着 调用 了 pthread cond signalO; 换言之 ， 先 解 
Byi Ej JE HAE SCFH ORI Fe E, 再 束 对 应 的 条 件 变量 有 出 信号 .也 可 以 将 这 两 步 其 倒 执 行 ,SUSv3 
允许 以 任意 顺序 执行 这 两 个 调用 。 
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[Butenhof，1996] 指 出 ， 在 某 些 实现 中 ， 先 解锁 互 斥 量 再 通知 条 件 变量 可 能 比 反 序 执行 
效率 要 高 。 如 果 仅 在 发 出 条 件 变量 信号 后 才 解 锁 互 斥 量 ， 执 行 pthread_cond_waitO 调 用 的 线 
程 可 能 会 在 互 斥 量 仍 处 于 加 锁 状 态 时 束 醒 来 ， 当 其 发 现 互 斥 量 仍 未 解锁 ， 会 立即 再 次 休眠 。 
这 会 导致 两 个 多 余 的 上 下 文 切换 Context Switch)。 有 些 实现 运 用 等 待 变形 〈wait morphing) 
技术 解决 了 这 一 问题 : 将 等 待 接收 信和 号 的 线程 从 条 件 变量 的 等 待 队列 转移 至 互 斥 量 等 待 队 
列 。 这 样 ， 即 便 互 斥 量 处 于 加 锁 状 态 ， 也 无 需 切 换 上 下 文 。 


30.2.3 测试 条 件 变 量 的 判断 条 件 ( predicate ) 

每 个 条 件 变 量 都 有 与 之 相关 的 判断 条 件 ， 涉 及 一 个 或 多 个 共享 变量 。 例 如 ， 在 上 一 节 的 代 
码 中 ,与 cond 相关 的 判断 是 (avail == 0)。 这 段 代码 展示 了 一 个 通用 的 设计 原则 : 必须 由 一 个 while 
循环 ,而 不 是 站 语句 ， 来 控制 对 pthread cond waitO 的 调用 。 这 是 因为 ， 当 代码 从 pthread cond 
waitO 返 回 时 ， 并 不 能 确定 判断 条 件 的 状态 ， 所 以 应 该 立即 重新 检查 判断 条 件 ， 在 条 件 不 满足 
的 情况 下 继续 体 眠 等 待 。 

从 pthread_cond_wait0) 返 回 时 ， 之 所 以 不 能 对 判断 条 件 的 状态 做 任何 假设 ， 其 理由 如 下 。 

e 其 他 线程 可 能 会 率先 醒 来 。 也 许 有 多 个 线程 在 等 待 获取 与 条 件 变量 相关 的 互 斥 量 。 即 

使 陨 互 斥 量 必 出 通知 的 线程 将 判断 条 件 置 为 预期 状态 , 其 他 线程 依然 有 可 能 深 先 获取 互 
斥 量 并 改变 相关 共享 变量 的 状态 ， 进 而 改变 判断 条 件 的 状态 。 

e 设计 时 设置 “宽松 的 ”判断 条 件 或 许 更 为 简单 。 有 时 ， 用 条 件 变量 来 表征 可 能 性 而 非 
确定 性 ， 在 设计 应 用 程序 时 会 更 为 简单 。 换 言 之 ， 就 条 件 变 量 发 送信 号 意味 者 “可 能 有 
些 事 情 ” 需 要 接收 信号 的 线程 去 啊 应 ， 而 不 是 “一 定 有 一 些 事情 ”要 做 。 使 用 这 种 方 
法 ， 可 以 基于 判断 条 件 的 近似 情况 来 发 送 条 件 变量 通知 ， 接 收 信号 的 线程 可 以 通过 再 
次 检查 判断 条 件 来 确定 是 耕 丰 的 需要 做 些 什么 。 

e 可 能 会 发 生 虚 假 唤醒 的 情况 。 在 一 些 实现 中 ， 即 使 没有 任何 其 他 线程 大地 束 条 件 变 量 
发 出 信号 ， 等 每 此 条 件 变 量 的 线程 仍 有 可 能 醒 来 。 在 一 些 多 处 理 右 系统 上 ， 为 确保 局 效 
实现 而 采用 的 技术 会 导致 此 类 (不 常见 的 ) 虚假 唤醒 。SUSv3 对 此 予以 明确 认可 。 


30.2.4 ”示例 程序 .连接 任意 已 终止 线程 


可 和 面 已 然 提 及 ， 使 用 pthread join0 只 能 连接 一 个 指定 线程 。 且 该 函数 也 未 提供 任何 机 制 
去 连接 任意 的 已 终止 线程 。 本 市 展示 如 何 使 用 条 件 和 变量 绕 过 这 一 限制 。 

程序 清单 30-4 为 其 每 个 命令 行 参数 创建 一 个 线程 。 每 个 线程 休眠 一 段 时 间 后 随即 退 
出 ， 体 眠 时 间 由 相应 命令 行 参数 所 指定 的 秒 数 决 定 。 这 里 用 休眠 间隔 来 模拟 线程 工作 了 一 
段 时 间 。 

该 程序 维护 有 一 组 全 局 变量 ， 记 录 了 所 有 已 创建 线程 的 信息 。 对 于 每 个 线程 ， 全 局 数组 
thread 中 都 含有 一 元 素 记 录 其 线程 ID 〈 字 段 tid) 以 及 当前 状态 (字段 state)。 状 态 字段 state 可 
设置 为 以 下 值 : TS_ALIVE， 表 示 线 程 是 活动 的 ， TS_TERMINATED,， 代表 线程 已 经 终结 但 尚 
未 被 连 接 ; TS_JOINED， 表 示 线 程 终 目 且 已 被 连接 。 

当 线 程 终止 时 , 将 TS TERMINATED 赋 给 数组 thread 中 对 应 元 素 的 state 字段 ,对 表征 已 终止 
但 尚未 连接 线程 的 全 局 计数 器 CnumUnjoined) 加 一 ， 并 就 条 件 变 量 threadDied 发 出 信号 。 

主线 程 使 用 循环 不 断 等 待 条 件 变 量 threadDied。 当 收 到 threadDied 信号 ， 且 存在 已 终止 线 
程 疝 未 被 和 连接 时 ， 主 线程 将 扫 摘 thread 数组 ， 寻 找 state 7j TS TERMINATED 的 数组 元 素 。 对 
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处 于 访 状 态 的 每 个 线程 ， 以 数组 thread 中 的 对 应 tid 字段 调用 pthread joinO0 函 数 ， 并 将 state 置 为 
TS JOINED。 当 由 主线 程 创 建 的 所 有 线程 终止 时 ， 即 全 局 变量 numLive 值 为 0 时 ， 主 循环 结 
以 下 shell 会 话 日 志 展 示 了 对 程序 清单 30-4 中 程序 的 调用 : 


$ ./thread multijoin 1 1 2 3 3 Create 5 threads 
Thread 0 terminating 
Thread 1 terminating 

Reaped thread 0 (numLive-4) 
Reaped thread 1 (numLive-3) 
Thread 2 terminating 

Reaped thread 2 (numLive-2) 
Thread 3 terminating 
Thread 4 terminating 

Reaped thread 3 (numLive-1) 
Reaped thread 4 (numLive=0) 


最 后 要 指出 ， 昌 然 示 例 中 的 线程 都 被 创建 为 处 于 可 连接 状态 ， 且 终止 后 立即 由 pthread 
join0 了 予以 捕获 ， 其 实 无 需 采 用 这 一 方法 来 发 现 线程 的 终止 。 可 以 将 线程 置 为 分 离 态 (detached), 
无 需 使 用 pthread join0， 简 单 地 利用 thread 数组 (及 其 他 相关 全 局 变量 ) 作为 记录 每 个 线程 
终结 的 手段 。 


程序 清单 30-4: 可 以 连接 任意 已 终止 线程 的 主线 程 
































threads/thread multijoin.c 


include «pthread.h» 
include "tlpi hdr.h" 


static pthread cond t threadDied - PTHREAD COND INITIALIZER; 
static pthread mutex t threadMutex - PTHREAD MUTEX INITIALIZER; 
/* Protects all of the following global variables */ 


static int totThreads = 0; /* Total number of threads created */ 
static int numLive = O; /* Total number of threads still alive or 
terminated but not yet joined */ 
static int numUnjoined = O0; /* Number of terminated threads that 
have not yet been joined */ 

enum tstate { /* Thread states */ 

TS ALIVE, /* Thread is alive */ 

TS TERMINATED, /* Thread terminated, not yet joined */ 

TS JOINED /* Thread terminated, and joined */ 
static struct { /* Info about each thread */ 

pthread t tid; /* ID of this thread */ 

enum tstate state; /* Thread state (TS * constants above) */ 

int sleepTime; /* Number seconds to live before terminating */ 
] *thread; 
static void * /* Start function for thread */ 
threadFunc(void *arg) 
{ 

int idx = *((int *) arg); 

int s; 

sleep(thread[idx].sleepTime); /* Simulate doing some work */ 


printf("Thread %d terminating:n", idx); 
s = pthread mutex lock(&threadMutex); 
if (s != 0) 
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j 


int 


errExitEN(s, "pthread mutex lock"); 


numUnjoined++; 
thread[idx].state = TS TERMINATED; 


s = pthread mutex unlock(&threadMutex); 
if (s != 0) 

errExitEN(s, "pthread mutex unlock"); 
s = pthread cond signal(SthreadDied); 
if (s !- 0) 

errExitEN(s, "pthread cond signal"); 


return NULL; 


main(int argc, char *argv[]) 


536 


int s, idx; 


if (argc < 2 || stremp(argv[1], "--help") == 0) 
usageErr("Xs nsecs...Nn", argv[0]); 


thread = calloc(argc - 1, sizeof(*thread)); 
if (thread -- NULL) 
errExit("calloc"); 


/* Create all threads */ 


for (idx = 0; idx < argc - 1; idx++) { 
thread[idx].sleepTime = getInt(argv[idx + 1], GN NONNEG, NULL); 
thread[idx].state = TS ALIVE; 
s = pthread create(&thread[idx].tid, NULL, threadFunc, 8idx); 
if (s != 0) 
errExitEN(s, "pthread create"); 


j 


totThreads - argc - 1; 
numLive - totThreads; 


/* Join with terminated threads */ 


while (numLive > 0) ( 

s = pthread mutex lock(&threadMutex); 

if (s != 0) 
errExitEN(s, "pthread_mutex_lock"); 

while (numUnjoined == O) { 
s = pthread cond wait(&threadDied, &threadMutex); 
if (s != 0) 

errExitEN(s, "pthread cond wait"); 


j 


for (idx = 0; idx « totThreads; idx++) ( 
if (thread[idx].state == TS TERMINATED){ 
s - pthread join(thread[idx].tid, NULL); 
if (s != 0) 
errExitEN(s, "pthread join"); 


thread[idx]|.state = TS JOINED; 
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numLive--; 
numUn joined--; 


printf("Reaped thread %d (numLive-Xd)Nn", idx, numLive); 
} 
s = pthread mutex unlock(&threadMutex); 
if (s != 0) 
errExitEN(s, "pthread mutex unlock"); 


j 


exit(EXIT SUCCESS); 


threads/thread multijoin.c 





30.2.5 ”经 由 动态 分 配 的 条 件 变量 


使 用 函数 pthread_cond_initO 对 条 件 变量 进行 动态 初始 化 。 需 要 使 用 pthread cond initO 的 情 
类 似 于 使 用 pthread mutex_init(0) 来 动态 初始 化 互 斥 量 的 情况 。 尔 即 ， 对 目 动 或 动态 分 配 的 条 
件 变量 进行 初始 化 时 ， 或 是 对 未 采用 默认 属性 经 由 静态 分 配 的 条 件 变量 进行 初始 化 时 ， 必 须 
使 用 pthread cond initO。 























#include «pthread.h» 


int pthread cond init(pthread cond t *cond, const pthread condattr t *attr); 


Returns 0 on success, or a positive error number on error 














参数 cond Xp 4 JPG] H ERAT PARE. KAFEE, a AJE EA EUIS. A 
理 的 attr 参数 来 判定 条 件 变 量 的 属性 。 对 于 attr 所 指向 的 pthread condattr t 类 型 对 象 ， 可 使 用 
多 个 Pthreads 函数 对 其 中 属性 进行 初始 化 。 硅 将 attr 置 为 NULL， 则 使 用 一 组 缺 省 属性 来 设置 
条 件 变 量 。 

SUSv3 规定 ， 对 业已 初始 化 的 条 件 变量 进行 再 次 初始 化 ， 将 寻 致 未 定义 的 行为 。 应 当 避 免 
X — lE - 

当 不 再 需要 一 个 经 由 目 动 或 动态 分 配 的 条 件 变 量 时 ， 应 调用 pthread cond destroyOrRg Zi 
以 销毁 。 对 于 使 用 PTHREAD COND INITIALIZER 进行 静态 初始 化 的 条 件 变量 ， 无 需 调 用 
pthread cond destroy()。 





























include «pthread.h» 


int pthread cond destroy(pthread cond t *cond); 


Returns 0 on success, or a positive error number on error 














对 某 个 条 件 变 量 而 言 ， 仅 当 没 有 任何 线程 在 等 待 它 时 ， 将 其 销毁 才 是 安全 的 。 如 采 条 件 
变量 驻 留 于 某 片 动态 创建 的 内 存 区 域 ， 那 么 应 在 释放 该 内 存 区 域 前 束 将 其 销毁 。 经 由 上 自动 分 
配 的 条 件 变 量 应 在 耕 主 函数 返回 前 予以 销毁 。 

经 pthread cond destroy0O 销 毁 的 条 件 变 量 ， 之 后 可 以 调用 pthread cond initO 对 其 进行 重 
新 初始 化 。 
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30.8 E 
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语 来 协调 对 共 孚 变量 的 访问 。 互 斥 量 提供 了 对 共 胖 变量 的 独占 陈 访问 。 条 件 变 量 允 许 一 个 或 
多 个 线程 等 候 通 知 : 其 他 线程 改变 了 共 孚 变量 的 状态 。 
更 多 信息 

请 参考 29.10 节 所 列 的 更 多 信息 来 源 。 












































30.4 ”练习 


30-1. 修改 程序 清单 30-1 Cthread. incrc) 中 的 程序 ， 以 便 线 程 起 始 图 数 在 每 次 循环 中 都 
能 输出 glob 的 当前 值 以 及 能 对 线程 做 唯一 标识 的 标识 从 。 可 将 线程 的 这 一 唯一 标 
识 指定 为 创建 线程 的 函数 pthread_create0 的 调用 参数 。 对 于 这 一 程序 ， 需 要 将 线程 
起 始 函 数 的 参数 改 为 指针 ， 指 癌 包 含 线程 唯一 标识 和 循环 次 数 限 制 的 数据 结构 。 运 
行 该 程序 ， 将 输出 重 定 同人 至 一 文件 ， 碍 看 内 核 在 调度 两 线程 交 蔡 执行 时 glob 的 变 
化 情况 。 
30-2. 实现 一 组 线程 安全 的 函数 ， 以 更 狐 和 搜索 一 个 不 平衡 二 又 树 。 此 函数 库 应 该 包含 如 
下 形式 的 函数 (目的 明显 ): 
initialize(tree); 
add(tree, char *key, void *value); 


delete(tree, char *key) 
Boolean lookup(char *key, void **value) 


上 述 函数 原型 中 ，tree 是 一 个 指向 根 节点 的 结构 (为 此 需要 定义 一 个 合适 的 结构 )。 树 的 
每 个 节点 保存 有 一 个 键 - 值 对 。 还 需 为 树 中 每 个 节点 定义 一 数据 结构 ， 其 中 应 包含 互 斥 量 ， 以 
确保 同时 仅 有 一 个 线程 可 以 访问 该 节点 。initialize0、add0 和 lookup0 函 数 的 实现 相对 简单 。 
delete0) 的 实现 需要 较为 深入 的 考虑 。 
































无 需 维 护 平 衡 二 又 树 ， 这 极 大 和 价 化 了 实现 对 锁 的 需求 ， 但 同时 也 市 来 了 风险 ， 特 定 模 
式 的 输入 会 导致 树 的 执行 效率 低下 。 要 维护 平衡 二 又 树 ， 则 在 执行 aad0 和 deleteO 操 作 时 必 
然 要 在 子 树 则 移动 万 点 ， 这 了 岗 需要 更 为 复杂 的 锁定 集 略 。 
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. 91. 


线程 : 线程 安全 和 每 线程 存储 


本 章 将 拓展 对 POSIX 线程 API 的 探讨 ， 搞 述 线 程 安全 (thread-safe) 函数 以 及 一 次 性 初 
始 化 。 同 时 讨论 在 不 改变 函数 接口 定义 的 前 提 下 ， 如 何 通过 线程 特有 数据 Cthread-specific data) 
或 线程 局 部 存储 (thread-local storage) 实现 已 有 函数 的 线程 安全 。 


31.1 线程 安全 (和 再 论 可 重 入 性 ) 


在 疯 数 可 同时 供 多 个 线程 安全 调用 ， 则 称 之 为 线程 安全 函数 ， 有 反之， 如果 函数 不 是 线程 安 
全 的 ， 则 不 能 并 发 调用 。 例 如 ， 如 下 函数 (30.1 节 也 有 类 似 代 码 〉 就 不 是 线程 安全 的 : 





static int glob = 0; 


static void 
incr(int loops) 


int loc, j; 


for (j = 0; j < loops; j++) { 


loc = glob; 
loce; 
glob - loc; 


j 
j 


如 果 多 个 线程 并 发 调用 该 函数 ，glob 的 最 终 值 将 不 得 而 知 。 本 例 展示 了 导致 线程 不 安全 
的 典型 原因 : 使 用 了 在 所 有 线程 忆 间 共 孚 的 全 局 或 静态 变量 。 

实现 线程 安全 有 多 种 方式 。 其 一 是 将 函数 与 互 斥 量 关 联 使 用 《如 果 函 数 库 中 的 所 有 函数 
都 共 圣 同样 的 全 局 变量 ， 那 么 或 许 应 将 所 有 函数 部 与 该 互 帮 量 相关 联 )， 在 调用 函数 时 将 其 锁 
定 ， 在 函数 返回 时 解锁 。 这 一 方法 的 优点 在 于 人 简单。 为 一 方面 ， 这 也 意味 看 同时 只 能 有 一 个 
线程 执行 该 函数 ， 亦 即 ， 对 该 函数 的 访问 是 串 行 的 serialized)。 如 末 各 线程 在 执行 此 函数 时 
部 耗 驶 了 相当 多 的 时 间 ， 那 么 单行 化 会 导致 并 发 能 力 的 丧失 ， 所 有 线程 将 不 再 并 发 执行 。 

男 一 种 更 为 复杂 的 解决 方 采 是 : 将 共 至 变量 与 互 斥 量 关 联 起 来 。 这 需要 程序 员 们 确认 函数 
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许多 线程 同时 执行 一 个 函数 并 实现 并 行 ， 除非 出 现 多 个 线程 需要 同时 执行 同一 临界 区 的 情况 。 


非 线程 安 全 的 函数 


为 便于 开发 多 线程 应 用 程序 ， 除 了 表 31-1 所 列 函 数 以 外 《其 中 大 部 分 并 未 在 本 书 中 提 及 )， 
SUSv3 中 的 所 有 函数 都 需 实现 线程 安全 。 
除了 表 31-1 中 所 列 函 数 ，SUSv3 还 做 了 如 下 规定 。 
。 如 传 参 为 NULL IF, PR ctermid0 和 tmpnam(O 无 需 是 线程 安全 的 。 
e "Ul IZ wcrtomb()fl wcsrtombs() 的 最 后 一 个 参数 (ps) 为 NULL. JA XA ES ZA 
也 无 需 是 线程 安全 的 。 
SUSv4 对 表 31-1 中 的 函数 做 了 以 下 修改 。 
e 移 除 函数 ecvtO. fcvtO. gcvtO. gethostbynameOQ LÆ gethostbyaddr()， 因 为 已 从 标准 
HUM ER. D xe PER T 
e 增加 函数 strsignalO4 system() HF system0 〇 函数 束 信 号 处 置 所 做 的 操作 将 有 影响 整个 
进程 ， 故 而 是 不 可 重 入 的 。 
标准 并 未 禁止 将 表 31-1 中 的 函数 实现 为 线程 安全 。 不 过 ， 即 使 在 某 些 实现 中 有 些 函 数 是 线 
程 安全 的 ， 为 确保 应 用 程序 的 可 移植 性 ， 也 不 应 该 假设 这 些 函 数 在 所 有 实现 中 都 是 如 此 。 
R 31-1: SUSv3 不 要 求 这 些 消 数 是 线程 安全 的 
asctime() fcvt() getpwnam() nl langinfo() 
basename() ftw) getpwuid() ptsname() 
catgets() gcvt() getservbyname() putc, unlocked() 
crypt() getc unlocked() getservbyport() putchar unlocked() 
ctime() getchar unlocked() getservent() putenv() 
dbm clearerr() getdate() getutxent() pututxline() 
dbm close() getenv() getutxid() rand() 
dbm delete() getgrent() getutxline() readdir() 


dbm error() getgrgid() gmtime() setenv() 
dbm fetch() getgrnam() hcreate() setgrent() 


dbm firstkey() gethostbyaddr() hdestroy() setkey() 









































dbm nextkey() gethostbyname() hsearch() setpwent() 


dbm open() gethostent() inet ntoa() setutxent() 
dbm. store() getlogin() l64a() strerror() 
dirname() getnetbyaddr() Ilgamma() strtok() 
dlerror() getnetbyname() Igammaf() ttyname() 
drand48() getnetent() lgammal() unsetenv() 
ecvt() getopt() localeconv() wcstombs() 
encrypt() getprotobyname() localtime() wctomb() 
endgrent() getprotobynumber() Irand48() 

endpwent() getprotoent() mrand48() 


endutxent() getpwent() nftw() 





可 重 入 和 不 可 重 入 函数 


较 之 于 对 整个 函数 使 用 互 斥 量 ， 使 用 临界 区 实现 线程 安全 虽然 有 明显 改进 ， 但 由 于 人 存在 
对 互 斥 量 的 加 锁 和 解锁 开销 ， 所 以 多 少 还 是 有 些 低 效 。 可 重 入 函数 则 无 需 使 用 互 斥 量 即 可 实 
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现 线程 安全 。 其 要 诀 在 于 避免 对 全 局 和 裔 态 变 量 的 使 用 。 需 要 返回 给 调用 者 的 任何 信息 ， 外 
或 是 需要 在 对 函数 的 历次 调用 间 加 以 维护 的 信息 ， 都 存储 于 由 调用 者 分 配 的 缓冲 区 内 。( 初 次 
储 到 可 重 入 问题 ， 是 在 21.1.2 节 讨 论 信 号 处 理 器 中 的 全 局 变量 时 。) 不 过 ， 并 非 所 有 函数 都 可 
以 实现 为 可 重 入 ， 通 常 的 原因 如 下 。 

。 根据 其 性 质 有 些 函 数 必须 访问 全 局 数据 结构 。malloc 函数 库 中 的 函数 束 是 这 方面 的 典 

范 。 这 些 函 数 为 堆 中 的 空闲 块 维护 有 一 个 全 局 链表 .malloc 库 函 数 的 线程 安全 是 通过 使 
用 互 斥 量 来 实现 的 。 

e 一 些 函 数 ( 在 发 明 线 程 之 前 就 已 问世 ， 的 接口 本 映 束 定义 为 不 可 鞋 入 ， 要 么 返回 指 
针 ， 指 癌 由 函数 日 喘 静 态 分 配 的 存储 空间 ， 要 么 利用 静态 存储 对 该 函数 (或 相关 否 
数 ) 历次 调用 间 的 信息 加 以 维护 。 表 31-1 所 列 函 数 大 多 属于 此 类 。 例如 ,函数 asctimeO 
(10.2.3 $>) 束 返 回 一 个 指针 ， 指 癌 经 由 裔 态 分 配 的 绥 冲 区 ， 其 内 容 为 日 期 和 时 间 季 
^T. 

对 于 一 些 接口 不 可 重 入 的 函数 , SUSv3 为 其 定义 了 以 后 绥 工 结尾 的 可 重 入 “ 符 喘 ”。 A UE 
上身” 子 数 要 求 由 调用 者 来 分 配 绥 冲 区 ， 并 将 绥 存 区 地 址 传 给 函数 用 以 返回 结果 。 这 使 得 调用 线 
程 可 以 使 用 局 部 ( 栈 ) 变量 来 存放 函数 结果 。 出 于 这 一 日 的 , SUSv3 定义 了 如 下 函数 : asctime_r(、 
ctime_r()、 getgrgid r(). getgrnam r(). getlogin r). getpwnam Ir()、getpwuid_r()、gmtime_r()、 









































localtime r(). rand r(). readdir r()、 strerror r(). strtok r()5ll ttyname r(). 


有 些 系统 实现 为 一 些 传统 的 不 可 重 入 函数 也 提供 了 附加 的 可 重 入 “和 符 身 ”。 例 如 ，glibc 
tE I PRA crypt rÜ. gethostbyname r(), getservbyname r(). getutent TO 、getutid_TrO、 
getutline r0 和 ptsname_rO0。 不 过 ， 为 确保 应 用 程序 的 可 移植 性 ， 不 应 假设 这 些 函 数 在 其 他 
实现 中 也 存在 。 某 些 情况 下 ，SUSv3 并 未 规定 这 些 等 价 的 可 重 入 函 数 ， 因 为 功能 更 强 、 又 
可 重 入 的 蔡 代 函数 已 然 存 在 。 例 如 ， 函 数 getaddrinfo0 就 更 新 且 可 重 入 ， 可 用 来 替代 函数 
gethostbynameO 和 getservbyname()。 














31.2 一 次 性 初始 化 

多 线程 程序 有 时 有 这 样 的 需求 : 不管 创建 了 多 少 线程 ， 有 些 初 始 化 动作 只 能 发 生 一 次 。 
例如 ， 可 能 需要 执行 pthread_mutex_initO 对 带 有 特殊 属性 的 互 斥 量 进 行 初 始 化 ， 而 且 必须 只 能 
初始 化 一 次 。 如 果 由 主线 程 来 创建 新 线程 ， 那 么 这 一 点 易如反掌 : 可 以 在 创建 依赖 于 该 初始 
化 的 线程 之 前 进行 初始 化 。 不 过 ， 对 于 库 函 数 而 言 ， 这 样 处 理 就 不 可 行 ， 因 为 调用 者 在 初次 
调用 库 函 数 之 前 可 能 已 经 创建 了 这 些 线程 。 故 而 需要 这 样 的 库 函 数 : 无 论 首 次 为 任何 线程 所 
调用 ， 都 会 执行 初始 化 动作 。 

JÆ PR Zt n] Eat iE PR Zt pthread_once0 实 现 一 次 性 初始 化 。 





























include «pthread.h» 


int pthread once(pthread once t *once control, void (*imit)(void)); 





Returns 0 on success, or a positive error number on error 





利用 参数 once control WAJRA, RA Zi pthread_onceO0 可 以 确保 无 论 有 多 少 线程 对 
pthread_onceO 调 用 了 多 少 次 ， 也 只 会 执行 一 次 由 init 指 问 的 调用 者 定义 函数 。 
init 函数 没有 任何 参数 ， 形 式 如 下 : 
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void 
init(void) 


/* Function body */ 


另外 ， 参 数 once control 必须 是 一 指针 ， 指 问 初 始 化 为 PTHREAD_ONCE_INIT HIRIA 
ARE. 

pthread once t once var - PTHREAD ONCE INIT; 

调用 函数 pthread_once0 时 要 指定 一 个 指针 ， 指 同类 型 为 pthread_once_t 的 特定 变量 ， 对 该 
函数 的 首次 调用 将 修改 once. control 所 指向 的 内 容 ， 以 便 对 其 后 续 调 用 不 会 再 次 执行 init。 

常常 将 Pthread_once0 和 线程 特有 数据 结合 使 用 ， 相 关内 容 会 在 下 一 节 描 述 。 


Pthreads 的 早期 版 本 不 能 对 互 斥 量 进行 静态 初始 化 ， 只 能 使 用 pthread mutex init() 
([Butenbof，1996])， 这 也 是 函数 pthread onceQ4f 4E] 3: Xi PS. MERSAN Ro HL FR 8E BB 
的 问世 ， 库 函数 可 以 使 用 一 个 经 静态 分 配 的 互 斥 量 和 一 个 静态 布尔 型 (Boolean ) 变量 来 实 
现 一 次 性 初始 化 。 虽 然 如 此 ， 出 于 方便 的 考虑 ， 函 数 pthread_once() 得 以 保留 。 























31.3 ”线程 特有 数据 


实现 函数 线程 安全 最 为 有 效 的 方式 束 是 使 其 可 重 入 ， 应 以 这 种 方式 来 实现 所 有 新 的 
六 数 库 。 不 过 ， 对 于 已 有 的 不 可 重 入 函数 库 〈 可 能 问世 于 线程 流行 之 前 〉 来 说 ， 采 用 




















这 种 方法 通常 需要 修改 函数 接口 ， 这 — 
也 意味 着 ， 需 要 修改 所 有 使 用 此 类 函 AAR 








Can A)——- 

使 用 线程 特有 数据 技术 ， 可 以 无 需 修 
改 函 数 接口 而 实现 已 有 函数 的 线程 安全 。 mom 
较 之 于 可 重 入 函数 , 采用 线程 特有 数据 的 SERA 
函数 效率 可 能 要 略 低 一 些 , 不 过 对 于 使 用 SEN 
了 这 些 调用 的 程序 而 言 , 则 省 去 了 修改 程 











序 之 劳 。 fune YEAR 
XH func() 在 线程 
如 图 31-1 所 示 ， 线 程 特有 数据 使 函 ERE 


有 数据 缓冲 区 





数 得 以 为 每 个 调用 线程 分 别 维护 一 份 变 
量 的 副本 〈copy)。 线 程 特有 数据 是 长 期 “图 31-1: 线程 特有 数据 (TSD ) 为 函数 提供 线程 内 存储 
存在 的 。 在 同一 线程 对 相同 函数 的 历次 调用 间 ， 每 个 线程 的 变量 会 持续 存在 ， 函 数 可 以 癌 每 
个 调用 线程 返回 各 上 自 的 结果 绥 冲 区 (如 果 需 要 的 话 )。 


31.3.1 库 函 数 视角 下 的 线程 特有 数据 
要 了 解 线程 特有 数据 相关 API 的 使 用 ， 需 要 从 使 用 这 一 技术 的 库 函 数 角度 来 考虑 如 下 
问题 。 
e 该 函数 必须 为 每 个 调用 者 线程 分 配 单独 的 存储 ， 且 只 需 在 线程 初次 调用 此 函数 时 分 配 
一 次 即 可 。 
e 在 同一 线程 对 此 函数 的 后 续 所 有 调用 中 ， 访 函数 都 需要 获取 初次 调用 时 线程 分 配 的 存 
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储 块 地 址 。 由 于 函数 调用 结束 时 会 释放 自动 变量 ， 故 而 函数 不 应 利用 自动 变量 存放 存 
储 块 指针 ， 也 不 能 将 指针 存放 于 静态 变量 中 ， 因 为 静态 变量 在 进程 中 只 有 一 个 实例 。 
Pthreads API 提供 了 函数 来 处 理 这 一 情况 。 

e 不 同 〈 无 相互 依赖 关系 ) 函数 各 目 可 能 都 需要 使 用 线程 特有 数据 。 每 个 函数 都 需要 方 
法 来 标识 其 自身 的 线程 特有 数据 〈 键 )， 以 便 与 其 他 函数 所 使 用 的 线程 特有 数据 有 所 
[X ^T. 

e 当 线 程 退出 时 ， 函 数 无 法 控制 将 要 发 生 的 情况 。 这 时 ， 线 程 可 能 会 执行 该 函数 之 外 的 
代码 。 不 过 ， 一定 存在 某 些 机 制 (解构 器 )， 在 线程 退出 时 会 自动 释放 为 该 线程 所 分 
配 的 存储 。 若非 如 此 ， 随 着 持续 不 断 地 创建 线程 ， 调 用 函数 和 终止 线程 ,将 会 引发 内 存 
泄露 。 


31.3.2 ”线程 特有 数据 API 概述 


要 使 用 线程 竺 有 数据 ， 库 函数 执行 的 一 般 步 又 如 下 。 

1 函数 创建 一 个 键 〈key )， 用 以 将 不 同 函 数 使 用 的 线程 特有 数据 项 区 分 开 来 。 调 用 机 数 
pthread_Kkey_createO 可 创建 此 “ 键 ” 且 只 需 在 站 个 调用 该 函数 的 线程 中 创建 一 次 ， 函 数 
pthread_onceO 的 使 用 正 是 出 于 这 一 目的 。 键 在 创建 时 并 未 分 配 任何 线程 特有 数据 块 。 

2. 调用 pthread_key_create0 还 有 另 一 个 目的 ， 即 允许 调用 者 指定 一 个 上 自 定 义 解 构 函 数 ， 用 于 
释放 为 该 键 所 分 配 的 各 个 存储 块 〈 参 见 下 一 步 )。 当 使 用 线程 特有 数据 的 线程 终止 时 ， 
Pthreads API 会 自动 调用 此 解构 函数 ， 同 时 将 该 线程 的 数据 块 指针 作为 参数 传 入 。 

3. 函数 会 为 每 个 调用 者 线程 创建 线程 特有 数据 块 。 这 一 分 配 通 过 调用 mallocü. (或 类 似 函 数 ) 
完成 ， 每 个 线程 只 分 配 一 次 ， 且 只 会 在 线程 初次 调用 此 函数 时 分 配 。 

4. 为 了 保存 上 一 步 所 分 配 存储 块 的 地 址 ， 函 数 会 使 用 两 个 Pthreads žr: pthread_setspecificO 利 
pthread_getspecificO 。 调 用 函数 pthread_setspecificO 实 际 上 是 对 Pthreads 实现 发 起 这 样 的 请 
SK: 保存 该 指 针 ， 并 记录 其 与 特定 键 (该 函数 的 键 ) 以 及 特定 线程 (调用 者 线程 ) 的 关联 
性 。 调 用 pthread_getspecificO 所 执行 的 是 互补 操作 : 返回 之 前 所 保存 的 、 与 给 定 键 以 及 调 
用 线程 相关 联 的 指针 。 如 果 还 没有 指针 与 尾 定 的 键 及 线程 相关 联 , 那么 pthread_getspecific() 
返回 NULL。 子 数 可 以 利用 这 一 点 来 判断 目 喘 是 否 是 初次 为 某 个 线程 所 调用 ， 硅 为 初次 ， 
则 必须 为 该 线程 分 配 空间 。 


31.8.8 ”线程 特有 数据 API TEX 

丁 将 详 述 上 节 所 提 及 的 各 个 函数 , 并 通过 对 线程 特有 数据 的 典型 实现 来 说 明 其 操作 方法 。 
下 一 市 会 演示 如 何 使 用 线程 尾 有 数据 来 实现 线程 安全 的 标准 C 语言 库 函 数 stderror()。 

调用 pthread_key_create(O) 国 数 为 线程 特有 数据 创建 一 个 新 键 , 并 通过 key 所 指 回 的 缓冲 区 
返回 给 调用 者 。 

因为 进程 中 的 所 有 线程 都 可 使 用 返回 的 键 ， 所 以 参数 key 应 指 问 一 个 全 局 变量 。 

































































#include «pthread.h» 


int pthread key create(pthread key t *key, void (*destructor)(void *)); 





Returns 0 on success, or a positive error number on error 








参数 destructor TR |] — Hae X EZ, Ho n T : 
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void 
dest(void *value) 


/* Release storage pointed to by 'value' */ 


j 

只 要 线程 终止 时 与 key 的 关联 值 不 为 NULL，Pthreads API 会 上 自动 执行 解构 函数 ， 并 将 与 
key 的 关联 值 作为 参数 传 入 解构 函数 。 传 入 的 值 通常 是 与 该 键 天 联 ， 日 指 癌 线程 特有 数据 块 的 
指针 。 如 果 无 需 解构 ， 那 么 可 将 destructor 设置 为 NULL. 


如 末 一 个 线程 有 多 个 线程 特有 数据 块 ， 那 么 对 各 个 解构 函数 的 调用 顺序 是 不 确定 的 。 对 
每 个 解构 函数 的 设计 应 相互 独立 。 


观察 线程 特有 数据 的 实现 有 助 于 理解 它们 的 使 用 方法 。 典 型 的 实现 (NPTL 即 在 此 列 ) 会 











、 " T POM . pthread. keys[0] 在 用 ”标志 
。 一 个 全 局 (进程 范围 ) 数组 ， 存 放 线程 特有 数据 ER 
的 键 信息 。 一 一 一 
B i D T i pthread_keys/ 1] EH " bs 
。 每 个 线程 包含 一 个 数组 , 存 有 为 每 个 线程 分 配 的 mr 
线程 特有 数据 块 的 指针 〈 通 过 调用 pthread_ 一 一 


pthread. keys[2] “在 用 ”标志 


setspecific() 来 存储 指针 )。 de 
解构 函数 指针 


在 这 一 实现 中 ，Ppthread_key_create0 返 回 的 pthread_ 
key t 类 型 值 只 是 对 全 局 数组 的 索引 (index )， 标 记 为 
pthread_keys， 其 格式 如 图 31-2 所 示 。 数 组 的 每 个 元 素 
都 是 一 个 包含 两 个 字段 Cied) 的 结构 。 第 一 个 字段 标 c m 
记 该 数组 元 素 是 否 在 用 〈 即 已 由 之 前 对 pthread_key。 — 589172: SASTEEEUSSESGSR, 
createO 的 调用 分 配 )。 第 二 个 学 段 用 于 存放 针对 此 键 、 线 程 特 有 数据 块 的 解构 函数 指针 《是 图 
数 pthread_key_crateO0 中 参数 destructor 的 一 份 找 贝 )。 

PAZ. pthread_setspecificO 要 求 Pthreads API 将 value 的 副本 存储 于 一 数据 结构 中 ， 并 将 value 
与 调用 线程 以 及 key 相关 联 (key 由 之 前 对 pthread_key_create() 的 调用 返回 )。Pthread_getspecific() 
为 数 执行 的 操作 与 乙 相 反 ， 返 回忆 前 与 本 线程 及 给 定 key 相关 的 值 (value)。 



































#include «pthread.h» 


int pthread setspecific(pthread key t key, const void *value); 
Returns 0 on success, or a positive error number on error 
void *pthread getspecific(pthread key t key); 


Returns pointer, or NULL if no thread-specific data isassociated with key 











函数 pthread. setspecificOIT] Z2: X value 通常 是 一 指针 ， 指 问 由 调用 者 分 配 的 一 块 内 存 。 当 
线程 终止 时 ， 会 将 该 指针 作为 参数 传递 给 与 key 对 应 的 解构 函数 。 


参数 value 也 可 以 不 是 一 个 指 问 内 存 区 域 的 指针 ， 而 是 任何 可 以 赋值 (通过 强制 转换 ) 
给 void# 的 标量 值 。 在 这 种 情况 下 ， 先 六 对 pthread_key_create() 冰 数 的 调用 应 将 destructor 
Fe 5E AJ NULL. 


图 31-3 展示 了 用 于 存储 value MZE 4I ER] i SEIL. 图 中 假设 将 pthread_keys[1] 分 配给 
RK% myfunc()。Pthreads API 为 每 个 函数 维护 指向 线程 特有 数据 块 的 一 个 指针 数组 。 其 中 每 个 数 
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2H 76 zs 45-3 KK] 31-2 中 全 局 pthread. keys AARI ——— X Y. AŽ pthread | setspecificO 4E 3H 
针 数 组 中 为 每 个 调用 线程 设置 与 key HARIR. 


”线程 A 


jsd1O1 
tsd[ 1] 
tsd[2] 


线程 A 中 函数 my 


func-() 的 线程 特 
有 数据 缓冲 区 





所 有 均 与 线程 B 中 对 应 线程 B 中 函数 my 
pthread. keys[ 1 SEE key1 的 值 E RES 





tsd[0] 
线程 C 中 国 数 my 
tsd[ 1] | func() 的 线程 特 
有 数据 缓 促 区 


tsd[2] 





31-3: 用 于 实现 线程 特有 数据 (TSD) 指针 的 数据 结构 


当 线 程 刚 刚 创 建 时 ， 会 将 所 有 线程 特有 数据 的 指针 都 初始 化 为 NULL。 这 意味 看 当 线 程 
初次 调用 库 函 数 时 , 必须 使 用 pthread_getspecificO 函 数 来 检查 该 线程 是 否 已 有 与 key 对 应 的 关 
联 值 。 如 果 没 有 ， 那 么 此 函数 会 分 配 一 块 内 存 并 通过 pthread_setspecificO 保 存 指 癌 该 内 存 块 的 

旧 针 。 在 下 一 和 实现 线程 安全 厂 的 stderrorO 图 数 时 ， 将 给 出 示例 。 


31.3.4 ”使 用 线程 特有 数据 API 
3.4 TEAR WARE stderror(O) 函 数 时 曾 指出 ， 可 能 会 返回 一 个 指 问 静态 分 配 字 符 串 的 


指针 作为 函数 结果 。 这 意味 看 stderror() 可 能 不 是 线程 安全 的 。 后 面 将 以 数 页 篇 幅 讨 论 一 下 非 
线程 安全 的 stderror0 实 现 ， 接 看 说 明 如 何 使 用 线程 特有 数据 来 实现 该 函数 的 线程 安全 。 

















在 包括 Linux 在 内 的 许多 UNIX 实现 中 ， 由 标准 C 语言 函数 库 提 供 的 stderrorO 函 数 都 
征 线程 安全 的 。 不 过 ， 由 于 SUSv3 并 未 规定 该 函数 必须 是 线程 安全 的 ， 而 且 这 一 stderror() 
的 实现 又 为 使 用 线程 特有 数据 提供 了 一 个 简单 范例 ， 故 而 在 此 将 其 作为 示例 。 





程序 清单 31-1 演示 了 非 线程 安全 版 strerrorO 国 数 的 一 个 简单 实现 。 访 函数 利用 了 由 glibc 
定义 的 一 对 全 局 变量 : _sys_errlist 是 一 个 指针 数组 ， 其 每 个 元 素 指 同一 个 与 errno 错误 号 相 匹 
配 的 字符 串 〈 因 此 ， 例 如 ，_sys_errlistI[EINVAL] 即 指 回 字符 串 Invalid operation); _sys_nerr 表 
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7. sys. errlist 中 的 元 素 个 数 。 


程序 清单 31-1:， 非 线程 安全 版 strerror() 函 数 的 一 种 实现 
threads/strerror.c 
#define GNU SOURCE /* Get ' sys nerr' and ' sys errlist' 
declarations from «stdio.h» */ 


#include «stdio.h» 
#include «string.h» /* Get declaration of strerror() */ 


itdefine MAX ERROR LEN 256 /* Maximum length of string 
returned by strerror() */ 


static char buf[MAX ERROR LEN]; /* Statically allocated return buffer */ 


char * 
strerror(int err) 


if (err < 0 || err >= sys nerr || sys errlist[err] == NULL) { 
snprintf(buf, MAX ERROR LEN, "Unknown error Xd", err); 

} else { 
strncpy(buf, sys errlist[err], MAX ERROR LEN - 1); 
buf[MAX ERROR LEN - 1] = '\o'; /* Ensure null termination */ 


j 


return buf; 


threads/strerror.c 
可 以 利用 程序 清单 31-2 中 程序 来 展示 程序 清单 31-1. 中 非 线 程 安 全 版 的 streerrorO 实 现 所 
造成 的 后 果 。 该 程序 分 别 从 两 个 不 同 线程 中 调用 strerror0， 并 且 均 在 两 个 线程 调用 stderrorQ 
之 后 才 显 示 返 回 结 末 。 虽 然 两 个 线程 为 strerrorO 指 定 的 参数 值 不 同 (EINVAL 和 EPERMD, 在 
与 程序 清单 31-1 版 的 strerror() 链 接 、 编 译 后 ， 运 行 该 程序 将 产生 如 下 结果 : 


$ ./strerror test 

Main thread has called strerror() 

Other thread about to call strerror() 

Other thread: str (0x804a7c0) - Operation not permitted 
Main thread: str (0x804a7cO) = Operation not permitted 


两 个 线程 都 显示 与 EPERM 对 应 的 erno 字符 串 ， 因 为 第 二 个 线程 对 strerror0 的 调用 (在 函数 
threadFuncO 中 ) 履 关 了 主线 程 调 用 strerror(0) 时 写 入 绥 冲 区 的 内 容 。 检 查 输 出 结果 可 以 发 现 ， 
两 个 线程 的 局 部 变量 str 均 指 向 同一 内 存 地 址 。 


程序 清单 31-2: 从 两 个 不 同 线程 调用 strerror() 






































threads/strerror test.c 


itinclude <stdio.h> 

&include <string.h> /* Get declaration of strerror() */ 
include «pthread.h» 

#include "tlpi hdr.h" 


static void * 
threadFunc(void *arg) 


{ 


char *str; 


printf("Other thread about to call strerror()Wn"); 
str - strerror(EPERM); 
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printf("Other thread: str (Xp) = %s\n", str, str); 


return NULL; 
} 


int 
main(int argc, char *argv[]) 


pthread t t; 
int s; 
char *str; 


str - strerror(EINVAL); 
printf("Main thread has called strerror()Wn"); 


s = pthread create(&t, NULL, threadFunc, NULL); 
if (s != 0) 
errExitEN(s, "pthread create"); 


s - pthread join(t, NULL); 
if (s !- 0) 
errExitEN(s, "pthread join"); 


printf("Main thread: str (Xp) = %s\n", str, str); 


exit(EXIT SUCCESS); 


threads/strerror test.c 


程序 清单 31-3 是 对 函数 strerrorO 的 全 新 实现 ， 使 用 了 线程 特有 数据 来 确保 线程 安全 。 
程序 清单 31-3. 使 用 线程 特有 数据 以 实现 线程 安全 的 sterror() Ek Zx 


threads/strerror tsd.c 
#define GNU SOURCE /* Get ' sys nerr' and ' sys errlist' 
declarations from «stdio.h» */ 
#include <stdio.h> 
#include <string.h> /* Get declaration of strerror() */ 


#include <pthread.h> 
#include "tlpi hdr.h" 


static pthread once t once - PTHREAD ONCE INIT; 
static pthread key t strerrorKey; 


#define MAX ERROR LEN 256 /* Maximum length of string in per-thread 
buffer returned by strerror() */ 

static void /* Free thread-specific data buffer */ 

(D destructor(void *buf) 
{ 
free(buf); 
j 
static void /* One-time key creation function */ 


2) createKey(void) 
int s; 


/* Allocate a unique thread-specific data key and save the address 
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of the destructor for thread-specific data buffers */ 


© s = pthread key create(&strerrorKey, destructor); 
if (s != 0) 
errExitEN(s, "pthread key create"); 
} 


char * 
strerror(int err) 


{ 
int s; 
char *buf; 


/* Make first caller allocate key for thread-specific data */ 
(4) s = pthread once(&once, createKey); 
if (s != 0) 


errExitEN(s, "pthread once"); 


© buf = pthread getspecific(strerrorKey); 


if (buf == NULL) { /* If first call from this thread, allocate 
buffer for thread, and save its location */ 
© buf = malloc(MAX ERROR LEN); 


if (buf -- NULL) 
errExit("malloc"); 


e) s = pthread setspecific(strerrorKey, buf); 
if (s !- 0) 
errExitEN(s, "pthread setspecific"); 
} 
if (err < 0 || err >= sys nerr || sys errlist[err] == NULL) { 
snprintf(buf, MAX ERROR LEN, "Unknown error Xd", err); 
} else { 
strncpy(buf, sys errlist[err], MAX ERROR LEN - 1); 
buf[MAX ERROR LEN - 1] = '\o'; /* Ensure null termination */ 
} 


return buf; 


threads/strerror tsd.c 


改进 版 strerror0 所 做 的 第 一 步 是 调用 pthread_onceO)， 以 确保 (从 任何 线程 》 对 该 函数 
的 首次 调用 将 执行 createKey 022. PR 2C createKey 0: Js] H] pthread_key_create() 来 分 配 一 个 线程 特 
有 数据 的 键 (key)， 并 将 其 存储 于 全 局 变量 strerrorKeyG) 中 。 对 pthread key. createO f 7] H EJ s] 
也 会 记录 解构 函数 也 的 地 址 ， 将 使 用 该 解构 函数 来 释放 与 键 对 应 的 线程 特有 数据 绥 冲 区 。 

RA RZ strerrorO 调 用 pthread_getspecific0 以 获取 该 线程 中 对 应 于 strerrorKey 的 唯一 
缓冲 区 地 址 。 如 果 pthread_getspecificO 返 回 NULL， 这 表明 该 线程 是 首次 调用 strerrorO K, Al 
此 函数 会 调用 malloc0(6) 分 配 一 个 新 缓冲 区 ， 并 使 用 pthread_setspecificOCo 来 保存 该 缓冲 区 的 
地 址 。 如 果 pthread_getspecificO) 的 返回 值 非 NULL， 那 么 该 值 指 问 业 已 存在 的 缓冲 区 ， 此 绥 冲 
区 由 之 前 对 strerrorO 的 调用 所 分 配 。 

这 一 Strerror0 国 数 实现 的 剩余 部 分 与 非 线 程 安全 成 的 前 述 实现 相 类 似 ， 唯 一 的 区 别 在 于 ， 
buf 是 线程 特有 数据 的 绥 剖 区 地 址 ， 而 非 静 态 变 量 。 

如 果 使 用 新 版 strerror0 〈 程 序 清单 31-3) 编译 链接 测试 程序 〈 程 序 清单 31-2) strerror test_tsd， 
程序 运行 会 有 如 下 结 来 : 




















548 Linux/UNIX 系统 编程 手册 ( 上 册 ) 
异步 社区 会 员 flyman150(2410757683@qq.com) EF 尊重 版 权 


$ ./strerror test tsd 

Main thread has called strerror() 

Other thread about to call strerror() 

Other thread: str (0x804b158) - Operation not permitted 
Main thread: str (0x804b008) - Invalid argument 


根据 这 一 输出 ， 可 以 看 出 新 版 strerro0 是 线程 安全 的 : 两 个 线程 中 局 部 变量 str 所 指 问 的 
地 址 是 不 同 的 。 


31.3.5 ”线程 特有 数据 的 实现 限制 


正如 对 线程 特有 数据 典型 实现 过 程 的 描述 所 揭示 的 ， 实 现 可 能 要 对 其 所 文 持 的 线程 特有 
数据 键 的 数量 加 以 限制 。SUSv3 要 求 至 少 文 持 128 (_POSIX_THREAD_KEYS_MAX) 个 键 。 
应 用 程序 要 么 通过 对 PTHREAD KEY MAX Gg X T «limits.h» ) 的 定义 ， 要 么 通过 调用 
sysconf(_SC_THREAD_KEYS_MAX)， 来 确定 实际 文 持 的 键 数量 。Linux 文 持 多 达 1024 个 键 。 

即使 128 个 键 对 于 大 多 数 应 用 来 说 也 已 经 绰绰有余 。 这 是 因为 ， 每 个 库 函 数 应 该 上 只 会 使 
用 到 少量 的 键 ， 通 常会 只 用 一 个 。 如 果 一 个 函数 震 要 多 个 线程 尾 有 数据 的 值 ， 通 常 可 将 这 些 
值 置 于 一 个 结构 中 ， 并 将 该 结构 仅 与 一 个 线程 特有 数据 的 键 关联 。 


31.4 线程 局 部 存储 


关 似 于 线程 特有 数据 ， 线 程 局 部 存储 提供 了 持久 的 每 线程 存储 。 作 为 非 标准 特性 ， 
诸多 其 他 的 UNIX 实现 (例如 Solaris 和 FreeBSD) 为 其 提供 了 相同 ， 或 类 似 的 接口 形 
Iks 

线程 局 部 存储 的 主要 优点 在 于 ， 比 线程 特有 数据 的 使 用 要 简单 。 要 创建 线程 局 部 变量 ， 只 
需 简 单 地 在 全 局 或 静态 变量 的 声明 中 包含 __thread 说 明 符 即 可 。 

static _ thread buf[MAX ERROR LEN|]; 

但 凡 市 有 这 种 说 明和 从 的 变量 ， 每 个 线程 都 拥有 一 份 对 变量 的 拷贝 。 线 程 局 部 存储 中 的 变 
量 将 一 直 存 在 ， 直 至 线程 终止 ， 届 时 会 自动 释放 这 一 存储 。 

关于 线程 局 部 变量 的 声明 和 使 用 ， 需 要 注意 如 下 几 点 。 

e 如果 变量 声明 中 使 用 了 关键 字 static 或 extern， 那 么 关键 字 _ thread 必须 紧 随 其 

局 

e 与 一 般 的 全 局 或 静态 变量 声明 一 样 ， 线 程 局 部 变量 在 声明 时 可 设置 一 个 初始 值 。 

e 可 以 使 用 C 语言 取 址 操作 符 〈(&&) 来 获取 线程 局 部 变量 的 地 址 。 

线程 局 部 存储 需要 内 核 CH Linux 2.6 提供 )、Pthreads 实现 (由 NPTL 提供 ) 以 及 C 编译 
项 《在 X86-32 平台 上 由 gcc 3.3 或 后 续 厂 本 提供 ) 的 文 持 。 

程序 清单 31-4 提供 了 使 用 线程 局 部 存储 实现 线程 安全 版 strerror0) 函 数 的 例子 。 如 果 用 该 
版 strerror0 与 测试 程序 (程序 清单 31-2) 编译 、 链 接 、 生 成 strerror_test_tls， 那 么 运行 时 将 产 
^E PA: 


$ ./strerror test tls 

Main thread has called strerror() 

Other thread about to call strerror() 

Other thread: str (0x40376ab0) = Operation not permitted 
Main thread: str (0x40175080) = Invalid argument 
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程序 清单 31-4: 使 用 线程 局 部 存储 实现 线程 安全 版 的 strerror(O) 函 数 


一 threads/strerror tls.c 

#define GNU SOURCE /* Get ' sys nerr' and ' sys errlist' 
declarations from «stdio.h» */ 

#include «stdio.h» 

#include «string.h» /* Get declaration of strerror() */ 

include «pthread.h» 


#define MAX ERROR LEN 256 /* Maximum length of string in per-thread 
buffer returned by strerror() */ 


static _ thread char buf[MAX ERROR LEN]; 
/* Thread-local return buffer */ 


char * 
strerror(int err) 


if (err < 0 || err >= sys nerr || sys errlist[err] == NULL) { 
snprintf(buf, MAX ERROR LEN, "Unknown error Xd", err); 
} else { 
strncpy(buf, sys errlist[err], MAX ERROR LEN - 1); 
buf[MAX ERROR LEN - 1] = '\o'; /* Ensure null termination */ 
} 


return buf; 


threads/strerror tls.c 


31.5 总结 


知 一 函数 可 由 多 个 线程 同时 安全 调用 ， 则 称 之 为 线程 安全 的 函数 。 使 用 全 局 或 静态 变量 
是 导 任 函数 非 线 程 安全 的 通常 原因 。 在 多 线程 应 用 中 ， 保 障 非 线 程 安 全 函数 安全 的 手段 之 一 
是 运用 互 太 锁 来 防护 对 该 函数 的 所 有 调用 。 这 种 方法 融 来 了 并 发 性 能 的 下 降 ， 因 为 同一 时 扣 
L1 





























REA -TREZIT ZAA. FRERE TAE: 仅 在 函数 中 操作 共 于 变量 (临界 
区 ) BS CB gu Je DA 8c Fe ce 





使 用 互 斥 量 可 以 实现 大 部 分 图 数 的 线程 安全 ， 不 过 由 于 互 斥 量 的 加 、 解 锁 开 销 ， 故 而 也 
市 来 了 性 能 的 下 降 。 如 能 避免 使 用 全 局 或 静态 变量 ， 可 重 入 函数 则 无 需 使 用 互 斥 量 即 可 实现 
线程 安全 。 

SUSv3 所 规范 的 大 部 分 图 数 都 需 实 现 线程 安全 。SUSv3 同时 也 列 出 了 小 部 分 无 需 实 现 线 
程 安 全 的 阔 数 。 一 般 情况 下 ， 这 些 函 数 将 前 态 存 储 返 回 给 调用 者 ， 或 者 在 对 函数 的 连续 调用 
间 进 行 信息 维护 。 根 据 定义 ， 这 些 函 数 是 不 可 香 入 的 ， 也 不 能 使 用 互 斥 量 来 确 你 其 线程 安全 。 
本 章 讨论 了 两 种 大 致 相当 的 编程 扩 术 一 一 线程 竺 有 数据 和 线程 局 部 人 存储 一 可 在 无 需 改 变 图 
数 授 口 定义 的 情况 下 保障 不 安全 函数 的 线程 安全 。 这 两 种 拷 术 均 允 许 函 数 分 配 持 久 的 、 基 于 
线程 的 存储 。 



























































更 多 信息 
请 参考 29.10 市 所 列 的 更 多 信息 来 源 。 
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31.6 


31-1. 


练习 


试 实现 函数 one_time_init(control，init)， 要 求 与 函数 pthread_once0) 执 行 等 同 操作 。 

参数 control 应 为 一 指针 ， 指 问 经 缠 态 分 配 的 结构 ， 其 中 包含 一 个 布尔 型 变量 和 一 
个 互 太 量 。 布 尔 型 变量 用 以 标识 函数 init 是 否 曾 被 调用 过 ， 而 由 互 斥 量 来 控制 对 变 
量 的 访问 。 为 简化 函数 实现 ， 可 以 忽略 诸如 initO 调 用 失败 或 者 在 由 线程 初次 调用 
时 被 取 消 的 情况 《〈 获 即 ， 无 需 为 此 做 特别 设计 ， 如 末 真 发 生 了 此 关 事 件 ， 那 么 下 一 
个 调用 one_time_initO 的 线程 会 重新 调用 initO )。 

使 用 线程 特有 数据 重新 实现 线程 安全 厂 的 图 数 dirname() 和 basenameO. (18.14 7$). 
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. 92. 


线程 : 线程 取消 





在 通常 情况 下 ， 程 序 中 的 多 个 线程 会 并 发 执行 ， 每 个 线程 各 司 其 职 ， 直 至 其 决意 退出 ， 
随即 会 调用 函数 pthread_exit0 或 者 从 线程 局 动 函 数 中 返回 。 

有 时候 ， 和 需要 将 一 个 线程 取消 (cancel)。 亦 即 ， 癌 线程 发 送 一 个 请 求 ， 要 求 其 立即 退出 。 
比如 ， 一 组 线程 正在 执行 一 个 运算 ， 一旦 某 个 线程 检测 到 错误 发 生 ， 需 要 其 他 线程 退出 ， 取 
消 线 程 的 功能 这 时 束 派 上 用 场 。 还 有 一 种 情况 ,一 个 由 图 形 用 户 界 面 (GUI) 驱动 的 应 用 程序 
可 能 会 提供 一 个 “取消 ”按钮 ， 以 便 用 户 可 以 终止 后 台 某 一 线程 正在 执行 的 任务 。 这 种 情况 
下 ， 主 线程 (控制 图 形 用 户 界 和 面 〉 和 需要 请 求 后 台 线 程 退 出 。 

本 章 就 来 讨论 POSIX 线程 的 取消 机 制 。 

















32.1 取消 一 个 线程 


FA Zt pthread_cancel0 问 由 thread 指定 的 线程 友 送 一 个 取消 请 求 。 





#include <pthread.h> 


int pthread cancel(pthread t thread); 


Returns 0 on success, or a positive error number on error 











Act BGBiBKJS. Kt pthread cancelOz4 BR [n], MSS F H PREE Hh o 
;准确 地 说 ， 目 标 线 程 会 发 生 什 么 ? 何 时 发 生 ? 这 些 都 取决 于 下 市 将 要 述 及 的 线程 取消 状 
A (state) 和 类 型 (type). 


32.2 ”取消 状态 及 类 型 


FK ZI pthread_setcancelstate() 和 pthread_setcanceltypeO 会 设 定 标 志 , 允许 线程 对 取消 请 求 的 
啊 应 过 程 加 以 控制 。 
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include «pthread.h» 


int pthread setcancelstate(int state, int *oldstate); 
int pthread setcanceltype(int type, int *oldtype); 


Doth return 0 on success, or a positive error number on error 














PEZ. pthread_setcancelstateO 会 将 调用 线程 的 取消 性 状态 置 为 参数 state 所 给 定 的 值 。 该 参 
数 的 值 如 下 。 


PTHREAD CANCEL DISABLE 

线程 不 可 取消 。 如 末 此 类 线程 收 到 取消 请 求 ， 则 会 将 请 求 挂 起 ， 直 全 将 线程 的 取消 状态 
置 为 局 用 。 

PTHREAD CANCEL ENABLE 

线程 可 以 取消 。 这 是 新 建 线程 取消 性 状态 的 默认 值 。 

线程 的 机 一 取消 性 状态 将 返回 至 参数 oldstate 所 指 回 的 位 置 。 

如 果 对 前 一 状态 没有 兴趣 ，Linux 允许 将 oldstate 置 为 NULL. 在 很 多 其 他 的 系统 实现 中 ， 
情况 也 是 如 此 。 不 过 ，SUSv3 并 没有 规范 这 一 特性 ， 所 以 要 保证 应 用 的 可 移植 性 ， 恕 不 能 依 
赖 这 一 特性 。 应 该 总 是 为 oldstate 设置 一 个 非 NULL 的 值 。 

如 果 线 程 执行 的 代码 厂 段 需要 不 则 靳 地 一 气 呵 成 ， 那 么 临时 屏 闭 线程 的 取消 性 状态 
(PTHREAD CANCEL DISABLE) 就 变 得 很 有 必要 。 

如 果 线 程 的 取消 性 状态 为 “启用 ”(PTHREAD_CANCEL ENABLE)， 那 么 对 取消 请 求 的 
处 理 则 取决 于 线程 的 取消 性 类 型 ， 该 类 型 可 以 通过 调用 函数 pthread_setcanceltypeO 时 的 参数 
type 给 定 。 参 数 type 有 如 下 值 : 

PTHREAD CANCEL ASYNCHRONOUS 

可 能 会 在 任何 时 点 (也 许 是 立即 取消 ， 但 不 一 定 〉 取消 线程 。 异 步 取消 的 应 用 场景 很 少 ， 
将 延 后 至 32.6 节 再 做 讨论 。 

PTHREAD CANCEL DEFERED 

取消 请 求 保 持 挂 起 状态 ， 下 至 到 达 取 消 点 (cancellation point, W P). X EN EASE 
的 缺 省 类 型 。 后 续 各 节 将 介绍 延迟 取消 (deferred cancelability) W EZAT 。 

线程 原 有 的 取消 类 型 将 返回 至 参数 oldtype 所 指 问 的 位 置 。 

与 图 数 pthread_setcancelstateO 的 参数 oldstate 类 似 ， 如 果 不 关 心 原 有 取消 类 型 ， 许 多 系统 实 
现 (包括 Linux) 允许 将 oldtype 置 为 NULL。 同 样 ，SUSv3 也 没有 规范 这 一 行为 ， 所 以 需要 保 
障 可 移植 性 的 应 用 不 应 使 用 这 一 特性 ， 应 该 总 是 为 oldtype 设置 一 个 非 NULL 值 。 




















当 东 线程 调用 forkO 时 ， 子 进程 会 继承 调用 线程 的 取消 性 类 型 及 状态 。 而 当 茶 线程 调用 
execO 时 ， 会 将 痢 程 序 主 线程 的 取消 性 类 型 及 状态 分 别 重 置 为 PITHREAD_ CANCEL_ NABLE 
和 PTHREAD CANCEL DEFERRED. 





32.3 ”取消 点 


否 将 线程 的 取消 性 状态 和 类 型 分 别 置 为 启用 和 延 运 ， 仪 当 线 程 抵 达 某 个 取消 点 (cancellation 
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point) 时， 取消 请 求 才 会 起 作用 。 取 清点 即 是 对 由 实现 定义 的 一 组 函数 之 一 加 以 调用 。 





SUSv3 规定 ， 实 现 大 提供 了 表 32-1 中 所 列 的 函数 ， 则 这 些 函 数 必 须 是 取消 点。 其 中 的 大 
部 分 函数 都 有 能 力 将 线程 无 限期 地 培 守 起 来 。 


表 32-1: SUSv3 AED e BOR RB ERI SAT 


accept() 

aio suspend() 
clock. nanosleep() 
close() 

connect() 

creat() 

fentl(F SETLKW) 
fsync() 

fdatasync() 
getmsg() 
getpmsg() 

lockf(F LOCK) 
mq receive() 

mq. send() 

mq timedreceive() 
mq timedsend() 
msgrcv() 

msgsnd() 


msync() 


nanosleep() 

open() 

pause() 

poll() 

pread() 

pselect() 
pthread cond timedwait() 
pthread cond wait() 
pthread join() 
pthread testcancel() 
putmsg() 

putpmsg() 

pwrite() 

read() 

readv() 

recv() 

recvfrom() 
recvmsg() 

select() 


sem timedwait() 
sem wait() 
send() 
sendmsg() 
sendto() 


sigpause() 
sigsuspend() 


sigtimedwait() 


sigwait() 
sigwaitinfo() 
sleep() 
system() 
tcdrain() 
usleep() 
wait() 
waitid() 
waitpid() 


write() 





writev() 


除 表 32-1 所 列 图 数 之 外 ，SUSv3 WFR E T KERA RAKIM EUER E XJ IBUB pi e 
其 中 包括 stdio 函数 、dlopen API, syslog API, nftw(. popenO. semopO., unlinkO, ARME 
如 utmp 之 类 的 系统 文件 中 获取 信息 的 各 种 函数 。 可 移植 应 用 程序 必须 正确 处 理 这 一 情况 : 线 
程 在 调用 这 些 函 数 时 有 可 能 遭 到 取消 。 

SUSv3 规定 ， 除 了 上 述 两 组 必须 或 可 能 是 可 取消 点 的 函数 之 外 ， 不 得 将 标准 中 的 任何 其 




















他 函数 视 为 取消 点 《〈 尔 即 ， 调 用 这 些 函 数 不 会 招致 线程 取消 ， 可 移植 程序 无 需 加 以 处 理 )。 
SUSv4 在 必须 的 可 取消 点 函数 列表 中 增加 了 openat0， 并 移 除 了 函数 sigpause0 (将 其 移 
全 “可 能 的 ”取消 点 函数 列表 中 〉 和 函数 usleepO (已 从 标准 中 删除 )。 


系统 实现 可 随意 将 标准 并 未 规范 的 其 他 冰 数 标记 为 取消 点 。 任 何 可 能 造成 培 赛 的 函数 











《有 可 能 是 因为 需要 访问 文件 ) 都 是 取消 点 的 理想 候选 对 象 。 出 于 这 一 理由 ，glibc 将 其 中 的 


许多 非 标准 函数 标记 为 取消 点 。 





线程 一 旦 收 到 取消 请 求 ， 且 局 用 了 取消 性 状态 并 将 类 型 置 为 延 人 运 ， 则 其 会 在 下 次 抵达 取 


消 点 时 终止 。 如 果 该 线程 尚未 


A BT 





JJ I^j 





(not detached), JA 29 Bj 1E-Hz 4E 7 fi P £ Re. AL EH SR 


线程 对 其 进行 连接 (join), ERL, HERZ pthread_join0 中 第 二 个 参数 的 将 是 一 个 特 


原 值 : PTHREAD CANCELED. 


示例 程序 


程序 清单 32-1 是 一 个 使 用 pthread_cancel0 的 简单 例子 。 主 程序 创建 一 个 线程 来 执行 无 限 循 
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环 ， 每 次 都 在 休眠 一 秒 后 打印 循环 计数 器 的 值 。( 仅 当 向 其 发 送 取消 请 求 或 者 进程 退出 时 ， 该 线程 
才 会 终止 。) 同时 ， 主 程序 将 休眠 3 秒 ， 随 即 加 新 创建 的 线程 发 送 取消 请 求 。 程 序 运行 结果 如 下 : 

$ ./t pthread cancel 

New thread started 

Loop 1 

Loop 2 

Loop 3 

Thread was canceled 


程序 清单 32-1: 调用 pthread_cancel( 取 消 线程 








threads/thread cancel.c 


include «pthread.h» 
#include "tlpi hdr.h" 


static void * 
threadFunc(void *arg) 


| 


j 


int 


int j; 
printf("New thread startedAn"); /* May be a cancellation point */ 
for (j = 5; ; j+) { 
printf("Loop %d\n", j); /* May be a cancellation point */ 
sleep(1); /* A cancellation point */ 
} 


/* NOTREACHED */ 
return NULL; 


main(int argc, char *argv[]) 


{ 


pthread t thr; 
int s; 
void *res; 


s = pthread create(&thr, NULL, threadFunc, NULL); 


if (s != 0) 
errExitEN(s, "pthread create"); 


sleep(3); /* Allow new thread to run a while */ 


S - pthread cancel(thr); 
if (s != 0) 
errExitEN(s, "pthread cancel"); 


s = pthread join(thr, &res); 
if (s != 0) 
errExitEN(s, "pthread join"); 


if (res -- PTHREAD CANCELED) 
printf("Thread was canceledWn"); 


else 
printf("Thread was not canceled (should not happen!)in"); 


exit(EXIT SUCCESS); 


threads/thread cancel.c 
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32.4 线程 可 取消 性 的 检测 


在 程序 清单 32-1 P, H main0 创 建 的 线程 会 执行 到 属于 取消 点 的 函数 (sleep0 属 于 取 
消 点 ，printfO 可 能 也 是 )， 因 而 会 接受 取消 请 求 。 不 过 ， 假 设 线程 执行 的 是 一 个 不 含 取消 
点 的 循环 (计算 密集 型 [compute-bound] 循环 )， 这 时 ， 线 程 永 远 也 不 会 啊 应 取消 请 求 。 

函数 pthread_testcancel0 的 目的 很 简单 ， 束 是 产生 一 个 取消 点 。 线 程 如 果 已 有 处 于 挂 起 状 
态 的 取消 请 求 ， 那 么 只 要 调用 该 函数 ， 线 程 就 会 随 之 终止 。 

















#include «pthread.h» 


void pthread testcancel(void); 








当 线 程 执行 的 代码 未 包含 取消 点 时 ， 可 以 周期 性 地 调用 pthread_testcancel 中 )， 以 确 你 对 其 
他 线程 问 其 发 送 的 取消 请 求 做 出 及 时 啊 应 。 


32.5 ”清理 函数 (cleanup handler) 


一 旦 有 处 于 挂 起 状态 的 取消 请 求 ， 线 程 在 执行 到 取消 点 时 如 果 只 是 草草 收场 ， 这 会 将 共享 
变量 以 及 Pthreads 对 象 〈“ 例 如 互 斥 量 ) 置 于 一 种 不 一 致 状态 ， 可 能 导致 进程 中 其 他 线程 产生 错 
误 结果 、 死 锁 ， 甚 至 造成 程序 骨 尝 。 为 规避 这 一 问题 ， 线 程 可 以 设置 一 个 或 多 个 清理 函数 ， 当 线 
程 莹 取消 时 会 自动 运行 这 些 函 数 ， 在 线程 终止 之 前 可 执行 诸如 修改 全 局 变量 ， 解 锁 互 帮 量 等 动作 。 

每 个 线程 都 可 以 拥有 一 个 清理 函数 栈 。 当 线程 遭 取 消 时 ， 会 沿 该 栈 目 顶 回 下 依次 执行 清 
理 图 数 ， 首 先 会 执行 最 近 设 普 的 函数 ， 接 看 是 次 新 的 图 数 ， 以 此 类 推 。 当 执行 完 毛 有 清理 函 
数 后 ， 线 程 终 止 。 

PK Zi pthread_cleanup_push() 和 pthread_cleanup_popO 分 别 负 责问 调用 线程 的 清理 函数 栈 
添加 和 移 除 清理 函数 。 



































#include «pthread.h» 


void pthread cleanup push(void (*routine)(void*), void *arg); 
void pthread cleanup pop(int execute); 








pthread cleanup push() Z4 2$ routine 所 含 的 函数 地 址 添加 到 调用 线程 的 清理 函数 栈 顶 。 
参数 routine 是 一 个 函数 指针 ， 格 式 如 下 : 
void 


routine(void *arg) 


/* Code to perform cleanup */ 


} 

执行 pthread_cleanup_pushO 时 给 定 的 arg 值 , 会 作为 调用 清理 函数 时 的 参数 。 其 参数 类 型 
为 void*， 如 果 强 制 装 换 使 用 得 当 ， 那 么 通过 该 参数 可 以 传 入 各 种 类 型 的 数据 。 

通常 ， 线 程 如 在 执行 一 段 特殊 代 但 时 遭 到 取消 ， 才 需要 执行 清理 动作 。 如 果 线 程 顺 利 执 
行 完 这 段 代 码 而 未 遭 取 消 ， 那 么 就 不 再 需要 清理 。 所 以 ， 每 个 对 pthread_cleanup_push() 的 调 
用 都 会 伴随 着 对 pthread_cleanup_pop0 的 调用 。 此 函数 从 清理 孔 数 栈 中 移 除 最 顶层 的 函数 。 如 
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果 参 数 execute 非 零 ， 那 么 无 论 如 何 都 会 执行 清理 函数 。 在 函数 未 遭 取消 而 又 希望 执行 清理 动 
作 的 情况 下 ， 这 会 非常 方便 。 

尽管 这 里 把 pthread_cleanup_pushO0 和 pthread. cleanup popO ix^ 2g KIZ, SUSv3 却 人 允许 将 
它们 实现 为 宏 〈macro)， 可 展开 为 分 别 由 { 和 ]} 上 所 包 囊 的 语句 序列 。 并 非 所 有 的 UNIX. 都 这 样 
做 ,不 过 包括 Linux 在 内 的 很 多 系统 都 是 使 用 宏 来 实现 的 。 这 意味 看 ，pthread_cleanup_push() 
和 与 其 配对 的 pthread_cleanup_popO 属 于 同一 个 语法 块 ,必须 一 一 对 应 。( 一 旦 以 此 方式 来 实现 
pthread_cleanup_push() 和 pthread_cleanup_popO， 在 对 两 者 的 调用 间 所 声明 的 变量 ， 其 作用 域 将 
受 限于 这 一 语法 块 。) 例如 ， 以 下 代码 束 不 正确 : 

pthread cleanup push(func, arg); 














if (cond) { 
pthread cleanup pop(0); 
} 


AETR, FREA  pthread exitOrfu£& 1E, MES H IRIT RMA E K R H 
弹出 (pop〉 的 清理 函数 。 线 程 正 第 返回 (return〉 时 不 会 执行 消 理 隙 数 。 





示例 程序 


程序 清单 32-2 提供 了 一 个 使 用 清理 函数 的 简单 例子 。 主 程序 创建 线程 @W， 线 程 肯 先 分配 
一 块 内 存 B)， 并 将 其 地 址 存储 于 buf H, REELE mtx 纪 。 因 为 线程 可 能 会 让 到 取消 ， 
所 以 调用 pthread. cleanup pushOG) KRE HERA, HET buf 中 的 地 址 作为 参数 传 入 。 如 
东 执 行 到 清理 函数 ， 那 么 清理 函数 会 释放 内 存 员 并 解锁 互 斥 量 @。 
线程 接 大 进入 循环 ， 等 待 对 条 件 变 量 cond 的 通知 9)。 取 决 于 可 执行 程序 是 否 市 有 命令 行 参 
数 ， 此 循环 会 以 以 下 两 种 方式 结束 。 
。 若 无 命令 行 参数 ， 则 由 main0@ 函 数 取 消 线程 。 此 时 ， 取 消 操 作 发 生 在 对 
pthread_cond_wait0(@) 的 调用 中 ， 此 函数 可 见于 程序 清单 32-1 中 ， 属 于 取消 点 。 作 为 
取消 动作 的 一 部 分 ， 会 目 动 调用 由 pthread cleanup. pushO Wc E My BEES A. 
。 如 朵 指定 了 命令 行 参数 ， 那 么 在 将 全 局 变量 glob 设置 为 非 零 后 ， 通 知 条 件 变 量 40。 此 
上 时， 线程 会 一 下 执行 到 pthread_cleanup_popOCD， 因 为 加 此 函数 传 入 了 非 零 参数 ， 所 以 
依然 会 调用 清理 函数 。 


程序 清单 32-2: 使 用 清理 函数 
































threads/thread cleanup.c 


itinclude «pthread.h» 
#include "tlpi hdr.h" 


static pthread cond t cond - PTHREAD COND INITIALIZER; 
static pthread mutex t mtx - PTHREAD MUTEX INITIALIZER; 


static int glob - 0; /* Predicate variable */ 
static void /* Free memory pointed to by 'arg' and unlock mutex */ 
cleanupHandler(void *arg) 
{ 

int s; 


printf("cleanup: freeing block at %p\n", arg); 
(D free(arg); 


printf("cleanup: unlocking mutex An"); 
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© s = pthread mutex unlock(8mtx); 
if (s != 0) 
errExitEN(s, "pthread mutex unlock"); 


j 


static void * 
threadFunc(void *arg) 


{ 
int s; 
void *buf = NULL; /* Buffer allocated by thread */ 
o buf - malloc(0x10000); /* Not a cancellation point */ 
printf("thread: allocated memory at Xpn", buf); 
© s = pthread mutex lock(8mtx); /* Not a cancellation point */ 


if (s != 0) 
errExitEN(s, "pthread mutex lock"); 


(5) pthread cleanup push(cleanupHandler, buf); 


while (glob -- 0) { 
© s = pthread cond wait(&cond, &mtx); /* A cancellation point */ 
if (s != 0) 
errExitEN(s, "pthread cond wait"); 


} 


printf("thread: condition wait loop completed\n"); 
e pthread cleanup pop(1); /* Executes cleanup handler */ 
return NULL; 
j 


int 
main(int argc, char *argv[]) 


pthread t thr; 


void *res; 
int s; 
© s = pthread create(&thr, NULL, threadFunc, NULL); 
if (s != 0) 
errExitEN(s, "pthread create"); 
sleep(2); /* Give thread a chance to get started */ 
if (argc == 1) { /* Cancel thread */ 
printf("main: about to cancel thread\n"); 
© s = pthread cancel(thr); 
if (s != 0) 
errExitEN(s, "pthread cancel"); 
] else { /* Signal condition variable */ 
printf("main: about to signal condition variable in"); 
glob - 1; 
(40) S = pthread cond signal(8cond); 
if (s !- 0) 
errExitEN(s, "pthread cond signal"); 
} 
(tb s - pthread join(thr, &res); 
if (s !- 0) 


errExitEN(s, "pthread join"); 
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if (res -- PTHREAD CANCELED) 
printf("main: thread was canceled Wn"); 
else 
printf("main: thread terminated normallyNn"); 


exit(EXIT SUCCESS); 


threads/thread cleanup.c 








主 程序 与 遭 终 止 线程 建立 连接 四， 并 报告 线程 是 遭 到 取消 还 是 正常 终止 。 
如 果 执 行程 序 清单 32-2 中 程序 日 不 和 之 任何 命令 行 参数 ， 那 么 main0 函 数 会 调用 pthread 
cancel0)， 清 理 函 数 也 会 得 以 目 动 执行 。 输 出 如 下 : 


$ ./thread cleanup 

thread: allocated memory at 0x804b050 
main: about to cancel thread 
cleanup: freeing block at Ox804b050 
cleanup: unlocking mutex 

main: thread was canceled 


如 果 运 行 该 程序 且 带 有 命令 行 参 数 ， 那 么 manok glob 设置 为 1 并 通知 条 件 变量 ， 清 理 
FR Zi IURI. pthread_cleanup_pop0 的 调用 执行 ， 可 以 看 到 如 下 结 


$ ./thread cleanup s 

thread: allocated memory at 0Ox804b050 
main: about to signal condition variable 
thread: condition wait loop completed 
cleanup: freeing block at 0x804b050 
cleanup: unlocking mutex 

main: thread terminated normally 























32.6 ”异步 取消 


如 条 议定 线程 为 可 措 步 取 消 时 《取消 性 类 型 为 PIHREAD_CANCEL ASYNCHRONOUS), 可 
以 在 任何 时 点 将 其 取消 ( 亦 即 ， 执 行 任 何 机 器 指 令 时 )， 取 消 动 作 不 会 拖延 到 下 一 个 取消 点 才 
执行 。 

异步 取消 的 问题 在 于 ， 尽 管 清理 函数 依然 会 得 以 执行 ， 但 处 理 函 数 却 无 从 得 知 线程 的 其 
体 状态 。 程 序 清单 32-2 采用 了 延 时 取消 类 型 ， 只 有 在 执行 到 pthread_cond_waitO 这 一 唯一 的 
取消 点 时 ， 线 程 才 会 遭 到 取消 。 此 时 可 知 ， 已 将 buf 初始 化 为 指 回 新 分 配 的 内 存 块 ， 并 且 锁 定 
THEE mtx&。 不 过 ， 要 是 采用 异步 取消 ， 就 可 以 在 任意 点 取消 线程 〈 例 如 ， 调 用 mallocOZ fij; 
调用 malloc(O 与 锁定 互 斥 量 之 间 ， 或 者 锁定 互 斥 量 之 后 )。 清 理 函 数 无 法 知道 将 在 哪里 发 生 取 
消 动 作 ， 或 者 准确 地 来 说 ， 清 理 函 数 不 清 楚 需 要 执行 哪些 清理 步骤 。 此 外 ， 线 程 也 很 可 能 在 
对 malloc0 的 调用 期 间 被 取消 ， 这 极 有 可 能 造成 后 续 的 混乱 《 见 7.1.3 市 )。 

作为 一 般 性 原则 ， 可 异步 取消 的 线程 不 应 该 分 配 任何 资源 ， 也 不 能 获取 互 斥 量 或 锁 。 这 
导 化 大量 库 函 数 无 法 使 用 ， 其 中 就 包括 Pthreads 函数 的 大 部 分 。CSUSv3 中 有 3 处 例外 
pthread cancel(), pthread setcancelstate() LAJ% pthread_setcanceltypeO0， 规 范 明 确 要 求 将 它们 实 
现 为 “异步 取消 安全 (async-cancel-safe)”， 亦 即 ， 实 现 必 须 确 保 在 可 异步 取消 的 线程 中 可 以 
安全 调用 它们 。) 换言之 ， 异 步 取消 功 能 鲜 有 应 用 场景 ， 其 中 之 一 束 是 : 取消 在 执行 计算 密集 型 
循环 的 线程 。 
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32.7 W 


PK Žr pthread_cancel0 允 许 东 线程 问 态 一 个 线程 发 送 取消 请 求 ， 要 求 目 标 线程 终止 。 

目标 线程 如 何 响应 ， 取 决 于 其 取消 性 状态 和 类 型 。 如 果 禁 用 线程 的 取消 性 状态 ， 那 么 请 
求 会 保持 挂 起 (pending) 状态 ， 直 全 将 线程 的 取消 性 状态 置 为 启用。 如 来 局 用 取消 性 状态 ， 
那么 线程 何 时 啊 应 请 求 则 依赖 于 取消 性 区 型 。 奉 闫 型 为 延迟 取消 ， 则 在 线程 下 一 次 调用 东 个 
取消 点 (由 SUSv3 标准 所 规定 的 一 系列 函数 之 一 ) 时 ， 取 消 发 生 。 如 末 为 开 步 取消 类 型 ， 取 
消 动作 随时 可 能 发 生 《〈 鲜 有 使 用 )。 

线程 可 以 设置 一 个 清理 函数 栈 ， 其 中 的 清理 函数 属于 由 开发 人 员 定 义 的 函数 ， 当 线程 遭 
到 取消 时 , 会 目 动 调用 这 些 函 数 以 执行 清理 工作 (例如 ,恢复 共享 变量 状态 , 或 解锁 互 帮 量 )。 


更 多 信息 
请 参考 列 于 29.10 节 的 深入 信息 来 源 。 
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. 93. 


线程 : 更 多 细节 


章 将 就 POSIX 线程 库 各 方面 的 细节 做 深入 探讨 ， 涉 及 线程 与 传统 UNIX API 一 一 尤其 是 信号 
以 及 进程 控制 原 语 Cfork(). execOsll. exit)? 之 间 的 交互 ， 同 时 对 Linux 上 的 两 个 POSIX 线程 实 
现 (LinuxThreads 和 NPTL) 加 以 概括 ， 并 特别 指出 了 这 些 实现 与 SUSv3 Pthreads 标准 间 的 偏 夺 所 在 。 


33.1 ”线程 枝 


创建 线程 时 ， 每 个 线程 都 有 一 个 属于 目 己 的 线程 栈 ， 且 大 小 固定 。 在 Linux/x86-32 HE, 
| 除 主 线程 处 的 所 有 线程 ， 基 栈 的 缺 省 大 小 均 为 2MB，( 在 一 些 64 位 架构 下 ， 默 认 尺 寸 要 大 一 些 ， 
例如 ，IA-64 有 32MB。) 为 了 应 对 栈 的 增长 (参考 图 29-1)， 主 线程 栈 的 空间 要 大 出 许多 。 

偶尔 ， 也 需要 改变 线程 栈 的 大 小 。 在 通过 线程 属性 对 象 创 建 线 程 时 ， 调 用 函数 
pthread attr setstacksize() 所 设置 的 线程 属性 (29.8 节 ) 决定 了 线程 栈 的 大 小 。 而 使 用 与 之 相关 
的 另 一 图 数 pthread_attr_setstack()， 可 以 同时 控制 线程 栈 的 大 小 和 位 置 ， 不 过 设置 栈 的 地 址 将 降 
低 程序 的 可 移植 性 。 手 册页 Cmanual page) 提供 了 对 这 些 函 数 的 具体 说 明 。 

更 大 的 线程 栈 可 以 容纳 大 型 的 自动 变量 或 者 深度 的 伦 僚 函数 调用 〈 也 许 是 递归 调用 )， 这 
是 改变 每 个 线程 栈 大 小 的 原因 之 一 。 而 另 一 方面 ， 应 用 程序 可 能 希望 减 小 每 个 线程 栈 ， 以 便 进 
程 可 以 创建 更 多 的 线程 。 例 如 ,在 x86-32 系统 中 , 用户 (模式 ) 可 访问 的 虚拟 地 址 空间 是 3GB， 
而 2MB 的 缺 省 栈 大 小 则 意味 着 最 多 只 能 创建 1500 个 线程 。( 更 为 准确 的 最 大 值 还 视 乎 文本 段 、 
数据 段 、 共 享 函 数 库 等 对 虚拟 内 存 的 消耗 量 。) 特定 架构 的 系统 上 ， 可 采用 的 线程 栈 大 小 最 小 值 
可 以 通过 调用 sysconfí SC THREAD STACK MION) 来 确定 。 在 Linux/x86-32 上 的 NPTL 实 
现 中 ， 该 调用 返回 16384. 


在 NPTL 线程 实现 中 ， 如 采 对 线程 栈 尺 寸 资源 限制 CREIMIT STACKO. 的 设置 不 同 于 
unlimited， 那 么 创建 线程 时 会 以 其 作为 默认 值 , 叶 该 限制 的 设置 必须 在 运行 程序 之 前 , 通常 
38 SEAT shell 内 建 命令 ulimit s 完成 CE C shell 下 命令 为 limit stacksize)。 在 主 程序 中 调 
用 setrlimit0 来 设置 限制 的 办 法 可 能 行 不 通 ， 因 为 NPTL 在 调用 main0 之 前 的 运行 时 初始 化 
期 间 束 已 经 确定 了 默认 的 栈 大 小 。 
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33.2 ”线程 和 信号 

UNIX 信号 模型 是 基于 UNIX 进程 模型 而 设计 的 , 问世 比 Pthreads 要 早 几 十 年 。 目 然而 然 ， 
信号 与 线程 模型 之 间 存 在 一 些 明 显 的 神 突 。 主 要 是 因为 ， 一 方面 ， 针 对 单线 程 进程 要 保持 传 
统 的 信号 语义 (Pthreads 不 应 改变 传统 进程 的 信号 语义 )， 与 此 同时 ， 叉 需要 开发 出 适用 于 多 
线程 进程 环境 的 新 信号 模型 。 

信号 与 线程 模型 之 间 的 差异 意味 着 ， 将 二 者 结合 使 用 ， 将 会 非常 复杂 ， 应 尽 可 能 加 以 避 
免 。 尽 管 如 此 ， 有 的 时 候 还 是 必须 在 多 线程 程序 中 处 理 信 号 问题 。 本 节 将 讨论 信号 与 线程 间 
的 交互 ， 并 摘 述 在 多 线程 程序 中 处 理 信号 的 各 种 有 效 郴 数 。 


33.2.1 UNIX 信号 模型 如 何 映射 到 线程 中 


要 了 解 UNIX 信号 如 何 映射 到 Pthreads 模型 ， 束 需要 了 解 ， 信 号 模型 的 哪些 方面 属于 进 
程 层面 〈 由 进程 中 的 所 有 线程 所 共享 )， 哪 些 方面 是 属于 进程 中 的 单个 线程 层面 。 如 下 是 对 其 关 
键 点 的 汇总 。 

e 信号 动作 属于 进程 层面 。 如 果 某 进程 的 任 一 线程 收 到 任何 未 经 《特殊 ) 处 理 的 信和 号 

且 其 缺 省 动作 为 stop 或 terminate， 那 么 将 停止 或 者 终止 该 进程 的 所 有 线程 。 

e 对 信号 的 处 置 属 于 进程 层面 ， 进 程 中 的 所 有 线程 共享 对 每 个 信号 的 处 置 设置 。 如 果 某 
一 线程 使 用 函数 sigaction(0) 为 某 类 信号 《〈 比 如 ，SIGINT) 创建 了 处 理 函 数 , 那么 当 路 
(到 SIGINT 时 ， 竹 何 线程 都 会 去 调用 该 处 理 函 数 ， 与 之 类似 ， 如 果 将 对 信号 的 处 置 设 置 
为 忽略 〈ignore)， 那 么 所 有 线程 都 会 忽略 该 信和 号 

e 信号 的 发 送 既 可 针对 整个 进程 ， 也 可 针对 某 个 特定 线程 。 满 足 如 下 三 者 之 一 的 信和 号 当 
属 面 问 线 程 的 。 

- 信号 的 产生 源 于 线程 上 下 文中 对 特定 硬件 指令 的 执行 〈 即 22.4 "i Prts n) f n 
A. SIGBUS, SIGFPE, SIGILL 和 SIGSEGV). 

- 当 线 程 试图 对 已 断 开 的 Coroken pipe). 管道 进行 写 操作 时 所 产生 的 SIGPIPE 信和 号 

- 由 函数 pthread kill0 或 pthread_sigqueue() 所 发 出 的 信和 号， 这些 函数 (由 33.2.3 T 
R) 允许 线程 向 同一 进程 下 的 其 他 线程 发 送信 和 号 
(和 其 他 机 制 产 和 的 所 有 信号 都 是 面向 进程 的 , 例如 ， 其 他 进程 通过 调用 kill0 或 者 
sigqueue() 所 发 送 的 信号 ; 用 户 键入 特殊 的 终 * 字符 所 产生 的 信号 ， 诸 如 SIGINT 
和 SIGTSTP; 还 有 一 些 信号 由 软件 事件 产生 ,例如 终端 窗 大 小 的 调整 (SIGWINCH) 
m xe a9] (PIU, SIGALRMD. 

e 当 多 线程 程序 收 到 一 个 信号 ， 且 该 进程 已 然 为 此 信和 号 创建 了 信和 号 处 理 程 序 时 ， 内 核 会 任 
Mu ds d quM 信号 ， 并 在 该 线程 中 调用 信号 处 理 程序 对 其 进行 处 理 。 这 种 行为 

言 号 的 原始 语义 保持 了 一 致 。 让 进程 针对 单个 信号 重复 处 理 多 次 是 没有 意义 的 。 

e 信号 手 码 (mask) 是 针对 每 个 线程 而 言 。( 对 于 多 线程 程序 来 说 ， 并 不 存在 一 个 作用 
于 整个 进程 范围 的 信号 掩 码 ， 可 以 管理 所 有 线程 。) 使 用 Pthreads API 所 定义 的 函数 
pthread sigmaskO0， 各 线程 可 独立 阻止 或 放行 各 种 信号 。 通 过 操作 每 个 线程 的 信和 号 掩 
人 码 ， 应 用 程序 可 以 控制 哪些 线程 可 以 处 理 进程 收 到 的 信号 。 

e 针对 为 整个 进程 所 挂 起 (pending) 的 信守 以 及 为 每 条 线程 所 挂 起 的 信号 ， 内 核 都 分 别 维 
护 有 记录 。 调 用 函数 sigpending0 会 返回 为 整个 进程 和 当前 线程 所 挂 起 信和 号 的 并 集 。 在 新 创 
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送 。 如 果 该 信号 遭 线程 阴 罕 ， 那 么 它 会 一 直 你 持 挂 起 ， 和 直人 至 线程 将 其 放行 (或 者 线程 终止 )。 

。 如 条 信号 处 理 程序 中 断 了 对 pthread mutex_lockO 的 调用 , 那么 该 调用 总 是 会 日 动 重 新 
开始 。 如 条 一 个 信号 处 理 函 数 中 断 了 对 pthread_cond_waitO 的 调用 ， 则 该 调用 要 么 目 
动 重 新 开始 〈Linux 就 是 如 此 )， 要 么 返回 0， 表 示 遭 遇 了 假 唤醒 (如 30.2.3 节 所 述 ， 
此 时 ， 设 计 良 好 的 应 用 程序 会 重 狐 检查 相应 的 判断 条 件 并 重新 发 起 调用 )。SUSv3 对 
这 两 个 国 数 的 行为 要 求 与 此 处 的 描述 一 致 。 

e 备 选 信号 栈 是 每 线程 特有 的 〈 人 参考 21.3 和 对 函数 SigaltstackO0 的 摘 述 )。 新 创建 的 线程 
并 不 从 创建 者 处 继承 备 选 信号 栈 。 


更 确切 地 说 ，SUSv3 规定 每 个 内 核 调 度 实体 (KSE) 都 有 一 个 单独 的 备 选 信号 栈 。 在 按 1:1 
比例 实现 线程 的 系统 中 ， 例 如 Linux， 每 一 个 线程 对 应 一 个 KSE〈 见 33.4 T5). 


33.2.2 ”操作 线程 信号 掩 码 


网 创建 的 新 线程 会 从 其 创建 者 处 继承 信号 挫 码 的 一 份 拷贝 线程 可 以 使 用 pthread sigmask0) 来 改 
变 或 /并 获取 当前 的 信和 号 掩 但 。 


























#include «signal.h» 


int pthread sigmask(int how, const sigset t *set, sigset t *oldset); 


Returns 0 on success, or a positive error number on error 














除了 所 操作 的 是 线程 信号 手 码 之 外 ，pthread sigmask() ^ SigprocmaskO 的 用 法 完全 相同 〈 见 
20.10 节 )。 


SUSv3 特别 指出 ， 注 明 在 多 线程 程序 中 使 用 函数 sigprocmask0， 其 结果 是 未 定义 的 ， 也 
无 法 保证 程序 的 可 移植 性 。 事 实 上 ， 函 数 SigprocmaskO0 和 pthread sigmask() 在 包括 Linux 在 内 
的 很 多 系统 实现 中 是 相同 的 。 


33.2.3” 同 线 程 发 送信 号 
函数 pthread. kill0 向 同一 进程 下 的 另 一 线程 发 送信 号 sig。 目 标 线程 由 参数 thread 标识 。 
































#include «signal.h» 


int pthread kill(pthread t thread, int sig); 


Returns 0 on success, or a positive error number on error 














因为 仅 在 同一 进程 中 可 保证 线程 ID 的 唯一 性 (参见 29.5 节 )， 所 以 无 法 调用 pthread kill() 
回 其 他 进程 中 的 线程 发 送信 号。 
在 实现 函数 pthread_kilO0 时 ， 使 用 了 Linux 特有 的 tgkill Ctgid, tid, sig) 系统 调用 ， 将 
Hv sig 发 送 给 由 tid〈 由 gettid0 所 返回 的 内 核 线程 了 ) 标识 的 线程 ， 访 线程 从 属于 由 tegid 
标识 的 线程 组 中 。 更 多 细 市 ， 请 参考 tgkill(2) 手 册页 。 
Linux 特有 的 函数 pthread sigqueue() f. pthread kill U sigqueueO 的 功能 合 二 为 一 〈 见 
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22.8.1 8): 回 同一 进程 中 的 马 一 线程 发 送 携 融 数据 的 信和 号。 


#define GNU SOURCE 
include «signal.h» 





int pthread sigqueue(pthread t thread, int sig, const union sigval value); 


Returns 0 on success, or a positive error number on error 








与 函数 pthread. kill) —Fe, sig Av PEZ IH 7. thread 标识 目标 线程 。 参 数 value 则 指 
定 了 伴随 信号 的 数据 ， 其 使 用 方式 与 函数 sigqueue0 中 的 对 应 参数 相同 。 





函数 pthread sigqueueO 从 2.11 版 开始 加 入 glibc 函数 库 中 ， 同 时 需要 内 核 的 支持 。 始 于 
Linux 2.6.31， 内 核 通过 系统 调用 rt tgsigqueueinfo0 来 提供 这 一 支持 。 





33.2.4 妥善 处 理 异 步 信 和 号 
第 20 ERR 22 章 所 探讨 的 各 种 因素 〈 诸 如 ， 可 重 入 问题 、 重 月 遭 中 断 的 系统 调用 ， 以 及 避 
倪 竞 争 条 件 )， 当 使 用 信号 处 理 函 数 对 弄 步 产生 的 信号 加 以 处 理 时 ， 这 些 都 将 导致 情况 变 得 复 灵 。 
为 外 , 股 有 任何 Pthreads API 属于 异步 信和 写 安 全 (async-signal-safe》 冰 数 ， 均 无 法 在 信和 与 处 理 函 
数 (21.1.2 市 ) 中 安全 加 以 调用 。 因 为 这 些 原 因 ， 所 以 当 多 线程 应 用 程序 必须 椒 理 寞 步 产 生 的 信 
号 时 ， 通 常 不 应 该 将 信号 处 理 函 数 作为 接收 信号 到 达 的 通知 机 制 。 相 反 ， 推 荐 的 方法 如 下 。 
。 所 有 线程 都 阻 窟 进程 可 能 接收 的 所 有 卉 步 信 握 。 最 简单 的 方法 是 , (在 创建 任何 其 他 线程 之 
(前 ， 册 主线 程 阻 塞 这 些 信和 号。 后 续 创 建 的 每 个 线程 都 会 继承 主线 程 信号 掩 人 码 的 一 份 找 贝 。 
e 再 创建 一 个 专用 线程 ， 调 用 函数 sigwaitinfo()、sigtimedwaitO 或 sigwaitO 来 接收 收 到 的 
信号 。22.10 节 对 sigwaitinfo0 和 sigtimedwait0 做 了 说 明 。 下 面 则 对 sigwait0 有 所 描述 。 
这 一 方法 的 优势 在 于 ， 同 步 接收 异步 产生 的 信号 。 利 接收 到 和 仿 号 时 本 专 有 线程 可 以 安全 地 
修改 共 于 变量 (在 互 太 量 的 保护 之 下 )， 并 可 调用 并 非 寞 步 信 福安 全 (non-async-signal-safe) H PKZ o 
也 可 以 就 条 件 变 量 发 出 信号 ， 并 采用 其 他 线程 或 进程 的 通讯 及 同步 机 制 。 
国 数 sigwait() 会 等 每 set 所 指 信号 集合 中 任 一 信号 的 到 达 ， 接 收 该 信号 ， 且 在 参数 sig 中 
将 其 返回 ， 












































#include «signal.h» 


int sigwait(const sigset t *set, int *stg); 


Returns 0 on success, or a positive error number on error 











除了 以 下 不 同 以 外 ，sigwaitO 的 操作 与 sigwaitinfo0 相 同 。 

。 Kr sigwait() 只 返回 信号 编号， 而 非 返 回 一 个 摘 述 信号 信息 的 siginfo t 类 型 结构 。 

e 并 且 返 回 值 与 其 他 线程 相关 函数 保持 一 致 (而 非 传统 UNIX 系统 调用 返回 的 0 或 -1)。 

如 有 多 个 线程 在 调用 sigwaitO 等 竺 同一 信和 号, 那么 当 信和 号 到 达 时 只 有 一 个 线程 会 实际 接收 
到 ， 也 无 法 确定 收 到 信号 的 会 是 哪 条 线程 。 

















33.3 ”线程 和 进程 控制 
与 信号 机 制 类 似 ，exec()、forkO 和 exitO 的 问世 均 早 于 Pthreads API。 接 下 来 的 段 洛 将 指出 
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在 多 线程 程序 中 使 用 此 类 系统 调用 所 应 关注 的 细节 。 


线程 和 exec() 

只 要 有 任 一 线程 调用 了 exec0 系 列 函 数 之 一 时 ， 调 用 程序 将 被 完全 奉 换 。 除 了 调用 exec0 的 线 
程 之 外 ， 其 他 所 有 线程 者 将 立即 消失 。 没 有 任何 线程 会 针对 线程 特有 数据 执行 解构 函数 
(Cdestructor)， 也 不 会 调用 清理 函数 (cleanup handler)。 该 进程 的 所 有 互 斥 量 (为 进程 私有 )〉 和 
属于 进程 的 条 件 变量 都 会 消失 。 调 用 exec0 之 后 ， 调 用 线程 的 线程 ID 是 不 确定 的 。 











线程 和 fork() 

当 多 线程 进程 调用 forkO 时 ， 仅 会 将 发 起 调用 的 线程 复制 到 子 进 程 中 。( 子 进程 中 该 线程 
的 线程 ID 与 父 进程 中 发 起 forkO 调 用 线程 的 线程 ID 相 一致 。) 其 他 线程 均 在 子 进 程 中 消失 ， 
也 不 会 为 这 些 线程 调用 清理 函数 以 及 针对 线程 特有 数据 的 解构 图 数 。 这 将 导致 如 下 一 些 问题 。 

e 虽然 只 将 发 起 调用 的 线程 复制 到 子 进程 中 ,但 全 局 变量 的 状态 以 及 所 有 的 Pthreads 对 象 
《如 互 斥 量 、 条 件 变量 等 ) 都 会 在 子 进 程 中 得 以 保留 。( 因 为 在 父 进程 中 为 这 些 Pthreads 
对 和 象 分 配 了 内 存 ， 而 子 进程 则 获得 了 该 内 存 的 一 份 找 贝 。) 这 会 导致 很 杯 手 的 问题 。 
例如 ,假设 在 调用 forkO 时 ， 另 一 线程 已 然 锁定 了 某 一 互 斥 量 ， 且 对 某 一 全 局 数据 结构 
的 更 新 也 做 到 了 一 半 。 此 时 ， 子 进程 中 的 该 线程 无 法 解锁 这 一 互 斥 量 《〈 因 为 其 并 非 该 互 
斤 量 的 属 主 )， 如 果 试 图 获取 这 一 互 斥 量 ， 线 程 会 遭 阻塞 。 此 外 ， 子 进程 中 的 全 局 数据 
结构 拷贝 可 能 也 处 于 不 一 致 状态 ， 因 为 对 其 进行 更 新 的 线程 在 执行 到 一 半 时 消失 了 。 

。 因为 并 未 执行 清理 函数 和 针对 线程 特有 数据 的 解构 函数 ， 多 线程 程序 的 forkO 调 用 会 
导致 子 进程 的 内 存 泄漏 。 另 外 ， 子 进程 中 的 线程 很 可 能 无 法 访问 《〈 父 进程 中 ) 由 其 他 
线程 所 创建 的 线程 特有 数据 项 ， 因 为 〈 子 进程 ) 没有 相应 的 引用 指针 。 

由 于 这 些 问 题 , 推荐 在 多 线程 程序 中 调用 forkO 的 唯一 情况 是 : 其 后 紧 跟 对 execO 的 调用 。 

因为 新 程序 会 覆盖 怕 有 内 存 ，exec0 将 导致 子 进 程 的 押 有 Pthreads 对 象 消失 。 

对 于 那些 必须 执行 fork0,， 而 其 后 又 无 exec0 跟 随 的 程序 来 说 , Pthreads API 提供 了 一 种 机 

制 : fork 处 理 函 数 Chandler). nJ LAJH Až pthread atfork0 来 创建 fork 处 理 函 数 ， 格 式 如 下 : 
pthread atfork(prepare func, parent func, child func); 

每 一 次 pthread atforkO 调 用 都 会 将 prepare. func 添加 到 一 个 函数 列表 中 ， 在 调用 fork( 81 

建 独 的 子 进程 之 前 ， 会 〈 按 与 注册 次 序 相 反 的 顺序 〉 目 动 执 行 该 函数 列表 中 的 函数 。 与 之 类 
似 ， 会 将 parent func 和 child. func 添加 到 一 函数 列表 中 ， 在 forkO 返 回 前 ， 将 分 别 在 父 、 子 进 
程 中 《〈 按 注册 顺序 ) 目 动 运行 。 

在 使 用 线程 的 函数 库 中 ， 有 时 候 fork 处 理 函 数 很 实用 。 如 果 没 有 这 一 机 制 ， 对 于 那些 随 音调 

用 了 此 函数 库 和 fork0， 又 对 函数 库 创建 的 其 他 线程 一 无 所 知 的 应 用 程序 ， 函 数 库 还 真是 无 计 可 施 。 
调用 fork0 所 产生 的 子 进程 从 调用 fork0 的 线程 处 继承 fork 人 处理 函数 。 执行 execO 期 间 , fork 
处 理 函 数 将 不 再 保留 《因为 处 理 函 数 的 代码 会 在 执行 exec0 的 过 程 中 但 到 窗 盖 )。 
关于 fork 处 理 函 数 及 其 使 用 的 更 多 细 下 可 以 参考 [Butenhof，1996]。 


在 Linux 上 ， 如 果 使 用 NPTL 线程 库 的 程序 执行 了 vforkO0， 那 么 将 不 再 调用 fork 处 理 
函数 。 不 过 ， 在 使 用 LinuxThreads 程序 的 同一 情况 下 却 有 效 。 



















































































线程 与 exit() 
如 果 任 何 线程 调用 了 exit0， 或 者 主线 程 执行 了 return， 那 么 所 有 线程 都 将 消失 ， 也 不 会 
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执行 线程 特有 数据 的 解构 函数 以 及 清理 函数 。 


33.4 ”线程 实现 模型 


本 市 将 涉及 一 些 理论 知识 ， 人 简要 阐述 实现 线程 API 的 3 种 不 同 模型 ， 从 而 为 33.5 市 中 
关于 Linux 线程 实现 的 讨论 提供 必要 的 背景 知识 。 这 3 种 实现 模型 的 差异 主要 集中 在 线程 
如 何 与 内 核 调 度 实 体 (KSE, Kernel Scheduling Entity) 相映 射 。KSE 是 内 核 分 配 CPU 以 及 
其 他 系统 资源 的 〈 对 象 ) 单位 。( 在 早 于 线程 而 出 现 的 传统 UNIX 中 ，KSE 等 同 于 进程 。) 





多 对 一 〈M:1) 实现 (用 户 级 线程 ) 

在 M:1 线程 实现 中 ， 关 平 线程 创建 、 调 度 以 及 同步 ( 互 斥 量 的 锁定 ， 条 件 变 量 的 等 待 等 ) 
的 所 有 细节 全 部 由 进程 内 用 户 空间 (userspace) 的 线程 库 来 处 理 。 对 于 进程 中 存在 的 多 个 线 
程 ， 内 核 一 无 所 知 。 

M:1 实现 的 优势 不 多 ， 其 中 最 大 的 优点 在 于 ,许多 线程 操作 (例如 线程 的 创建 和 终止 、 线 
程 上 下 文 间 的 切换 、 互 斥 量 以 及 条 件 变量 操作 ) 速度 都 很 快 ， 因 为 无 需 切换 到 内 核 模式 。 此 外 ， 
由 于 线程 库 无 需 内 核 支持 ， 所 以 Mz 实现 在 系统 间 的 移植 相对 要 容易 一 些 。 

不 过 ，M:1 实现 也 存在 一 些 严重 缺陷 。 

。 当 一 线程 发 起 系统 调用 (如 read0) 时 ， 控 制 由 用 户 空间 的 线程 库 转交 给 内 核 。 这 就 

意味 着 ， 如 果 readO 调 用 遭 到 阻塞， 那么 所 有 的 线程 都 会 被 阻塞 。 

。 内 核 无 法 调度 进程 中 的 这 些 线程 。 因 为 内 核 并 不 知晓 进程 中 存在 这 些 线程 ， 也 就 无 法 在 多 

处 理 器 平台 上 将 各 线程 调度 给 不 同 的 处 理 器 。 另 外 ， 也 不 可 能 将 一 进程 中 某 线程 的 优先 级 
调整 为 高 于 其 他 进程 中 的 线程 ， 这 是 没有 意义 的 ， 因 为 对 线程 的 调度 完全 在 进程 中 处 理 。 


一 对 一 〈1:1) 实现 《内 核 级 线程 ) 

在 1:1 线程 实现 中 ， 每 一 线程 映射 一 个 单独 的 KSE。 内 核 分 别 对 每 个 线程 做 调度 处 理 。 
线程 同步 操作 通过 内 核 系统 调用 实现 。 

1:1 实现 消除 了 M:1 实现 的 种 种 次 端 , 遭 阻塞 的 系统 调用 不 会 导 任 进程 的 所 有 线程 被 阻塞 ， 
在 多 处 理 右 人 硬件 平台 上 ， 内 核 还 可 以 将 进程 中 的 多 个 线程 调度 到 不 同 的 CPU 上 。 

不 过 ， 因 为 需要 切换 到 内 核 模 式 ， 所 以 诸如 线程 创建 、 上 下 文 切换 以 及 同步 操作 就 要 慢 
一 些 。 另 外 ， 为 每 个 线程 分 别 维护 一 个 KSE 也 需要 开销 ， 如 果 应 用 程序 包含 大 量 线程 ， 则 可 
能 对 内 核 调度 吉 造 成 严重 的 负担 ， 降 低 系 统 的 整体 性 能 。 

尽管 有 这 些 缺 点 ，1:1 实现 通常 更 胜 于 M:1 实现 。LinuxThreads 和 NPTL 都 采用 1:1 模型 。 

在 NPTL 的 开发 期 间 ， 为 了 使 得 包含 数 以 生计 线程 的 进程 得 以 高 效 运行 ， 投 入 了 巨大 的 努 
力 ， 对 内 核 调 度 器 进行 了 重 写 并 设计 了 新 的 线程 实现 。 后 续 的 测试 也 显示 了 预期 目标 的 达成 。 




























































































多 对 多 (M:N) 实现 (两 级 模型 ) 


M:N 实现 中 在 结合 1:1 和 M:1 模型 的 优点 ， 避 免 二 者 的 缺点 。 

在 M:N 模型 中 ， 每 个 进程 都 可 拥有 多 个 与 之 相关 的 KSE， 并 且 也 可 以 把 多 个 线程 映射 到 
一 个 KSE。 这 种 设计 允许 内 核 将 同一 应 用 的 线程 调度 到 不 同 的 CPU 上 运行 ， 同 时 也 解决 了 随 
线程 数量 而 放大 的 性 能 问题 。 

MN 模型 的 最 大 问题 是 过 于 复杂 。 线 程 调度 任务 由 内 核 及 用 户 空间 的 线程 库 共同 承担 ， 二 者 之 
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间 势 必要 进行 分 工 协作 和 信息 交换 。 在 M:N 模型 下 ,按照 SUSv3 标准 要 求 来 管理 信号 也 极为 复杂 。 








最 初 曾 考 夸 采 用 MEN 模型 来 实现 NPTL 线程 库 , 但 大 要 保证 Linux 调度 费 即 使 在 处 理 大 
量 KSE 的 情况 下 也 能 应 对 目 如 ， 则 需要 对 内 核 所 作 的 改动 范围 过 大 ， 可 能 也 没有 必要 ， 故 
而 售 决 了 这 一 方案 。 





33.5 Linux POSIX 线程 的 实现 


针对 Pthreads API: Linux 下 有 两 种 实现 。 

e LinuxThreads: 这 是 最 初 的 Linux 线程 实现 ， 由 Xavier Leroy 开发 。 

e NPTL (Native POSIX Threads Library): 这 是 Linux 线程 实现 的 现代 版 ， 由 Ulrich 
Drepper 和 Ingo Molnar 开发 ， 以 取代 LinuxThreads。NPTL 的 性 能 优 于 LinuxThreads, 
也 更 符合 SUSv3 的 Pthreads 标准 。 对 NPTL 的 支持 需要 修改 内 核 ， 这 始 于 Linux 2.6. 








一 度 ， 人 们 曾 将 由 IBM 开发 的 男 一 线程 实现 一 一 NGPT (Next Generation POSIX 
Threads) 视 为 LinuxThreads 的 继任 者 。NGPT 采用 M:N 模型 设计 ， 性 能 明显 优 于 
LinuxThreads。 不 过 ，NPTL 的 开发 者 决意 推出 新 的 实现 。NPTL 的 设计 方法 有 所 调整 ， 采 
用 1:1 模型 ， 性 能 也 优 于 NGPT。 随 看 NPTL 的 发 布 ， 对 NGPT 的 开发 也 随 之 终止 。 





后 续 各 贡 将 讨论 这 两 种 实现 的 更 多 细 季 ， 并 将 二 者 对 SUSv3 Pthreads 标准 有 的 背离 之 处 一 
一 指 处 。 

此 处 值得 强调 的 是 : LinuxThreads 实现 已 经 过 时 ， 并 且 glibc 从 2.4 版 本 开始 也 已 不 再 支 
村 它 ， 所 有 新 的 线程 库 开 发 都 基于 NPTL. 


33.5.1 LinuxThreads 
多 年 以 来 , LinuxThreads 曾 一 直 是 Linux 上 的 主流 线程 实现 ， 也 能 够 满足 各 种 线程 化 应 用 
程序 实现 的 需要 。LinuxThreads 实现 的 要 点 如 下 。 
e 线程 的 创建 使 用 了 clone0， 并 指定 有 如 下 标志 : 
CLONE VM | CLONE FILES | CLONE FS | CLONE SIGHAND 
这 意味 着 ，LinuxIThreads 线程 共享 虚拟 内 存 、 文 件 描述 符 、 文 件 系统 相关 信息 umask, TR 
目录 和 当前 工作 目录 ) 以 及 信号 处 置 。 不 过 ， 线 程 间 并 不 共享 进程 ID 和 父 进 程 ID。 
e 除了 由 应 用 程序 创建 的 线程 以 外 ，LinuxThreads 还 会 创建 一 个 附加 的 管理 线程 ， 负 责 
处 理 其 他 线程 的 创建 和 终止 。 
。 LinuxThreads 利用 信和 号 来 处 理 内 部 的 操作 。 对 于 文 持 实时 信和 号 的 内 核 来 说 〈Linux 2.2 
及 以 后 版 本 ), 会 使 用 头 3 个 实时 信号。 对 于 老 版 本 内 核 , 则 使 用 SIGUSR1 和 SIGUSR2. 
应 用 程序 不 能 使 用 这 些 信和 号。( 对 于 各 种 线程 同步 操作 而 言 ， 使 用 信和 号 会 导致 较 高 延迟 。) 





















































LinuxThreds 对 标准 行为 的 背离 之 处 
LinuxThreads 在 很 多 方面 与 SUSv3 Pthreads 标准 并 不 一 致 。(LinuxThreads 实现 受 限于 其 开 
发 时 可 用 的 内 核 特性 ， 而 在 此 范围 内 ， 则 会 尽量 保持 一 致 。) 以 下 列表 对 背离 之 处 作 了 概述 。 
e 在 同一 进程 的 不 同 线程 中 调用 getpid0 会 返回 不 同 的 值 。 调 用 getppidO0 则 反应 了 如 下 事 
SE: 除了 主线 程 以 外 的 所 有 线程 都 由 进程 的 管理 线程 创建 〈getppid0 会 返回 管理 线程 
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的 进程 ID )。 在 主线 程 和 其 他 线程 中 ， 对 getppidO 调 用 的 返回 值 相同 。 

如 果菜 线程 调用 fork0 创 建 了 一 子 进程 ,那么 任何 其 他 线程 都 可 使 用 waitO 或 类 似 技术 来 
获取 子 进程 的 终止 状态 。 不 过 ， 事 实 并 非 如 此 ， 只 有 创建 子 进程 的 线程 才能 使 用 waith. 
如 果菜 线程 执行 了 exec0， 那 么 按照 SUSv3 Hk, 将 终止 所 有 其 他 线程 。 不过， 只 要 调 
用 exec0 的 是 主线 程 之 外 的 线程 , 那么 产生 进程 则 与 调用 线程 拥有 相同 的 进程 D, 而 与 
主线 程 的 进程 ID 不 同 。 而 依照 SUSv3 标准 , 该 进程 ID 应 与 主线 程 的 进程 ID 保持 一 致 。 
线程 之 间 不 会 共享 凭证 〈 用 户 ID 与 用 户 组 ID )。 当 一 多 线程 进程 执行 一 个 set- user- ID 
程序 时 ， 将 导致 线程 之 间 无 法 通过 pthread kill0 来 发 送信 号 ， 因 为 这 两 个 线程 的 凭证 
己 经 发 生 了 改变 ， 发 送 线程 不 再 有 权 发 信号 给 目标 线程 〈 请 参考 网 20-2)。 另 外 ， 由 
于 LinuxThreads 实现 在 内 部 使 用 了 信和 号， 一 旦 线程 改变 了 目 喘 的 赁 证， 那么 各 种 
Pthreads 操作 有 可 能 失败 或 者 挂 起 Chang). 

还 未 能 顾及 SUSv3 关于 线程 与 信号 间 交 互 规范 的 各 个 方面 。 

- 采用 kill0 或 者 sigqueueO 回 某 进 程 发 送 的 信号 , 应 该 由 目标 进程 中 不 阻塞 该 信号 的 
任意 线程 来 接收 和 处 理 。 不 过 ， 因 为 LinuxThreads 线程 的 进程 ID 不同， 所 以 只 能 
将 信号 送 给 特定 线程 。 要 是 该 线程 阻塞 这 一 信号 ， 即 使 其 他 线程 并 不 阻塞 此 信和 号 ， 
它 也 会 一 直 保 持 挂 起 (pending). 

- LinuxThreads 并 不 支持 信号 为 整个 进程 挂 起 的 概念 ， 只 支持 每 个 线程 分 别 挂 起 信号 。 

- 如 果 信 和 号 针对 包含 某 个 多 线程 应 用 的 进程 组 ， 那 么 应 用 中 的 所 有 线程 〈 即 每 个 创建 了 
言 号 处 理 函 数 的 线程 ) 都 会 处 理 该 信号 ， 而 不 是 由 《任意 ) 某 个 线程 去 处 理 。 例 如 ， 
键入 某 个 终端 字符 束 会 产生 针对 前 台 进 程 组 的 任务 控制 (job-control) 信号。 

- 背 选 信号 栈 设置 CH sigaltstackO£& vr) 是 针对 每 个 线程 的 。 不 过 ， 如 果 新 线程 不 
IRA. pthread_createO) 调 用 者 那里 继承 了 备 选 信号 栈 设 置 ， 那 么 这 两 个 线程 将 共享 同 
一 备 选 信号 栈 。SUSv3 规定 新 线程 月 动 时 不 应 定义 备 选 信号 栈 。LinuxThreads 这 一 
“违规 ”操作 的 后 果 是 ， 如 果 两 个 线程 恰巧 在 它们 共享 的 备 选 信号 栈 中 同时 处 理 不 
同 的 信号 ， 很 可 能 会 导致 混乱 〈 例 如 ， 程 序 衣 站 )。 这 一 问题 可 能 非常 难以 重 现 ， 
也 很 难 调试 ， 因 为 问题 的 出 现 依赖 于 在 同一 时 点 处 理 两 个 信号 ， 这 种 情况 极其 罕见 。 

































































在 使 用 LinuxThreads 的 程序 中 ， 新 线程 可 以 通过 调用 sigaltstack() 来 确保 使 用 与 其 创建 
者 线程 不 同 的 备 选 信号 栈 〈 或 许 根本 束 没 有 栈 )。 不 过 ， 可 移植 程序 〈 以 及 创建 线程 的 库 函 
数 ) 并 不 知道 这 些 ， 因 为 在 其 他 实现 上 这 并 非 必 须 。 另 外 ， 即 使 采用 这 种 技术 ， 依 然 可 能 产 
EPR: 新 线程 在 有 机 会 调用 sigaltstack0 之 前 依然 有 可 能 接收 并 处 理 备 选 栈 上 的 信和 号。 
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线程 不 共享 一 般 的 任务 号 以 及 进程 组 号 。 不 能 利用 setsid0 和 setpgid() 系 统 调 用 去 改变 
多 线程 程序 中 的 会 话 号 以 及 进程 组 号 。 

使 用 fcntlO 建 立 的 记录 锁 也 不 能 共享 。 重 复 地 对 同一 类 型 的 锁 的 请 求 是 无 法 合并 在 一 起 
执行 的 。 

线程 不 共享 资源 的 限制 。SUSv3 定义 资源 限制 是 一 种 进程 范围 的 属性 。 

胃 效 timesO 返 回 的 CPU 时间 以 及 由 getrusage0 返 回 的 资源 使 用 信息 也 都 是 针对 每 一 个 
线程 的 。 这 些 系 统 调用 应 该 返回 这 个 进程 的 总 量 。 

一 些 版 本 的 ps(1) 会 显示 进程 中 的 所 有 线程 (包括 管理 线程 );， 作 为 单独 的 项 ， 且 它们 
的 进程 号 也 不 相同 。 

线程 之 间 并 不 共享 由 setpiority0) 设 置 的 nice 值 。 
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e 使 用 setitimerO 创 建 的 间隔 定时 喜 也 无 法 在 线程 之 间 共 享 。 
。 线程 之 间 不 能 共享 System V fi — 5X5] (semadj) 值 。 


LinuxThreads 的 其 他 问题 


除了 以 上 与 SUSv3 标准 的 偏 丰 外 ，LinuxThreads 实现 还 有 如 下 问题 。 
e 如 果 管 理 线程 被 杀 挤 ， 那 么 余下 的 线程 只 能 手工 清理 。 
e 多 线程 程序 的 核心 转 储 (core dump) 可 能 并 不 包含 所 有 的 线程 〈 甚 至 可 能 也 不 包含 触 











发 转 储 的 线程 )。 
。 只 有 从 主线 程 调 用 非 标准 的 ioctl TIOCNOTTY 操作 才能 移 除 进程 与 控制 终端 的 关联 。 
33.5.2 NPTL 





设计 NPTL 是 为 了 弥补 LinuxThreads 的 大 部 分 的 缺陷 。 特 别 是 如 下 部 分 。 
e NPTL 更 接近 SUSv3 Pthreads 标准 。 
e 使 用 NPTL 的 有 大 量 线程 的 应 用 程序 的 性 能 要 远 优 于 LinuxThreads。 











NPTL 允许 应 用 程序 创建 大 量 的 线程 。NPTL 实现 的 测试 程序 可 以 创建 10 万 个 线程 。 
对 于 LinuxThreads， 实 际 线程 数量 的 限制 大 约 是 一 两 于 个 。( 应 当 承 认 ， 很 少 有 程序 需要 创 
建 这 个 多 的 线程 。) 








NPTL 实现 的 开发 从 2002 年 开始 ， 大 约 在 第 2 年 完成 。 同 时 ，Linux 内 核 为 适应 NPTL 也 
做 了 各 种 调整 。 这 些 变动 出 现在 Linux 2.6 内 核 ， 并 对 NPTL 的 如 下 方面 提供 文 持 。 

。 改进 线程 组 的 实现 (28.2.1 5). 

。 增加 futex 作 为 一 种 同步 机 制 (futex 作为 一 种 通用 机 制 ,并 不 只 是 为 NPTL 而 设计 )。 

e 增加 新 的 系统 调用 〈get thread area0 和 set thread area()) 以 便 支持 线程 本 地 存储 。 

e 文 持 线程 化 的 核心 转 储 和 对 多 线程 程序 的 调试 功能 。 

。 修改 并 文 持 与 Pthreads 模型 一 样 的 信号 处 理 。 

e 增加 新 的 系统 调用 exit _ group0， 可 以 终止 进程 中 的 所 有 线程 〈 从 glibc2.3 Fin, ERR 
数 exit() 是 exit_group0) 的 包装 函数 ， 而 函数 pthread_exitO 调 用 真正 的 内 核 系 统 调用 
_exit()， 仪 终止 调用 的 线程 )。 

e 重 写 内 核 调度 程序 以 便 能 够 有 效 地 调度 和 处 理 大 量 〈 上 于 个 ) KSE 的 情况 。 

e 提升 内 核 进程 终止 的 执行 效率 。 

e 扩展 系统 调用 clone) (28.2 52. 

NPTL 实现 最 基本 的 部 分 如 下 : 

e 线程 使 用 函数 clone() 创 建 并 指定 如 下 标志 。 

CLONE VM | CLONE FILES | CLONE FS | CLONE SIGHAND | 


CLONE THREAD | CLONE SETTLS | CLONE PARENT SETTID | 
CLONE CHILD CLEARTID | CLONE SYSVSEM 


NPTL 比 LinuxThreads 可 以 共享 更 多 的 信息 。 标 志 CLONE. THREAD 意思 是 新 线程 与 创建 
者 线程 属于 同一 个 线程 组 ， 并 且 共 享 同 样 的 进程 号 以 及 父 进程 号 。CLONE SYSVSEM 表示 新 
线程 与 创建 者 共享 System V 信号 量 还 原 值 。 
使 用 ps(1) 列 出 一 个 运行 在 NPTL 下 的 多 线程 程序 时 ， 只 会 输出 一 条 记录 。 为 了 看 到 进 
程 中 的 线程 信息 ， 可 以 使 用 ps-L 选项 。 
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。 实现 的 内 部 使 用 前 两 个 实时 信和 号。 应 用 程序 不 能 使 用 这 些 信和 号。 

其 中 一 个 信号 用 来 实现 线程 的 取消 功能 。 为 一 个 信号 用 于 确保 进程 中 的 所 有 线程 拥有 
同样 的 用 户 号 和 用 户 组 号 。 而 在 内 核 模 式 ， 线 程 有 不 同 的 用 户 和 组 赁 证。 所 以 NPIL 实现 
对 每 一 个 改变 用 户 号 和 用 户 组 号 的 系统 调用 〈setuid0、setresuid0 等 以 及 类 似 的 组 操作 函数 ) 
的 包 北 函数 邦 做 了 修改 ， 以 确保 进程 中 的 所 有 线程 部 做 了 相应 的 改变 。 


e 与 LinuxThreads 不 同 ，NPTL 并 不 需要 管理 线程 。 














NPTL 标准 一 致 性 
这 些 改变 意味 着 NPTL 比 LinuxThreads 更 接近 SUSv3 标准 。 在 作者 舞 写 本 书 的 时 候 ， 踪 
留 以 下 不 一 致 的 地 方 。 
。 线程 之 间 不 共享 nice 值 。 
在 早期 的 2.6.x 内 核 中 ， 还 有 一 些 额外 的 不 一 致 的 地 方 。 
e 内 核 版 本 2.6.16 之 前 ， 备 选 信号 栈 是 针对 每 个 线程 的 ， 但 是 新 的 线程 从 调用 
pthread_create0 函 数 的 线程 那里 错误 地 继承 了 备 选 信 号 栈 设 置 〈 通 过 sigaltstack()7^ 
生 )， 导 致 出 现 两 个 线程 共享 同一 备 选 信号 栈 的 问题 。 
e 内 核 2.6.16 之 前 ， 只 有 一 个 线程 组 的 组 长 〈 即 主线 程 ) 可 以 通过 调用 函数 setsid0 局 动 
一 个 新 的 会 话 。 
e 内 核 2.6.16 之 前 ， 只 有 一 个 线程 组 的 组 长 可 以 使 用 函数 setpgid0 让 宿主 进程 成 为 进程 
组 主 进 程 。 
e 早 于 2.6.12 的 内 核 版 本 ， 在 同一 进程 的 线程 之 间 无 法 共享 使 用 setitimer0 创 建 的 间隔 
定时 器 。 
e 早 于 2.6.10 的 内 核 版 本 ， 同 一 进程 中 的 所 有 线程 并 不 共享 资源 限制 的 设置 。 
e F 2.6.9 HARA, K% times(O 返 回 的 CPU 时 间 以 及 函数 getrusage0 返 回 的 资 
源 使 用 信息 都 是 针对 每 个 线程 的 。 
NPTL 设计 与 LinuxThreads ABI a£. 那些 与 提供 LinuxThreads 的 GNU C 库 链 接 的 程序 换 
用 NPTL 时 无 需 再 重新 编译 。 不 过 当 程 序 运行 在 NPTL 环境 时 某 些 行为 可 能 会 有 些 不 同 ， 主 
要 是 因为 NPTL 更 接近 于 SUSv3 Pthreads 标准 。 


33.5.3 ” 哪 一 种 线程 实现 


一 些 Linux 发 布 版 本 附带 包 换 LinuxThreads 和 NPTL 的 GNU C J£, 依据 系统 运行 在 何 种 
内 核 上 动态 地 确定 链接 哪 一 种 GNUC 库 。( 这 些 发 布 版 本 有 其 历史 原因 ， 自 版 本 2.4 后 glibc 
不 再 提供 LinuxThreads。) 所 以 有 时 候 可 能 需要 回答 以 下 的 问题 。 
e 特定 的 Linux 发 布 版 本 中 ， 哪 一 种 线程 实现 是 有 效 的 ? 
。 在 既 提 供 LinuxThreads 也 提供 NPTL 的 Linux 发 布 版 本 中 ， 缺 省 使 用 哪 一 种 ? 如 何 明 
确 地 选择 一 个 应 用 程序 所 使 用 的 线程 库 ? 


找 出 线程 实现 


可 以 通过 一 些 技术 去 找 出 菏 个 特定 系统 使 用 的 线程 实现 ， 也 可 以 发 现在 提供 两 种 线程 实 
现 的 系统 上 运行 的 程序 默认 使 用 的 实现 版 本 。 
在 提供 glibc 2.3.2 或 后 续 版 本 的 系统 上 ， 可 以 使 用 如 下 命令 找 出 系统 提供 的 线程 实现 ， 如 
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果 提 供 两 种 实现 的 ， 则 显示 默认 的 那个 : 
$ getconf GNU LIBPTHREAD VERSION 
在 只 有 NPTL 或 者 将 其 作为 默认 实现 的 系统 上 ， 将 会 显示 类 似 下 面 的 信息 : 


$ ldd /bin/ls | grep libc.so 
libc.so.6 -» /lib/tls/libc.so.6 (0x40050000) 





NPTL 2.3.4 

FH glibc 2.3.2 以 来 ， 程 序 可 以 通过 confstr(3) 获 得 类 似 的 信息 ， 并 取得 glibc 特定 的 配置 变 
量 CS GNU LIBPTHREAD VERSION 的 值 。 

使 用 老 版 本 GNUC 库 的 系统 上 ， 需 要 做 一 些 额 外 的 动作 。 首 现 ， 下 面 的 命令 可 以 被 用 来 显 
示 程 序 运行 时 使 用 的 GNUC 库 的 路 径 〈 这 里 使 用 标准 程序 ls 作为 例子 ， 其 位 置 为 /bin/ls): 


$ /lib/tls/libc.so.6 | egrep -i 'threads|nptl' 
Native POSIX Threads Library by Ulrich Drepper et al 


GNU C 库 的 路 径 显 示 在 => 之 后 。 如 果 作 为 命令 执行 这 个 路 径 的 程序 ， 那 么 glibc 将 会 显 
示 关 于 目 身 的 一 系列 信息 。 可 以 通过 grep 选取 与 线程 实现 相关 的 信息 。 

在 egrep 正则 表达 式 (regular expression). 中 包含 npt， 是 因为 某 些 包含 NPTL 的 glibc 发 
布 显示 如 下 的 学 符 串 信息 : 

NPTL 0.61 by Ulrich Drepper 

为 glibc 路 径 会 随 看 不 同 的 Linux 发 布 而 改变 , 可 以 使 用 shell 的 督 换 功能 来 产生 一 个 显 
7R Linux 系统 上 使 用 的 线程 实现 信息 的 命令 行 : 


$ $(ldd /bin/ls | grep libc.so | awk '(print $3)') | egrep -i 'threads|nptl' 
Native POSIX Threads Library by Ulrich Drepper et al 


选择 程序 使 用 的 线程 实现 


在 即 提供 NPTL 也 提供 LinuxThreads 的 Linux 系统 上 ， 能 够 明确 地 控制 具体 使 用 的 线程 
实现 有 时 候 非 常 地 有 用 。 了 最 第 见 的 例子 是 ， 当 遇 到 一 个 旧 有 的 依赖 于 茶 些 LinuxThreads 行为 
(可 能 非 标准 ) 的 程序 时 ， 要 能 够 强制 程序 使 用 指定 的 线程 实现 ， 而 不 是 默认 的 NPTL。 

出 于 这 个 目的 ， 可 以 使 用 一 个 动态 链接 器 Cdynamic linker) 能 够 理解 的 特定 的 环境 变量 
LD ASSUME KERNEL. 。 顾名思义 , 这 个 环境 变量 告诉 动态 链接 疾 束 好 像 运 行 在 特定 的 Linux 
内 核 版 本 上 一 样 。 通 过 指定 并 不 提供 NPTL 支持 的 内 核 版 本 (例如 2.2.5) 可 以 确保 LinuxThreads 
被 使 用 到 。 所 以 可 以 使 用 如 下 命令 运行 一 个 基于 LinuxThreads 的 多 线程 应 用 程序 : 

$ LD ASSUME KERNEL-2.2.5 ./prog 

当 环 境 变 量 设置 与 乙 前 提 及 的 显示 使 用 的 线程 实现 信息 的 命令 行 一 起 使 用 时 ， 可 以 看 到 
如 下 的 一 些 信息 : 


$ export LD ASSUME KERNEL-2.2.5 
$ $(1dd /bin/ls | grep libc.so | awk '(print $3)') | egrep -i 'threads|nptl' 
linuxthreads-0.10 by Xavier Leroy 

































































可 以 通过 LD ASSUME KERNEL wA P TZ CA BR] Ye. Hp Se — 26 BR ri DSL BRI TS ZA e E 
一 些 提供 NPTL 和 LinuxThreads 的 一 般 发 布 版 本 中 , 将 版 本 号 指定 为 2.2.5 已 经 足够 保证 会 
使 用 LinuxThreads。 此 环境 变量 更 完整 的 摘 述 请 参考 http://people. redhat. com/ drepper/ 


assumkernel.html. 
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33.6 Pthread API 的 高 级 特性 


Pthreads API 还 包括 一 些 如 下 的 高 级 特性 。 

e 实时 调度 CRealtime scheduling): 可 以 对 线程 设置 实时 调度 案 略 以 及 优先 级 。 类 似 于 
35.3 廊 中 摘 述 的 进程 的 实时 调度 的 系统 调用 。 

。 进程 共 孚 互 太 量 和 条 件 变 量 : SUSv3 规定 进程 乙 间 共 孕 互 太 量 和 条 件 变量 是 可 选 的 
(不 只 是 针对 进程 中 的 线程 而 言 )。 这 种 情况 ， 条 件 变量 或 者 互 斥 量 必须 在 进程 间 的 共 
享 内 存 中 分 配 。NPTL 支持 这 种 特性 。 

。 高 级 线程 同步 原 语 : 这 些 功能 包括 障碍 (barrier)、 读 写 锁 (read-write lock) 以 及 自 旋 
锁 (spin lock). 

关于 这 些 特性 的 更 多 的 细 方 请 参考 [Butenhof，1996]。 



































不 要 将 线程 与 信号 混合 使 用 ， 只 要 可 能 多 线程 应 用 程序 的 设计 应 该 避免 使 用 信和 号。 如 果 
多 线程 应 用 必须 处 理 异步 信号 的 话 ， 通 常 最 简洁 的 方法 是 所 有 的 线程 都 阻 守信 号 ， 创 建 一 个 
专门 的 线程 调用 sigwaitO 函 数 〈 或 者 类 似 的 函数 ) 来 接收 收 到 的 信号 。 这 个 线程 束 可 以 安全 地 
执行 像 修改 共 孚 内 存 〈 处 于 互 斥 量 的 保护 之 下 ) 和 调用 非 异步 信号 安全 的 函数 。 

一 般 有 两 种 有 效 的 Linux 线程 实现 : LinuxThreads 和 NPTL。LinuxThreads 多 年 以 来 一 直 
为 Linux 使 用 ， 但 是 很 多 方面 并 不 遵循 SUSv3 的 标准 ， 而 且 已 经 过 时 。 全 新 的 NPTL 实现 更 
接近 SUSv3 标准 并 且 提 供 更 优 的 性 能 ， 现 今 的 Linux 发 布 也 都 提供 这 种 实现 。 


更 多 的 信息 


请 参考 列 于 29.10 市 的 更 多 的 信息 来 源 。 

LinuxThreads 的 作者 编号 了 实现 文档 ， 可 以 在 如 下 地 址 找到 : http:// pauillac.inria.fr/— 
xleroy/linuxthreads/。NPTL 实现 在 如 下 的 论文 《有 些 过 时 ) 中 有 所 摘 述 : http:/ people. redhat. 
com/drepper/nptl-design.pdf. 
































33.8 ”练习 


33-1. 编写 程序 以 便 证 明 : 作为 函数 sigpending0 的 返回 值 ， 同 一 个 进程 中 的 的 不 同 线程 
可 以 拥有 不 同 的 pending 信号 。 可 以 使 用 函数 pthread_kill0 分 别 发 送 不 同 的 信号 给 
阻塞 这 些 信号 的 两 个 不 同 的 线程 , 接着 调用 sigpending() 方 法 并 显示 这 些 pending 信 
号 的 信息 。( 可 能 会 发 现 程序 清单 20-4 中 函数 的 作用 。) 

33-2. 假设 一 个 线程 使 用 fork0 创 建 了 一 个 子 进程 。 当 子 进程 终止 时 ， 可 以 保证 由 此 产生 的 
SIGCHLD 信号 一 定 会 发 送 给 调用 fork0) 的 线程 吗 (可 以 用 进程 中 的 其 他 线程 做 对 比 )? 
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进程 组 、 会 话 和 作业 控制 


进程 组 和 会 话 在 进程 之 间 形 成 了 一 种 两 级 层次 关系 : 进程 组 是 一 组 相关 进程 的 集合 ， 会 
话 是 一 组 相关 进程 组 的 集合 。 读 者 通过 本 半 的 学 习 刺 能 弄 清楚 两 个 术语 中 “相关 ”的 含义 。 

进程 组 和 会 话 是 为 文 持 shell 作业 控制 而 定义 的 抽象 概念 , 用 户 通 过 shell 能 够 交互 式 地 在 
前 台 或 后 台 运 行 命令 。 术 语 “ 作 业 ” 通 第 与 术语 “进程 组 ”作为 同义词 来 看 往 。 

本 章 将 介绍 进程 组 、 会 话 和 作业 控制 。 

















34.1 概述 


进程 组 由 一 个 或 多 个 共享 同一 进程 组 标识 符 (PGID ) 的 进程 组 成 。 进 程 组 ID 是 一 个 数字 ， 
其 类 型 与 进程 ID 一 样 (pid t)。 一 个 进程 组 拥有 一 个 进程 组 首 进 程 ， 该 进程 是 创建 该 组 的 进 
程 ， 其 进程 ID 为 该 进程 组 的 ID， 新 进程 会 继承 其 父 进 程 所 属 的 进程 组 ID. 

进程 组 拥有 一 个 生命 周期 ， 其 开始 时 间 为 首 进 程 创建 组 的 时 刻 ， 结 束 时 间 为 最 后 一 个 成 
员 进 程 退 出 组 的 时 刻 。 一 个 进程 可 能 会 因为 终止 而 退出 进程 组 ， 也 可 能 会 因为 加 入 了 男 外 一 
个 进程 组 而 退出 进程 组 。 进 程 组 首 进程 无 需 是 最 后 一 个 离开 进程 组 的 成 员 。 

会 话 是 一 组 进程 组 的 集合 。 进 程 的 会 话 成 员 关 系 是 由 其 会 话 标识 符 (SD) 确定 的 ， 会 话 
标识 符 与 进程 组 ID 一 样 ， 是 一 个 类 型 为 pid t 的 数字 。 会 话 首 进 程 是 创建 该 新 会 话 的 进程 ， 
其 进程 ID 会 成 为 会 话 一 。 新 进程 会 继承 其 父 进程 的 会 话 ID。 

一 个 会 话 中 的 所 有 进程 共享 单个 控制 终端 。 探 制 终端 会 在 会 话 首 进程 首次 打开 一 个 终端 
设备 时 被 建立 。 一 个 终端 最 多 可 能 会 成 为 一 个 会 话 的 控制 终端 。 

在 任 一 时 刻 ， 会 话 中 的 其 中 一 个 进程 组 会 成 为 终端 的 前 从 进程 组 ， 其 他 进程 组 会 成 为 后 
人 台 进 程 组 。 只 有 前 台 进 程 组 中 的 进程 才能 从 控制 终端 中 读 取 输 入 。 当 用 户 在 控制 终 问 中 输入 
其 中 一 个 信号 生成 终端 字符 之 后 ， 该 信号 会 被 发 送 到 前 台 进 程 组 中 的 所 有 成 员 。 这 些 字 符 包 
括 生 成 SIGINT 的 中 断 字 符 ( 通 常 是 Control-C)、 生 成 SIGQUIT 的 退出 字符 (通常 是 Control-\)、 
生成 SIGSTP 的 挂 起 字符 GS Ze Control-Z). 

当 到 控制 终 问 的 连接 建立 起 来 〈 即 打开 ) 之 后 ， 会 话 首 进 程 会 成 为 该 终端 的 控制 进程 。 成 
为 控制 进程 的 主要 标志 是 当 断 开 与 终端 之 间 的 连接 时 内 核 会 癌 该 进程 发 送 一 个 SIGHUP 信和 号 。 
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通过 检查 Linux 特有 的 /proc/PID/stat 文件 ， 就 能 确定 任意 进程 的 进程 组 ID 和 会 话 ID. 
此 外 ， 还 能 确定 进程 的 控制 终端 的 设备 DD 一 个 十 进 制 数学 ， 包 含 主 ID 和 辅 ID ) 和 控制 
该 终端 的 控制 进程 的 进程 DD。 更 多 细 市 信息 请 参考 proc(3) 手 册 。 


会 话 和 进程 组 的 主要 用 途 是 用 于 shell 作业 控制 。 读 者 通过 一 个 具体 的 例子 束 能 够 弄 清楚 
这 些 概 您 了 了 。 如 对 于 交互 式 登录 来 讲 ， 控 制 终 端 是 用 户 登 录 的 途径 。 和 登录 shell 是 会 话 首 进程 
— Dm a ep 
接 的 一 组 命令 都 会 导致 一 个 或 多 个 进程 的 创建 ， 并 且 shell 会 把 所 有 这 些 进 程 都 放 在 一 个 新 进 
程 组 中 。( 这 些 进程 在 开始 是 其 进程 组 中 的 唯一 成 员 ， 它 们 创建 的 所 有 子 进 程 会 成 为 该 组 中 的 
成 员 。) 当 命 令 或 以 官 道 连接 的 一 组 命令 以 及 从 写 结束 时 会 在 后 台 进 程 组 中 运行 这 些 命令 ,否则 
就 会 在 前 台 进 程 组 中 运行 这 些 命 令 。 在 登录 会 话 中 创建 的 所 有 进程 都 会 成 为 该 会 话 的 一 部 分 。 


在 窗口 环境 中 ， 控 制 终端 是 一 个 伪 终 关 。 每 个 终端 窗口 都 有 一 个 独立 的 会 话 ， 窗 口 的 
局 动 shell 是 会 话 首 进 程 和 终端 的 控制 进程 。 

在 除 任务 控制 乙 外 的 其 他 场景 中 也 有 可 能 用 到 进程 组 ， 因 为 进程 组 共 备 两 个 有 用 的 属 
HE: 在 特定 的 进程 组 中 父 进程 能 够 等 竺 任意 子 进程 《参见 26.1.2 W) 和 信号 能 够 被 发 大 给 
进程 组 中 的 所 有 成 员 《参见 20.5 33). 


图 34.1 给 出 了 执行 下 面 的 命令 之 后 各 个 进程 之 间 的 进程 组 和 会 话 关 系 。 



















































































$ echo $$ Display the PID of the shell 

400 

$ find / 2» /dev/null | wc -1 & Creates 2 processes in background group 

[1] 659 

$ sort « longlist | uniq -c Creates 2 processes in foreground group 
Pu mI EE 会 话 400 


l 
i 进程 组 首 进程 
| 





PID - 400 PID = 658 PID = 660 
PPID - 399 PPID - 400 PPID - 400 


PGID - 400 PGID = 658 PGID = 660 


SID - 400 SID - 400 SID - 400 


wc 
mA 











控制 进程 








控制 终端 


前 端 PGID= 660 
控制 SID 二 400 


图 34.1 进程 组 、 会 话 和 控制 终端 之 间 的 关系 
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34.2 ”进程 组 


每 个 进程 都 拥有 一 个 以 数字 表示 的 进程 组 ID ， 表 示 该 进程 所 属 的 进程 组 。 新 进程 会 继承 
其 父 进程 的 进程 组 ID， 使 用 getpgrpO 能 够 获取 一 个 进程 的 进程 组 ID。 





#include <unistd.h> 


pid_t getpgrp(void); 


Always successfully returns process group ID of calling process 

















如 果 getpgrp0 的 返回 值 与 调用 进程 的 进程 DD 匹配 的 话 就 说 明 该 调用 进程 是 其 进程 组 的 首 进 程 。 
setpgid() 系 统 调 用 将 进程 ID X pid 的 进程 的 进程 组 ID 修改 为 pgid。 





dinclude <unistd.h> 


int setpgid(pid t pid, pid t pgid); 





Returns 0 on success, or -1 on error 





如 果 将 pid 的 值 设置 为 0， 那么 调用 进程 的 进程 组 ID 就 会 被 改变 。 如 果 将 pgid 的 值 设置 为 0， 
那么 ID 为 pid 的 进程 的 进程 组 ID 会 被 设置 成 pid 的 值 。 因 此 ， 下 面 的 setpgidO0 调 用 是 等 价 的 。 

setpgid(0, 0); 

setpgid(getpid(), 0); 

setpgid(getpid(), getpid()); 

如 果 pid 和 pgid 参数 指定 了 同一 个 进程 ( 即 pgid 是 0 或 者 与 ID 为 pid 的 进程 的 进程 TD 
匹配 )， 那 么 就 会 创建 一 个 新 进程 组 ， 并 且 指 定 的 进程 会 成 为 这 个 新 组 的 首 进程 〈 即 进程 的 进 
程 组 ID 与 进程 ID 是 一 样 的 )。 如 来 两 个 参数 的 值 不 同 〈 即 pgid 不 是 0 或 者 与 ID 为 pid 的 进 
程 的 进程 ID 不 匹配 )， 那 么 setpgidO 调 用 会 将 一 个 进程 从 一 个 进程 组 中 移 到 为 一 个 进程 组 中 。 

通常 调用 setpgid() (以 及 34.3 节 中 介绍 的 setsid0) 函数 的 是 shell 和 login(1)。 在 37.2 市 
中 将 会 看 到 一 个 程序 在 使 自己 变 成 daemon 的 过 程 中 也 会 调用 setsid()。 

在 调用 setpgid0 时 存在 以 下 限制 。 

。 pid 参数 可 以 仅 指 定 调 用 进程 或 其 中 一 个 子 进程 。 违 反 这 条 规则 会 导致 ESRCH 错误 。 

。 在 组 之 则 移动 进程 时 ， 调 用 进程 、 由 pid 指定 的 进程 《可 能 是 另外 一 个 进程 ， 也 可 能 残 是 

调用 进程 ) 以 及 目标 进程 组 必须 要 属于 同一 个 会 话 。 违 反 这 条 规则 会 导致 EPERM 错误 。 

e pid 参数 押 指 定 的 进程 不 能 是 会 话 首 进 程 。 违 反 这 条 规则 会 导致 EPERM 错误 。 

。 一 个 进程 在 其 子 进程 已 经 执行 exec0 后 束 无 法 修改 该 子 进程 的 进程 组 ID 了 ,违反 这 条 

规则 会 导致 EACCES 错误 ,之 所 以 会 有 这 条 约束 条 件 的 原因 是 在 一 个 进程 开始 执行 之 
后 再 修改 其 进程 组 ID 的 话 会 使 程序 变 得 混乱 。 


在 作业 控制 shell 中 使 用 setpgid() 
一 个 进程 在 其 子 进程 已 经 执行 exec() 之 后 束 无 法 修改 该 子 进程 的 进程 组 ID 的 约束 条 件 会 
影响 到 基于 shell 的 作业 控制 程序 设计 ， 即 需要 满足 下 列 条 件 。 
。 一 个 任务 〈 即 一 个 命令 或 一 组 以 管道 符 连 接 的 命令 ) 中 的 所 有 进程 必须 被 放置 在 一 个 
进程 组 中 。( 通 过 图 34-1 中 bash 创建 的 两 个 进程 组 束 能 看 出 。〉 这 一 步 允 许 shell 使 用 
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killpgO CE f Hl AI) pid 值 来 调用 kil0) 来 同时 间 进 程 组 中 的 所 有 成 员 发 送 作业 控制 
信号 。 一 般 来 讲 ， 这 一 步 需要 在 发 送 任意 作业 控制 信号 前 完成 。 
。 每 个 子 进程 在 执行 程序 之 前 必须 要 被 分 配 到 进程 组 中 ,因为 程序 本 身 是 不 清楚 如 何 操 
作 进 程 组 ID 的 。 
对 于 任务 中 的 各 个 进程 来 讲 , 父 进 程 和 子 进程 都 可 以 使 用 setpgid0 来 修改 子 进程 的 进程 组 
ID。 但 是 ， 由 于 在 父 进 程 执行 fork) (参见 24.4 节 ) 之 后 父 进 程 与 子 进程 之 间 的 调度 顺序 是 无 
法 确定 的 ， 因 此 无 法 依 徘 父 进程 在 子 进程 执行 exec0 之 前 来 改变 子 进程 的 进程 组 ID， 同 样 也 
无 法 依靠 子 进程 在 父 进程 癌 其 发 送 任意 作业 控制 信号 之 前 修改 其 进程 组 ID。( 依 赖 这 些 行为 中 
的 任意 一 个 行为 都 会 导致 函 争 条 件 。) 因此 , 在 编写 作业 控制 shell 程序 时 需要 让 父 进程 和 子 进 
程 在 forkO 调 用 之 后 立即 调用 setpgid0 来 将 子 进程 的 进程 组 ID 设置 为 同样 的 值 ， 并 且 父 进程 
需要 忽略 在 setpgid() 调 用 中 出 现 的 所 有 EACCES 错误 。 换 和 句 话 说， 在 一 个 作业 控制 shell 程序 
中 可 能 会 出 现 像 程序 清单 34-1 中 给 出 的 代码 。 


程序 清单 34-1: 作业 控制 shell 程序 如 何 设置 子 进程 的 进程 组 ID 
































pid t childPid; 

pid t pipelinePgid; /* PGID to which processes in a pipeline 
are to be assigned */ 

/* Other code */ 


childPid = fork(); 

switch (childPid) 1 

case -1: /* fork() failed */ 
/* Handle error */ 


case 0: /* Child */ 
if (setpgid(0, pipelinePgid) == -1) 
/* Handle error */ 
/* Child carries on to exec the required program */ 


default: /* Parent (shell) */ 
if (setpgid(childPid, pipelinePgid) == -1 && errno !- EACCES) 
/* Handle error */ 
/* Parent carries on to do other things */ 


j 


在 处 理由 管道 竺 连接 起 来 的 命令 时 事情 会 变 得 比 程序 清单 34-1 更 加 复杂 一 点 ， 父 shell 需要 
记录 管道 中 第 一 个 进程 的 进程 D 并 使 用 这 个 值 作为 该 组 中 所 有 进程 的 进程 组 ID (pipelinePgid )。 


























获取 和 修改 进程 组 ID 的 其 他 《〈 过 时 的 ) 接口 


这 里 需要 解释 一 下 为 何 getpgrpO0 和 setpgid 〇 两 个 系统 调用 名 称 中 的 后 级 不 同 。 

在 一 开始 ，4.2BSD 提供 了 一 个 getprgp(pid) 系 统 调用 来 返回 进程 ID 为 pid 的 进程 的 进程 
组 ID。 在 实践 中 ，pid 几乎 总 是 用 来 表示 调用 进程 。 结 果 ，POSIX 委员 会 认为 这 个 系统 调用 
过 于 复杂 了 ， 因 此 他 们 采纳 了 System V getpgrpO 系 统 调 用 ， 这 个 系统 调用 不 接收 任何 参数 并 
返回 调用 进程 的 进程 组 ID. 

为 了 修改 进程 组 ID, 4.2BSD 提供 了 setpgrp(pid,pgid) 系 统 调 用 ， 它 与 setpgidO 的 行为 是 相 
似 的 。 这 两 个 系统 调用 之 间 最 主要 的 差别 在 于 BSD setpgrpO 能 够 用 来 将 进程 组 ID 设置 为 任意 
值 。( 表 面 曾经 提 及 过 不 能 使 用 setpgid0 将 一 个 进程 迁移 至 其 他 会 话 中 的 进程 组 。) 这 会 引起 一 
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些 安全 问题 ， 但 在 实现 任务 控制 程序 时 也 更 加 有 灵活。 结果 ，POSIX 委员 会 决定 给 这 个 函数 增 
加 额外 的 限制 条 件 并 将 其 命名 为 setpgid(). 

更 复杂 的 事情 是 SUSv3 指定 了 一 个 getpgid(pid) 系 统 调用 , 它 与 老式 的 BSD getpgrpOT Jj 
能 是 一 样 的 。 此 外 ， 它 还 定义 了 一 个 从 System V 演化 而 来 的 setpgrpO0， 它 不 接受 任何 参数 ， 
与 setpgid(0, 0) 调 用 几乎 是 等 价 的 。 

尽管 对 于 实现 shell 作业 控制 来 讲 ， 利 用 前 面 介绍 的 setpgid0 和 getpgrp0 系 统 调用 已 经 足够 了 。 
但 与 其 他 大 多 数 UNIX 实现 一 样 ，Linux 也 提供 了 getpgid(pid) 和 setpgrp(void)。 为 了 加 后 兼容 ， 很 多 
从 BSD 演化 而 来 的 实现 仍然 提供 了 setprgp(pid, pgid), ‘+ setpgid(pid, pgid) 是 一 样 的 。 

在 编译 程序 时 如 果 显 式 地 定义 BSD SOURCE 特性 测试 宏 的 话 , glibc 会 使 用 从 BSD 演化 
而 来 的 setpgrpO 和 getpgrp0O 来 取代 献 认 版 本 。 


























34.3 Zi 
会 话 是 一 组 进程 组 集合 。 一 个 进程 的 会 话 成 员 关 系 是 由 其 会 话 ID 来 定义 的 ， 会 话 也 是 一 
个 数字 。 新 进程 会 继承 其 父 进程 的 会 话 IJD。getsid0 系 统 调用 会 返回 pid 指定 的 进程 的 会 话 ID. 














#define XOPEN SOURCE 500 
dinclude <unistd.h> 


pid t getsid(pid t pid); 


Returns session ID of specified process, or (pid t) -1 on error 








如 果 pid 参数 的 值 为 0， 那 么 getsid0 会 返回 调用 进程 的 会 话 ID. 
在 一 些 UNIX 实现 中 (如 HP-UX 11)， 只 有 当 调 用 进程 与 pid 指定 的 进程 属于 同一 个 会 话 
时 才能 使 用 getsid0 来 获取 进程 的 会 话 ID。(SUSv3 无 此 限制 。) 换 句 话说 ， 只 能 通过 这 个 调用 
的 结果 ， 即 成 功 或 失败 (EPERM)， 来 弄 清楚 指定 进程 与 调用 进程 是 否 属于 同一 个 会 话 。 而 在 
Linux 和 大 多 数 其 他 实现 中 并 不 存在 这 一 限制 。 
如 果 调 用 进程 不 是 进程 组 首 进 程 ， 那 么 setsid0 会 创建 一 个 新 会 话 。 


























#include «unistd.h» 


pid t setsid(void); 





Returns session ID of new session, or (pid t) -1 on error 





setsid() 系 统 调用 会 按照 下 列 步 又 创建 一 个 狐 会 话 。 
。 调用 进程 成 为 新 会 话 的 首 进程 和 该 会 话 中 新 进程 组 的 首 进 程 。 调 用 进程 的 进程 组 ID 
和 会 话 ID 会 被 设置 成 该 进程 的 进程 ID。 

e 调用 进程 没有 控制 终端 。 所 有 之 前 到 控制 终端 的 连接 都 会 被 断 开 。 

如 果 调 用 进程 是 一 个 进程 组 首 进程 ， 那 么 setsid0 调 用 会 报 出 EPERM 错误 。 避 免 这 个 错 
误 发 生 的 最 简单 的 方式 是 执行 一 个 forkO 并 让 父 进程 终止 以 及 让 子 进程 调用 setsid0)。 由 于 子 进程 
会 继承 其 父 进程 的 进程 组 ID 并 接收 属于 自己 的 唯一 的 进程 站， 因此 它 无 法 成 为 进程 组 首 进程 。 

约束 进程 组 首 进 程 对 setsid0 的 调用 是 有 必要 的 。 因 为 如 果 没 有 这 个 约束 的 话 ， 进 程 组 组 长 就 
能 够 将 其 日 喘 迁 移 人 至 男 一 个 (新 的 ) 会 话 中 了 ， 而 该 进程 组 的 其 他 成 员 则 仍然 位 于 原来 的 会 话 中 。 
(不 会 创建 一 个 新 进程 组 ， 因 为 根据 定义 ， 进 程 组 首 进程 的 进程 组 ID 已 经 与 其 进程 ID 一 样 了 。) 
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这 会 破坏 会 话 和 进程 组 之 间 严 格 的 两 级 层次 ， 因 此 一 个 进程 组 的 所 有 成 员 必 须 属于 同一 个 会 话 。 


SEH fork0 创 建 一 个 新 进程 时 ， 内核 会 确保 它 拥有 一 个 唯一 的 进程 DD, 并 且 该 进程 ID 不 
会 与 任意 已 有 进程 的 进程 组 ID 和 会 话 ID 相同 。 这样， 即使 进程 组 或 会 话 首 进程 退出 之 后 ， 新 
进程 也 无 法 复 用 首 进 程 的 进程 也， 从 而 也 无 法 成 为 既 有 会 话 和 进程 组 的 首 进 程 。 

















程序 清单 34-2 演示 了 使 用 setsid0 来 创建 一 个 新 会 话 。 为 了 检查 该 进程 已 经 不 再 拥有 控制 
终端 了 ， 这 个 程序 尝试 打开 一 个 特殊 文件 /dev/tty (下 一 节 将 予以 介绍 )。 当 运行 这 个 程序 时 会 
看 到 下 面 的 结果 : 


$ ps -p $$ -o 'pid pgid sid command' $$ is PID of shell 
PID PGID SID COMMAND 
12243 12243 12243 bash PID, PGID, and SID of shell 


$ ./t_setsid 
$ PID=12352, PGID=12352, SID=12352 
ERROR [ENXIO Device not configured] open /dev/tty 


从 得 出 中 可 以 看 出 ， 进 程 成 功 地 将 其 目 身 迁移 全 了 新 会 话 中 的 一 个 新 进程 组 中 。 由 于 这 
个 会 话 没 有 控制 终端 ， 因 此 open0O 调 用 会 失败 。( 从 上 面 程序 输出 的 倒数 第 二 行 中 可 以 看 出 ， 
hell 提示 符 与 程序 输出 混杂 在 一 起 了 ， 因 为 shell 注意 到 父 进 程 在 forkO 调 用 之 后 就 退出 了 ， 因 
此 在 子 进程 结束 之 前 束 输 出 了 下 一 个 提示 符 。) 
程序 清单 34-2 创建 一 个 新 会 话 








pgsjc/t setsid.c 
define XOPEN SOURCE 500 
itinclude <unistd.h> 
itinclude «fcntl.h» 
include "tlpi hdr.h" 
int 
main(int argc, char *argv[]) 
if (fork() !- 0) /* Exit if parent, or on error */ 
 exit(EXIT SUCCESS); 


if (setsid() == -1) 
errExit("setsid"); 


printf("PID=%ld, PGID=%ld, SID=%ld\n", (long) getpid(), 
(long) getpgrp(), (long) getsid(0)); 


if (open("/dev/tty", O RDWR) == -1) 


errExit("open /dev/tty"); 
exit(EXIT. SUCCESS); 


pgsjc/t setsid.c 


34.4 ”控制 终端 和 控制 进程 

一 个 会 话 中 的 所 有 进程 可 能 会 拥有 一 个 《单个 ) 控制 终端 。 会 话 在 被 创建 出 来 的 时 候 是 没 
有 控制 终端 的 , 当 会 话 首 进程 首次 打开 一 个 还 没有 成 为 某 个 会 话 的 控制 终 痕 的 终 拳 时 会 建立 控制 
终端 , 除非 在 调用 open0 时 指定 O NOCTTY 标记 。 一 个 终端 至 多 只 能 成 为 一 个 会 话 的 控制 终端 。 
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SUSv3 定义 了 函数 tegetsid(int fd) 〈 在 <termios.h> 头 文件 中 进行 定义 )， 它 返回 与 由 颂 指定 的 
控制 终端 相关 联 的 会 话 的 ID。glibc 提供 了 这 个 函数 〈 它 是 使 用 ioctlü TIOCGSID 操作 实现 的 )。 


控制 终端 会 被 由 forkO 创 建 的 子 进程 继承 并 且 在 execO 调 用 中 得 到 保持 。 

当 会 话 首 进程 打开 了 一 个 控制 终端 之 后 它 同时 也 成 为 了 该 终端 的 控制 进程 。 在 发 生 终 端 
断 开 之 后 ， 内 核 会 向 控制 进程 发 送 一 个 SIGHUP 信和 号 来 通知 这 一 事件 的 发 生 。 在 34.6.2 节 中 
将 会 介绍 更 多 有 关 这 一 方面 的 细节 信息 。 

如 果 一 个 进程 拥有 一 个 控制 终 问 ， 那 么 打开 特殊 文件 /dev/tty 残 能 够 获取 该 终端 的 文件 质 
述 符 。 这 对 于 一 个 程序 在 标准 输入 和 输出 被 重 定 问 之 后 需要 确保 自己 确实 在 与 控制 终端 进行 
通信 是 很 有 用 的 。 如 在 8.5 市 中 介绍 的 getpass0 函 数 会 因此 而 打开 /dev/tty。 如 果 进 程 没有 控制 
终 疹 ， 那 么 在 打开 /dewtty 时 会 报 出 ENXIO WER- 


删除 进程 与 控制 终端 之 间 的 关联 关系 


使 用 ioctl(fd, TIOCNOTTY) 操 作 能 够 删除 进程 与 文件 撞 述 符 fd PRAE RIPE HA m 
联 关系 。 在 调用 这 个 函数 之 后 再 试图 打开 /dew/itty 文件 的 话 就 会 失败 。( 尽 管 SUSv3 没有 指定 
这 个 操作 ， 但 大 多 数 UNIX 实现 都 文 持 TIOCNOTTY BRE.) 
如 朱 调 用 进程 是 终 站 的 控制 进程 ， 那 么 在 控制 进程 终止 时 《参见 34.6.2) 会 友 生 下 列 事情 。 
. 会 话 中 的 所 有 进程 将 会 失去 与 控制 终端 之 间 的 天 联 关 系 。 
2. 控制 终 滑 失去 了 与 该 会 话 之 间 的 关联 关系 , 因此 为 一 个 会 话 首 进 程 束 能 够 获取 该 终 闹 以 成 
为 控制 进程 。 
3. 内核 会 问 前 人 台 进 程 组 的 所 有 成 员 发 送 一 个 SIGHUP 信号 (和 一 个 SIGCONT 信号 ) 来 通知 
它们 控制 终端 的 丢失 。 
























































在 BSD 上 建立 一 个 控制 终端 


SUSv3 并 不 文 持 一 个 会 话 获 取 未 指定 的 控制 终 帆 ， 在 打开 终 疹 时 仅 指 定 O NOCTTY 标记 的 
话 只 能 确保 该 终 疹 不 会 成 为 会 话 的 控制 终 峭 。 上 面 描述 的 Linux 语义 源 目 System V 系统 。 

在 BSD 系统 上 ， 在 会 话 首 进程 中 打开 一 个 终 并 不 会 叶 任 该 终 病 成 为 控制 终端 ， 不 管 是 否 
指定 了 O_NOCTTY 和 标记。 相反 ， 会 话 首 进程 需要 使 用 ioctl() TIOCSCTTY 操作 来 显 式 地 将 文 
件 拉 述 符 fd 指定 的 终 问 建立 为 控制 终 病 。 

if (ioctl(fd, TIOCSCTTY) == -1) 

errExit("ioctl"); 


只 有 在 会 话 没 有 控制 终端 时 才能 执行 这 个 操作 。 

Linux 系统 上 也 有 TIOCSCTTY 操作 ， 但 在 其 他 《〈 非 BSD) 实现 中 用 得 并 不 多 。 
获取 表示 控制 终端 的 路 径 名 : ctermid() 

ctermid0 函 数 返 回 表示 控制 终 冰 的 路 径 名 。 




















#include «stdio.h» /* Defines L ctermid constant */ 


char *ctermid(char */tyname); 


Returns pointer to string containing pathname of controlling terminal, 
or NULL if pathname could not be determined 
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ctermid() PK Zt EJ VA fr A [8] f] 25 SX RH rb 2 9m REA: 通过 函数 结果 和 通过 ttyname 指 
器 的 缓冲 区 。 

WR ttyname 不 为 NULL， 那 么 它 是 一 个 大 小 全 少 为 L_ctermid *£HyZerpbe, JF HORE 

会 被 复制 进 这 个 数组 中 。 这 里 函数 的 返回 值 也 是 一 个 指向 该 缓冲 区 的 指针 。 如 果 ttyname 为 

NULL, JA ctermid() 返 回 一 个 指 癌 静态 分 配 的 绥 冲 区 的 指针 ， 绥 冲 区 中 包含 了 路 径 名 。 当 
ttyname 7j NULL 时 ，ctermid() 是 不 可 重 入 的 。 

在 Linux 和 其 他 UNIX 实现 中 ，ctermid() 通 常会 生成 字符 串 /dev/tty。 引 入 这 个 函数 的 目的 
是 为 了 能 更 加 容易 地 将 程序 移植 到 非 UNIX 系统 上 。 








34.5 前台 和 后 台 进 程 组 


控制 终端 保留 了 前 台 进 程 组 的 概念 。 在 一 个 会 话 中 ， 在 同一 时 刻 只 有 一 个 进程 能 成 为 前 
台 进程 ， 会 话 中 的 其 他 所 有 进程 都 是 后 台 进 程 组 。 前 台 进 程 组 是 唯一 能 够 自由 地 读 取 和 写 入 
控制 终端 的 进程 组 。 当 在 控制 终端 中 输入 其 中 一 个 信号 生成 终端 字符 之 后 ， 终 端 驱动 器 会 将 
相应 的 信号 发 送 给 前 台 进 程 组 的 成 员 。34.7 节 将 会 对 此 进行 深入 介绍 。 




















从 理论 上 来 讲 ， 可 能 会 出 现 一 个 会 话 没有 前 合 进程 组 的 情况 。 如 当前 全 进程 组 中 的 所 有 进 
程 都 终止 并 且 没 有 其 他 进程 注意 到 这 个 事实 而 将 自己 移动 到 前 侣 时 就 会 出 现 这 种 情况 。 但 在 实 
践 中 这 种 情况 是 比较 少见 的 。 通常 shell 进程 会 监控 前 台 进 程 组 的 状态 ， 当 它 注 意 到 六合 进程 组 
结束 之 后 (通过 waitO) 会 将 自己 移动 到 前 台 。 











tcgetpgrpO0 和 tcsetpgrpO 函 数 分 别 获 取 和 修改 一 个 终 疹 的 进程 组 。 这 些 函 数 主 要 供 任 务 欣 
$i) shell 使 用 。 





#include «unistd.h» 


pid t tcgetpgrp(int fd); 


Returns process group ID of terminal's foreground process group, 
or -1 on error 


int tcsetpgrp(int fd, pid t pgid); 


Returns 0 on success, or - 1 on error 











tcgetpgrpOPR ZR n SC fi P; fd 所 指定 的 终 妆 的 前 台 进 程 组 的 进程 组 ID, ifr 2 
是 调用 进程 的 控制 终 病 。 





如 果 这 个 终端 没有 前 台 进程 组 ， 那 么 tegetpgrp0 返 回 一 个 大 于 1 并 且 与 所 有 既 有 进程 组 ID 
都 不 匹配 的 值 。(SUSv3 规定 了 这 种 行为 。) 


tcsetpgrpO 函 数 修改 一 个 终端 的 前 台 进 程 组 。 如 果 调 用 进程 拥有 一 个 控制 终端 ， 那 么 文件 
HEIS fd SHEA m, A tesetpgrpO T £m I HU f XEFEZH UC EE 7J. pgid 参数 指定 
的 进程 组 ， 该 参数 必须 与 调用 进程 所 属 的 会 话 中 的 一 个 进程 的 进程 组 ID 匹配 。 

tcgetpgrp() 和 tcsetpgrpO 在 SUSv3 中 都 被 标准 化 了 。 在 Linux 上 ， 与 很 多 其 他 UNIX SZ 
现 一 样 ， 这 些 函 数 是 通过 两 个 非 标准 的 ioctO 操 作 来 实现 的 ， 即 TIOCGPGRP 和 TIOCSPGRP。 
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34.6 SIGHUP 信和 与 


当 一 个 控制 进程 失去 其 终 背 连接 之 后 ， 内 核 会 加 其 肥大 一 个 SIGHUP 信和 号 来 通知 它 这 一 
事实 。( 还 会 及 达 一 个 SIGCONT 信和 写 以 确 你 当 该 进程 之 前 被 一 个 信和 写 停 止 时 重新 开始 该 进 
程 。) 一 般 来 讲 ， 这 种 情况 可 能 会 在 下 面 两 个 场景 中 出 现 。 

e SAKAME E KH US BUE UR de EXER TT DT m IDA. 

e ZTR EWA fi LABS BIENES 发 生 这 种 情况 是 因为 最 近 打 开 的 与 终端 窗 口 天 联 的 

伪 终 器 的 主 侧 的 文件 插 述 人 符 被 天 闭 了 。 

SIGHUP 信号 的 默认 处 理 方式 是 终止 进程 。 如果 控制 进程 处 理 了 或 忽略 了 这 个 信和 号, 那么 

后 续 和 尝试 从 终端 中 读 取 数据 的 请 求 加 会 返回 文件 结束 的 错误 。 



































SUSv3 声称 如 宋 终 冰 靳 开发 生 的 同时 还 满足 调用 read0 时 抛 出 EIO 错误 的 条 件 的 话 ， 那 么 
调用 read0 既 有 可 能 返回 文件 结束 ， 也 有 可 能 返回 EIO 错误 。 可 移植 的 程序 必须 要 处 理 好 这 两 
种 情况 。 在 34.7.2 TA 34.7.4 节 中 将 介绍 在 哪些 情况 下 调用 read) S ^E EO 错误 。 











问 控 制 进程 发 送 SIGHUP 信号 会 引起 一 种 链 式 反 应 ， 从 而 导致 将 SIGHUP 信号 发 送 给 很 
多 其 他 进程 。 这 个 过 程 可 能 会 以 下 列 两 种 方式 发 生 。 

o 控制 进程 通常 是 一 个 shells shell 建立 了 一 个 SIGHUP 信号 的 处 理 器 ， 这 样 在 进程 
终止 之 前 ， 它 能 够 将 SIGHUP 信号 发 送 给 由 它 所 创建 的 各 个 任务 。 在 默认 情况 下 ， 
这 个 信号 会 终止 那些 任务 ， 但 如 果 和 它们 捕获 了 这 个 信号 ， 束 能 知道 shell 进程 已 经 
终止 了 。 

e 在 终止 终端 的 控制 进程 时 ， 内 核 会 解除 会 话 中 所 有 进程 与 该 控制 终端 之 间 的 关联 关系 
以 及 控制 终端 与 该 会 话 的 关联 关系 〈 因 此 另 一 个 会 话 首 进程 可 以 请 求 该 终端 成 为 控制 
终端 了 )， 并 且 通 过 辐 该 终端 的 前 人 台 进 程 组 的 成 员 发 送 SIGHUP 信和 号 来 通知 它们 控制 
终端 的 丢失 。 

下 一 节 将 深入 介绍 这 两 种 方式 的 细节 信息 。 























SIGHUP 信号 也 可 以 用 作 他 用 。 在 34.7.4 节 中 可 以 看 到 当 一 个 进程 组 成 为 孤儿 进程 组 时 会 
生成 SIGHUP 信和 号。 此外， 手工 发 送 SIGHUP 信号 通常 用 来 触发 daemon 进程 重新 初始 化 自身 
或 重新 恋 取 其 配置 文件 。( 根 据 定义 , daemon 进程 没有 控制 终端 , 因此 无 法 从 内 核 接 收 SIGHUP 
信号 。) 37.4 节 将 会 介绍 如 何 配合 使 用 SIGHUP 信号 和 daemon 进程 。 














34.6.1 在 shell 中 处 理 SIGHUP 信号 


在 登录 会 话 中 ，shell 通常 是 终 问 的 控制 进程 。 大 多 数 shell 程序 在 交互 式 运行 时 会 为 
SIGHUP 信号 建立 一 个 处 理 器 。 这 个 处 理 器 会 终止 shell， 但 在 终止 之 前 会 向 由 shell 创建 的 各 
个 进程 组 〈 包 括 前 台 和 后 台 进 程 组 ) 发 送 一 个 SIGHUP 信和 号。( 在 SIGHUP 信和 号 之 后 可 能 会 发 
送 一 个 SIGCONT 信和 号， 这 依赖 于 shell 本 和 映 以 及 任务 当前 是 否 处 于 停止 状态 。) 至 于 这 些 组 中 
的 进程 如 何 啊 应 SIGHUP 信号 则 需要 根据 应 用 程序 的 具体 需求 ， 如 果 不 采 取 特 殊 的 动作 ， 那 
么 默认 情况 下 将 会 终止 进程 。 
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一 些 任务 控制 shell 在 正常 退出 〈 如 登 出 或 在 shell 窗口 中 接 下 Control-D) 时 也 会 发 送 
SIGHUP 信和 号 来 停止 后 台 任 务 。bash 和 Korn shell 都 采取 了 这 种 处 理 方式 (在 首次 登 出 尝试 时 
打印 出 一 条 消息 之 后 )。 

nohup(1) 命 令 可 以 用 来 使 一 个 命令 对 SIGHUP 信号 免疫 一 一 即 执行 命令 时 将 SIGHUP 信和 号 
的 处 理 设置 为 SIG IGN。bash 内 置 的 命令 disown 提供 了 类 似 的 功能 ， 它 从 shell 的 任务 列表 中 
删除 一 个 任务 ， 这 样 在 shell 终止 时 区 不 会 回访 任务 发 送 SIGHUP 信号 了 。 


程序 清单 34-3 演示 了 shell 接收 SIGHUP 信号 并 问 其 创建 的 任务 发 送 SIGHUP 信号 的 过 
程 。 这 个 程序 的 主要 任务 是 创建 一 个 子 进程 , 然后 让 父 进程 和 子 进 程 暂 停 执 行 以 捕获 SIGHUP 
言 号 并 在 收 到 该 信号 时 打印 一 条 消息 。 如 末 在 执行 程序 时 使 用 了 一 个 可 选 的 命令 行 参数 〈 它 可 
以 是 任意 字符 串 )， 那 么 子 进程 会 将 其 目 吴 放置 在 一 个 不 同 的 进程 组 中 《在 同一 个 会 话 中 )。 这 个 
功能 对 于 说 明 shell 不 会 癌 不 是 由 它 创建 的 进程 组 发 送 SIGHUP 信和 号， 即使 该 进程 组 与 shell 位 
于 同一 个 会 话 中 来 讲 是 非常 有 用 的 。( 由 于 程序 中 最 后 一 个 for 循环 是 一 个 无 限 循环 ， 因 此 这 
个 程序 使 用 了 alarmO0 设 置 一 个 定时 器 来 发 送 SIGALRM 信和 号。 如 果 一 个 进程 没有 终止 的 话 ， 那 
么 当 它 接收 到 SIGALRM 信和 号 而 不 做 处 理 时 会 导致 进程 终止 。) 


程序 清单 34-3: 捕获 SIGHUP 信号 



































pgsjc/catch SIGHUP.c 
#define XOPEN SOURCE 500 
&include <unistd.h> 
include «signal.h» 
include "tlpi hdr.h" 


static void 
handler(int sig) 
{ 

} 


int 
main(int argc, char *argv[]) 


pid t childPid; 
struct sigaction sa; 


setbuf(stdout, NULL); /* Make stdout unbuffered */ 


sigemptyset(&sa.sa mask); 

sa.sa flags = 0; 

sa.sa handler - handler; 

if (sigaction(SIGHUP, &sa, NULL) -- -1) 
errExit("sigaction"); 


childPid = fork(); 
if (childPid == -1) 
errExit(" fork"); 


if (childPid == 0 88 argc > 1) 
if (setpgid(0, 0) == -1) /* Move to new process group */ 
errExit("setpgid"); 


printf("PID=%ld; PPID-Zld; PGID=%ld; SID-XldWn", (long) getpid(), 
(long) getppid(), (long) getpgrp(), (long) getsid(0)); 


alarm(60); /* An unhandled SIGALRM ensures this process 
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will die if nothing else terminates it */ 
for(5;) 1 /* Wait for signals */ 
pause(); 
printf("Xld: caught SIGHUPAn", (long) getpid()); 
} 
} 


一 pgsjc/catch SIGHUP.c 

假设 在 一 个 终 站 窗口 中 输入 了 下 面 的 命令 来 运行 程序 清单 34-3 中 的 程序 的 两 个 实例 ， 接 
者 关闭 终端 窗口 。 

$ echo $$ PID of shell is ID of session 

5533 

$ ./catch SIGHUP » samegroup.log 2»81 & 

$ ./catch SIGHUP x > diffgroup.log 2>&1 

第 一 个 命令 会 导致 创建 两 个 进程 ， 这 两 个 进程 属于 由 shell 创建 的 进程 组 。 第 二 个 命令 创 
建 了 一 个 子 进程 ， 子 进程 将 自身 放置 在 了 一 个 不 同 的 进程 组 中 。 

ZAF samegrouplog 时 会 发 现 其 中 包含 了 下 和 面 的 输出 ， 表 明 两 个 进程 组 的 成 员 都 收 到 了 
shell 发 送 的 信号。 

$ cat samegroup.log 

PID-5612; PPID-5611; PGID-5611; SID-5533 Child 

PID-5611; PPID-5533; PGID-5611; SID-5533 Parent 

5611: caught SIGHUP 

5612: caught SIGHUP 

当 奋 看 diffgroup.log 时 会 发 现下 面 的 输出， 表明 shell 在 收 到 SIGHUP 时 不 会 问 不 是 由 它 创 
建 的 进程 组 发 送信 和 号 。 

$ cat diffgroup.log 

PID-5614; PPID-5613; PGID-5614; SID-5533 Child 


PID-5613; PPID-5533; PGID-5613; SID-5533 Parent 
5613: caught SIGHUP Parent was signaled, but not child 























34.6.2 SIGHUP 和 控制 进程 的 终止 


如 果 因 为 终端 断 开 引起 的 向 控制 进程 发 送 的 SIGHUP 信号 会 导致 控制 进程 终止 ， 那 么 
SIGHUP 信号 会 被 发 送 给 终端 的 前 台 进 程 组 中 的 所 有 成 员 ( 见 25.2 节 )。 这 个 行为 是 控制 进程 终 
止 的 结果 ， 而 不 是 专门 与 SIGHUP 信和 号 关联 的 行为 。 如 果 控 制 进 程 出 于 任何 原因 终止 ， 那 么 前 
台 进 程 组 就 会 收 到 SIGHUP 信号。 


在 Linux E, SIGHUP 信号 后 面 会 跟着 一 个 SIGCONT 信和 号 以 确保 在 进程 组 之 前 被 一 个 信 
导 停 止 的 情况 下 恢复 该 进程 组 。 但 SUSv3 并 没有 指定 这 种 行为 , 并且 在 这 种 情况 下 大 多 数 其 他 
UNIX 实现 不 会 发 送 SIGCONT 信和 号 。 

程序 清单 34-4 演示 了 控制 进程 的 终止 导致 回 终 端的 前 台 进 程 组 的 所 有 成 员 发 送 SIGHUP 
信和 号。 这 个 程序 为 每 个 命令 行 参数 都 创建 了 一 个 子 进 程 马 。 如 果 相 应 的 命令 行 参 数 是 4， 那么 
子 进程 会 将 自身 放置 在 自己 的 〈 不 同 的 ) 进程 组 中 @; 否则 的 话 子 进程 加 入 到 父 进程 所 在 的 进 
程 组 中 。( 这 里 使 用 了 字母 s 来 指定 后 面 这 种 处 理 方 式 ， 尽 管 可 以 使 用 除 d 之 外 的 任意 字母 。) 
接 看 各 个 子 进程 设置 了 SIGHUP 信号 处 理 占 4)。 为 确保 它们 能 够 在 进程 终止 事件 不 发 生 的 情 
况 下 正常 终止 ， 父 进程 和 子 进程 都 调用 了 alarm0 设 置 一 个 定时 器 以 在 60 秒 之 后 发 送 一 个 
SIGALRM 信号 @@。 最 后 所 有 进程 (包括 父 进程 》 打 印 出 了 它们 的 进程 ID 和 进程 组 DO, dE 
着 循环 等 得 信号 的 到 达 Q@)。 当 发 出 信号 之 后 ， 人 处理 右 会 打印 出 进程 的 进程 ID 和 信和 号 数值 GD。 
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程序 清单 34-4 EmA SIGHUP 信号 
pgsjc/disc SIGHUP.c 
#define GNU SOURCE /* Get strsignal() declaration from «string.h» */ 
#include «string.h» 
include «signal.h» 
#include "tlpi hdr.h" 


static void /* Handler for SIGHUP */ 
handler(int sig) 


(D printf("PID %ld: caught signal 2d (%s)\n", (long) getpid(), 
sig, strsignal(sig)); 
/* UNSAFE (see Section 21.1.2) */ 
] 


int 
main(int argc, char *argv[]) 


pid t parentPid, childPid; 
int j; 
struct sigaction sa; 


if (argc < 2 || stremp(argv[1], "--help") == 0) 
usageErr("Xs (d|sj... [ > sig.log 2»81 ]\n", argv[0]); 


setbuf(stdout, NULL); /* Make stdout unbuffered */ 


parentPid - getpid(); 
printf("PID of parent process is: %ld\n", (long) parentPid); 
printf("Foreground process group ID is: %ld\n", 

(long) tcgetpgrp(STDIN FILENO)); 


© for (j = 1; j < argc; j++) { /* Create child processes */ 
childPid = fork(); 
if (childPid == -1) 
errExit(" fork"); 


if (childPid == 0) ( /* If child... */ 
© if (argv[j][0] == 'd') /* 'd' --> to different pgrp */ 
if (setpgid(0, 0) == -1) 
errExit("setpgid"); 


sigemptyset(&sa.sa mask); 
sa.sa flags - 0; 
sa.sa handler - handler; 


(4) if (sigaction(SIGHUP, &sa, NULL) == -1) 
errExit("sigaction"); 
break; /* Child exits loop */ 
} 


/* All processes fall through to here */ 
(5) alarm(60); /* Ensure each process eventually terminates */ 
(6) printf("PID-ld PGID-ZldNn", (long) getpid(), (long) getpgrp()); 


for (5;) 
o pause(); /* Wait for signals */ 


pgsjc/disc SIGHUP.c 
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假设 使 用 下 面 的 命令 在 一 个 终端 窗口 中 运行 了 程序 清单 34-4 中 的 程序 。 

$ exec ./disc SIGHUP d s s > sig.log 2»81 

exec 命令 时 一 个 shell WEEMS, 它 会 导致 shell 执行 一 个 execOoR f H RAE BEEF Bu H 
Go HF shell 是 终端 的 控制 进程 ， 因 此 现在 这 个 程序 已 经 成 为 了 控制 进程 并 旦 在 终 痢 窗口 个 
关闭 时 会 收 到 SIGHUP 信号 。 在 关闭 终端 窗口 之 后 ， 在 sig.log 文件 中 会 看 到 下 面 的 输出 。 








PID of parent process is: 12733 

Foreground process group ID is: 12733 

PID-12755 PGID-12755 First child is in a different process group 
PID-12756 PGID-12733 Remaining children are in same PG as parent 
PID-12757 PGID-12733 

PID-12733 PGID-12733 This is the parent process 


PID 12756: caught signal 1 (Hangup) 
PID 12757: caught signal 1 (Hangup) 


关闭 终端 窗口 会 导致 SIGHUP 信号 被 发 送 给 控制 进程 〈 父 进程 )， 进 而 导致 该 进程 的 终止 。 
从 上 面 可 以 看 出 ， 两 个 子 进 程 与 父 进程 位 于 同一 个 进程 组 中 《终端 的 前 台 进 程 组 )， 它 们 都 收 到 
了 SIGHUP 信号 ， 但 位 于 另 一 个 进程 组 〈 后 台 ) 中 的 子 进 程 并 没有 收 到 这 个 信号 。 


34.7 ”作业 控制 

作业 控制 是 在 1980 年 左右 由 BSD 系统 上 的 C shell 首次 推出 的 特性 。 作 业 探 制 允许 一 个 
shell 用 户 同 时 执行 多 个 命令 〈 作 业 )， 其 中 一 个 命令 在 前 人 台 和 运行， 其 余 的 命令 在 后 人 台 运 行 。 作 
业 可 以 被 停止 和 恢复 以 及 在 前 后 台 之 间 移 动 ， 下 面 会 对 此 予以 详细 介绍 。 

















在 初始 的 POSIX.1 标准 中 ， 对 作业 的 支持 是 可 选 的 。 后 面 的 UNIX 标准 使 这 个 功能 成 为 了 
必 备 功能 。 








在 基于 字符 的 哑 终 端 盛行 的 年 代 〈 物 理 终 端 设备 只 能 显示 ASCII 字符 )， 很 多 shell 用 户 
都 知道 如 何 使 用 shell 作业 控制 命令 。 在 运行 X Window System I) El Ss d HL AA 
shell 作业 控制 的 人 束 越 来 越 少 了 ， 但 作业 控制 仍然 是 一 项 非常 有 用 的 特性 。 使 用 作业 控制 管 
理 多 个 同时 执行 的 命令 比 在 儿 个 窗口 之 间 来 回 切换 更 快速 和 简单 。 对 于 那些 不 熟悉 作业 控制 
的 读者 来 讲 ， 可 以 看 一 下 下 面 这 个 简短 的 入 门 指 南 。 在 介绍 完 入 门 指 南 之 后 将 会 介绍 作业 探 
制 实现 方面 的 细节 信息 并 考虑 作业 控制 对 应 用 程序 设计 的 约束 。 


34.7.1 在 shell 中 使 用 作业 控制 


当 输 入 的 命令 以 & 符 号 结束 时 ， 该 命令 会 作为 后 台 任 务 运 行 ， 如 下 面 的 示例 所 示 。 
$ grep -r SIGHUP /usr/src/linux »x & 

















[1] 18932 Job 1: process running grep has PID 18952 
$ sleep 60 & 
[2] 18934 Job 2: process running sleep has PID 18934 


shell 会 为 后 台 的 每 个 进程 赋 一 个 唯一 的 作业 号 。 当 作业 在 后 台 运 行 之 后 以 及 在 使 用 各 种 
作业 控制 命令 操作 或 监控 作业 时 作业 号 会 显示 在 方 括号 中 。 作 业 号 后 面 的 数字 是 执行 这 个 命 
令 的 进程 的 进程 ID 或 管道 中 最 后 一 个 进程 的 进程 卫 。 在 后 面 几 个 段落 中 介绍 的 命令 中 会 使 用 
%num 来 引用 作业 ， 其 中 num 是 shell 赋 给 作业 的 作业 号 。 
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台 最 新 被 停止 的 作业 《使 用 下 面 介 绍 的 挂 起 字符 ) 或 者 如 果 没 有 这 样 的 作业 的 话 ， 最 新 作业 
征 在 后 台 月 动 的 任务 。(〈 不 同 shell 确定 哪个 后 合作 闻 为 当前 作 籽 的 细 区 方面 舟 微 有 些 个 同 。) 
妨 外 ，%9% 和 9%+ 符 号 指 的 是 当前 作业 ，%- 符 号 指 的 是 上 a 
中 ， 当 前 的 和 上 一 个 当前 作业 分 别 用 加 号 〈+) 和 减 号 〈-) 标记 ， 稍 后 就 会 对 此 予以 介 




















jobs 是 shell 内 置 的 一 个 命令 ， 它 会 列 出 所 有 后 人 台 作 业 。 


$ jobs 
[1]- Running grep -r SIGHUP /usr/src/linux »x & 
[2]+ Running sleep 60 8 





在 这 个 时 刻 ，shell 是 终端 的 前 合 进程 。 HFAA AI GUEREN EA KEA A 
终端 生成 的 信号 , 因此 有 时 候 需 要 将 后 台 作 业 移动 到 前 台 。 这 是 通过 fg XA shell 内 置 命令 来 完成 的 。 

i is SIGHUP /usr/src/linux »x 

从 上 面 的 示例 中 可 以 看 出 ， 当 在 前 后 合 之 间 移 动作 业 时 shell 会 重新 打印 出 该 作业 的 命令 

。 读 者 通过 阅读 下 面 的 内 容 就 会 发 现 ， 当 作业 在 后 台 的 状态 发 生变 化 时 ，shell 也 会 重新 打 
1 

当 作业 在 前 台 运 行 时 可 以 使 用 终 mEGF Oæ Control-Z) REREN, ES 
端的 前 台 进 程 组 发 送 一 个 SIGTSTP 信和 号 


Type Control-Z 
[1]* Stopped grep -r SIGHUP /usr/src/linux »x 


在 按 下 Control-Z 之 后 ，shell 会 打印 出 在 后 台 被 停止 的 命令 。 要 的 话 ， 可 以 使 用 全 
命令 在 前 台 恢 复 这 个 作业 或 使 用 bg 命令 在 后 台 恢 复 这 个 命令 。 不 管 使 用 哪个 命令 恢复 作业 ， 
shell 都 会 通过 向 任务 发 送 一 OE 


$ bg %1 
[1]+ grep -r SIGHUP /usr/src/linux >x & 


XE IXE [8] Je f TENE AC — A SIGSTOP fri BEUP PE LEUR f TENE 























$ kill -STOP %1 

[1]+ Stopped grep -r SIGHUP /usr/src/linux >x 

$ jobs 

[1]+ Stopped grep -r SIGHUP /usr/src/linux >x 

[2]- Running sleep 60 8 

$ bg ^1 Restart job in background 
[1]+ grep -r SIGHUP /usr/src/linux >x & 


Korn 和 C shell 提供 了 一 个 命令 stop 作为 kill-stop 快捷 方式 。 


当 后 台 作 业 最 后 执行 结束 之 后 ，shell 会 在 打印 下 一 个 shell 提示 符 之 前 先 打印 一 条 消息 。 


Press Enter to see a further shell prompt 














[1]- Done grep -r SIGHUP /usr/src/linux »x 
[2]+ Done sleep 60 
$ 


只 有 前 人 台 作 业 中 的 进程 才能 够 从 控制 终 站 中 谈 取 输入 。 这 个 限制 条 件 避 人 免 了 多 roa 
争 读 取 终端 输入 。 如 果 后 合作 业 兴 试 从 终 站 中 读 取 输入， 融会 接收 到 一 个 SIGTTIN 信和 号 
SIGTTIN 信和 号 的 默认 处 理 动作 是 停止 作业 。 
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状态 变更 的 通知 。 


现在 必须 要 将 作业 移 到 前 合 来 〈 始 ) 并 加 其 提供 所 需 的 输入 了 。 如 来 需要 的 话 ， 可 以 通过 
先 挂 起 该 作业 后 在 后 台 恢 复 该 作业 的 方式 继续 该 作业 的 执行 。( 当然， 在 这 个 特定 的 例 
子 中 ，cat 将 会 再 次 立即 被 停止 ， 因 为 它 AERA im FP BE BDURIAN o) 

在 默认 情况 下 ， 后 台 作 业 是 被 允许 向 控制 终 MALA VI TER. HUI SEX EL J TOSTOP 标 
ii Amh, 2962.5 节 )， 那 么 当 后 合作 业 答 试 在 终端 上 输出 时 会 导致 SIGTTOU 信 
FRE. EH stty 命令 能 够 设置 TOSTOP 标志 ，62.3 市 将 会 对 此 了 予以 介绍 。 ) 与 SIGTTIN 

一 样 ，SIGTTOU 信和 号 会 停 上 作业 。 

$ stty tostop Enable TOSTOP flag for this terminal 


$ date & 
[1] 19023 








Press Enter once more to see job state changes displayed prior to next shell brompt 








[1]* Stopped date 

可 以 通过 将 作业 移 到 前 合 来 租 看 作业 的 输出 。 
$ fg 

date 


Tue Dec 28 16:20:51 CEST 2010 
作业 具备 多 种 状态 ， 作 业 控 制 以 及 shell 命令 和 终端 字符 《以 及 相应 的 信 叶 ) 可 以 使 作业 
在 不 同 状态 之 间 和 迁移， 图 34-2 对 作业 的 状态 进行 了 总 结 。 这 些 作 业 可 以 通过 问 作 业 发 送 各 种 
言 写 来 到 达 ， 如 SIGINT 和 SIGQUIT 信号 ， 而 这 些 信 号 可 以 通过 键盘 来 生成 。 
命令 





在 前 端 执行 


bg (SIGCONT) 


在 后 端 执行 | au] 在 后 端 停止 
1. kill -STOP (SIGSTOP) 
2, 终端 读 (SIGTTIN) 
3. 终端 写 (+TOSTOP ) (SIGTTOU) 


图 34-2 ”作业 控制 状态 





34.7.2 ”实现 作业 控制 

本 节 将 先 介绍 与 实现 作业 控制 有 关 的 各 个 方面 ， 最 后 介绍 一 个 能 使 作业 控制 操作 更 加 透 
明 的 示例 程序 。 

尽管 作业 控制 一 开始 在 POSIX.1 标准 中 是 可 选 的， 但 在 后 面 的 标准 中 ， 包 括 SUSvV3， 则 
要 求实 现 必须 要 支持 作业 控制 。 这 种 支持 所 需 的 条 件 如 下 。 
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e 实现 必须 要 提供 特定 的 作业 控制 信号 : SIGTSTP. SIGSTOP, SIGCONT. SIGTTOU 
以 及 SIGTTIN。 此 外 ，SIGCHLD 信号 (参见 26.3 节 ) 也 是 必需 的 ， 因 为 它 允 许 shell 
《所 有 任务 的 父 进程 ) 找 出 其 子 进 程 何 时 执行 终止 或 被 停止 了 。 

e 终端 驱动 器 必须 要 支持 作业 控制 信号 的 生成 ， 这 样 当 输入 特定 的 字符 或 进行 终端 DO 
以 及 在 后 人 台 作 业 中 执行 特定 的 其 他 终端 操作 (下 面 将 会 予以 介绍 ) 时 需要 将 恰当 的 信 
号 (如 图 34-2 所 示 ) 发 送 到 相关 的 进程 组 。 为 了 能 够 完成 这 些 动 作 ， 终 端 驱动 器 必须 
要 记录 与 终端 相关 联 的 会 话 D〈 控 制 进程 》 和 前 台 进 程 组 ID (图 34-1)。 

e shell 必须 要 支持 作业 控制 (大 多 数 现代 shell 都 具备 这 个 功能 )。 这 种 文 持 是 通过 
剖面 介绍 的 将 作业 在 前 台 和 后 台 之 间 迁 移 以 及 监控 作业 的 状态 的 命令 的 形式 来 完 
成 的 。 其 中 某 些 命令 会 问 作 业 发 送信 号 《如 图 34-2 所 示 )。 此 外 ， 在 执行 将 作业 
从 前 台 运 行 的 状态 迁移 至 其 他 状态 的 操作 中 ，shell 使 用 tcsetpgrpO 调 用 来 调整 终 
六 驱动 右 中 与 前 台 进 程 组 有 关 的 记录 信息 。 

在 20.5 节 中 曾经 讲 过 ， 信 号 一 般 只 有 在 发 送 进 程 的 真实 或 有 效用 户 ID 与 接收 进程 的 真实 
用 户 ID 或 保存 的 set-user-ID 匹配 时 才 会 被 发 送 给 进程 ， 但 SIGCONT 是 这 个 规则 的 一 个 例外 。 
内 核 允许 一 个 进程 (如 shell) 向 同一 会 话 中 的 任意 进程 发 送 SIGCONT 信号 ， 不 管 进程 的 验证 
信息 是 什么 。 在 SIGCONT 信和 号 上 放宽 这 个 规则 是 有 必要 的 ， 这 样 当 用 户 开 始 一 个 会 修改 自身 
的 验证 信息 (特别 是 真实 的 用 户 ID ) 的 set-user-ID 程序 时 ， 仍 然 能 够 在 程序 被 停止 时 通过 
SIGCONT 信和 号 来 恢复 这 个 程序 的 运行 。 






























































SIGTTIN 和 SIGTTOU 信号 
SUSv3 对 后 台 进 程 的 SIGTTIN 和 SIGTTOU 信和 号 的 产生 规定 了 一 些 特殊 情况 (Linux 实现 
了 这 些 规定 )。 

e 当 进 程 当 前 处 于 阻 暑 状态 或 忽视 SIGTTIN 信号 的 状态 时 则 不 友 送 SIGTTIN fü 3 
时 试图 从 控制 终端 发 起 read0 调 用 会 失败 ，errno 会 被 设置 成 EIO。 这 种 行为 的 逻辑 是 没 
有 这 种 行为 的 话 进程 束 无 法 知道 不 允许 进行 read() 操 作 。 

e 即使 终 新 被 设置 了 TOSTOP 标记 ， 当 进程 当前 处 于 阻 紧 状态 或 急 视 SIGTTIN fs 
状态 时 也 不 发 送 SIGTTOU 信号 。 这 时 从 控制 终 冰 发 起 writeO 调 用 是 允许 的 〈 即 
TOSTOP 标记 被 忽视 了 )。 

e 不 管 是 否 设 置 了 TOSTOP 标记 , 当 后 台 进 程 试 图 在 控制 终端 上 调用 会 修改 终端 驱动 器 
数据 结构 的 特定 函数 时 会 生成 SIGTTOU 信和 号。 这 些 函 数 包 括 tesetpgrp()、tcsetattr()、 
tcflushO、tcflowO、tcsendbreakO 以 及 tcdrain0。( 第 62 章 将 会 介绍 这 些 函 数 。) 如 果 
SIGTTOU 信和 号 被 阻塞 或 被 名 视 了 ， 那 么 这 些 调用 就 会 成 功 。 

示例 程序 : 演示 作业 控制 的 操作 

通过 程序 清单 34-5 给 出 的 程序 能 够 看 出 shell 是 如 何 将 命令 以 管道 连接 的 形式 组 织 进 一 个 作 
业 的 (进程 组 )。 此 外 ， 通 过 这 个 程序 还 能 监控 发 送 的 特定 信号 以 及 在 作业 控制 中 对 终端 的 前 台 
进程 组 设置 所 做 的 变更 。 读 者 可 以 以 管道 的 形式 运行 这 个 程序 的 多 个 实例 ， 如 下 面 的 例子 所 示 。 

















$ ./job mon | ./job mon | ./job mon 


程序 清单 34-5 中 的 程序 执行 了 下 面 的 操作 。 
e 在 启动 的 时 候 ， 程 序 为 SIGINT、SIGTSTP 和 SIGTSTP 信号 四 安装 了 一 个 处 理 器 ， 该 
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处 理 器 执行 下 面 的 动作 。 

-显示 终端 的 前 台 进 程 组 Q)。 为 避免 在 输出 中 出 现 多 行 相同 的 内 容 ， 只 有 进程 组 首 进 程 才 
能 执行 这 个 动作 。 

-显示 进程 的 ID、 进 程 在 管道 中 的 位 置 以 及 接收 到 的 信号 @)。 

- 当 处 理 器 捕获 到 SIGTSTP 信号 时 必须 要 做 一 些 额 外 的 处 理工 作 , 因为 捕获 到 这 个 信和 号 不 
会 停止 进程 。 这 样 要 停止 进程 的 话 处 理 器 就 需要 发 出 一 个 SIGSTOP 信号 @@， 因 为 这 
个 信号 总 是 会 停止 进程 的 执行 。( 在 34.7.3 节 中 将 会 优化 SIGTSTP 信号 的 处 理 方式 。) 

e 如 果 程 序 是 管道 中 的 第 一 个 进程 ， 那 么 它 就 会 打印 出 所 有 进程 的 输出 的 标题 @。 为 了 
检测 进程 本 身 是 否 是 管道 中 的 第 一 个 进程 (或 最 后 一 个 进程 );， 程 序 使 用 了 isattyO) 函 
žr (62.10 节 中 将 会 予以 介绍 ) 来 检查 其 标准 输入 (或 输出 ) 是否 是 一 个 终端 中。 如 
果 指 定 的 文件 描述 符 是 一 个 管道 ， 那 么 isatty0 返 回 false (0)。 

。 程序 构建 了 一 个 消息 并 将 消息 传递 给 了 管道 中 的 下 一 个 命令 。 这 个 消息 是 一 个 表明 进 
程 在 管道 中 的 位 置 的 整数 。 因 此 ， 对 于 第 一 个 进程 来 讲 ， 消 息 中 包含 数字 1。 如 果 程 
序 是 管道 中 的 第 一 个 进程 ， 那 么 消息 被 初始 化 为 0。 如 果 程 序 不 是 管道 中 的 第 一 个 进 
程 ， 那 么 程序 首先 会 从 其 前 面 的 进程 中 读 取 这 个 消息 @。 程 序 在 将 控制 权 传递 给 下 
个 进程 之 前 会 递增 消息 值 @)。 

。 不 管 程序 在 管道 中 所 处 的 位 置 如 何 , 它 都 会 输出 一 行 包含 其 在 管道 中 的 位 置 、 进 程 ID、 
父 进程 ID、 进程 组 ID 以 及 会 话 ID WLO. 

° TETTE UNIS 否则 就 会 写 入 一 个 整数 消息 以 将 其 传递 给 管道 中 
的 下 一 个 命令 

。 最 后 ， 程序 会 无 限 循环 并 使 用 pause()*5 fifi QD. 


程序 清单 34-5: 观察 作业 控制 中 的 进程 处 理 







































































一 pgsjc/job mon.c 
#define GNU SOURCE /* Get declaration of strsignal() from «string.h» */ 
#include «string.h» 

include «signal.h» 

include «fcntl.h» 

#include "tlpi hdr.h" 


static int cmdNum; /* Our position in pipeline */ 


static void /* Handler for various signals */ 
handler(int sig) 


/* UNSAFE: This handler uses non-async-signal-safe functions 
(fprintf(), strsignal(); see Section 21.1.2) */ 
if (getpid() == getpgrp()) /* If process group leader */ 
fprintf(stderr, "Terminal FG process group: %ld\n", 
(long) tcgetpgrp(STDERR FILENO)); 
®© fprintf(stderr, "Process %ld (Xd) received signal %d (Xs)Nn", 
(long) getpid(), cmdNum, sig, strsignal(sig)); 
/* If we catch SIGTSTP, it won't actually stop us. Therefore we 
raise SIGSTOP so we actually get stopped. */ 


© if (sig == SIGTSTP) 
raise(SIGSTOP); 


int 
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main(int argc, char *argv[]) 
struct sigaction sa; 


sigemptyset(8sa.sa mask); 
sa.sa flags - SA RESTART; 
sa.sa handler - handler; 
(4) if (sigaction(SIGINT, &sa, NULL) == -1) 
errExit("sigaction"); 
if (sigaction(SIGTSTP, &sa, NULL) == -1) 
errExit("sigaction"); 
if (sigaction(SIGCONT, &sa, NULL) -- -1) 
errExit("sigaction"); 


/* If stdin is a terminal, this is the first process in pipeline: 
print a heading and initialize message to be sent down pipe */ 


(5) if (isatty(STDIN FILENO)) ( 
fprintf(stderr, "Terminal FG process group: XldWn", 
(long) tcgetpgrp(STDIN FILENO)); 
© fprintf(stderr, "Command PID PPID PGRP SID\n"); 
cmdNum = 0; 


} else { /* Not first in pipeline, so read message from pipe */ 
D if (read(STDIN FILENO, &cmdNum, sizeof(cmdNum)) <= 0) 
fatal("read got EOF or error"); 
} 


cmdNum++; 

fprintf(stderr, "%4d %5ld «51d %51d %51d\n", cmdNum, 
(long) getpid(), (long) getppid(), 
(long) getpgrp(), (long) getsid(0)); 


OG 


/* If not the last process, pass a message to the next process */ 


if (lisatty(STDOUT FILENO)) /* If not tty, then should be pipe */ 
(40) if (write(STDOUT FILENO, &cmdNum, sizeof(cmdNum)) == -1) 
errMsg("write"); 


(tb for(5;) /* Wait for signals */ 
pause(); 


pgsjc/job mon.c 


下 面 的 shell 会 话 演示 了 程序 清单 34-5 中 的 程序 的 用 法 。 它 首先 打印 出 了 shell 的 进程 ID 
( 它 是 会 话 首 进程 和 进程 组 首 进程 ， 尽 管 它 是 进程 组 中 的 唯一 成 员 )， 接 着 创建 了 一 个 包含 两 
个 进程 的 后 台 作 业 。 

从 上 面 的 输出 可 以 看 出 ，shell 仍然 是 终端 的 前 台 进 程 ， 并 且 新 作业 与 shell 位 于 同一 个 会 
话 中 ， 所 有 进程 都 位 于 同一 个 进程 组 中 。 从 进程 ID 可 以 看 出 ， 作 业 中 进程 的 创建 顺序 与 命令 
在 命令 行 中 出 现 的 顺序 是 一 致 的 。( 大 多 数 shell 是 这 样 处 理 的 ， 但 有 些 shell 实现 创建 进程 的 
顺序 与 命令 在 命令 行 中 出 现 的 顺序 不 一 致 。) 




















$ echo $$ Show PID of the shell 

1204 

$ ./job mon | ./job mon & Start a job containing 2 processes 
[1] 1227 


Terminal FG process group: 1204 
Command PID PPID PGRP SID 
1 1226 1204 1226 1204 
2 1227 1204 1226 1204 
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下 和 耐 继续 创建 第 二 个 包含 三 个 进程 的 后 台 作 业 。 
$ ./job mon | ./job mon | ./job mon & 

[2] 1230 

Terminal FG process group: 1204 

Command PID PPID PGRP SID 


1 1228 1204 1228 1204 
2 1229 1204 1228 1204 
3 1230 1204 1228 1204 








从 上 面 可 以 看 出 ，shell 仍然 是 终端 的 前 台 进 程 组 ， 新 任务 中 的 进程 与 shell 位 于 同一 个 会 
话 中 ， 但 所 处 的 进程 组 则 与 第 一 个 任务 中 的 进程 所 处 的 进程 组 不 同 。 下 面 将 第 二 个 任务 迁移 
至 前 台 并 向 其 发 送 一 个 SIGINT 信号 。 

$ fg 

./job mon | ./job mon | ./job mon 

Type Control-C to generate SIGINT (signal 2) 

Process 1230 (3) received signal 2 (Interrupt) 

Process 1229 (2) received signal 2 (Interrupt) 

Terminal FG process group: 1228 

Process 1228 (1) received signal 2 (Interrupt) 


从 上 面 的 输出 可 以 看 出 ，SIGINT 信号 被 发 送 给 了 前 台 进 程 组 中 的 所 有 进程 ， 并 且 这 个 作 
业 现在 已 经 成 为 了 终端 的 前 台 进 程 组 。 接 着 向 这 个 作业 发 送 一 个 SIGTSTP 信号。 

Type Control-Z to generate SIGTSTP (signal 20 on Linux/x66-32). 

Process 1230 (3) received signal 20 (Stopped) 


Process 1229 (2) received signal 20 (Stopped) 
Terminal FG process group: 1228 








Process 1228 (1) received signal 20 (Stopped) 


[2]+ Stopped ./job mon | ./job mon | ./job mon 


MÆRE P B PUR | va tib Y « Miti n nT LUE BUEH 1228 是 前 台 作 业 ， 但 当 
这 个 作业 被 停止 乙 后 ，shell 变 成 了 前 台 进 程 组 ， 虽 然 这 一 点 无 法 从 输出 中 看 出 。 

RAH bg 命令 重新 开始 这 个 作业 ， 该 命令 会 问 作 业 中 的 进程 发 送 一 个 SIGCONT fd s. 

$ bg Resume job in bachground 

[2]+ ./job mon | ./job mon | ./job mon & 

Process 1230 (3) received signal 18 (Continued) 

Process 1229 (2) received signal 18 (Continued) 











Terminal FG process group: 1204 The shell is in the foreground 
Process 1228 (1) received signal 18 (Continued) 

$ kill %1 %2 We've finished: clean up 
[1]- Terminated ./job mon | ./job mon 

[2]+ Terminated ./job mon | ./job mon | ./job mon 


34.7.3 处理 作业 控制 信号 


由 于 对 于 大 多 数 应 用 程序 来 讲 作业 控制 的 操作 是 透明 的 ， 因 此 它们 无 需 对 作业 控制 信号 
采取 特殊 的 动作 ， 但 像 vi 和 less 之 类 的 进行 屏 大 处 理 的 程序 则 是 例外 ， 因 为 它们 需要 控制 文 
本 在 终 绢 上 的 布局 和 修改 各 种 终 剖 设 荀 , 包括 允许 在 人 条 一 时 刻 从 终端 输入 中 读 取 一 个 子 从 (不 
是 一 行 ) 的 设置 。( 第 62 章 将 会 介绍 各 种 终端 设置 。) 

屏幕 处 理 程序 需要 处 理 终端 停止 信号 〈SIGTSTP )。 信 和 号 处 理 器 应 该 将 终端 重 置 为 规范 〈 每 
次 一 行 ) 输入 横 式 并 将 光标 放 在 终端 的 左下 角 。 当 进程 恢复 之 后 ， 程 序 会 将 终端 设置 回 所 需 的 
模式 , 检查 终 问 窗口 大 小 (窗口 大 小 同时 可 能 会 被 用 户 改 挥 ) 以 及 使 用 所 需 的 内 容重 新 绘制 屏幕 。 
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当 挂 起 或 退出 诸如 vi. xterm 或 其 他 终端 处 理 程序 时 通常 会 看 到 程序 使 用 启动 之 前 的 可 见 
文本 来 绘制 终端 。 这 些 终端 处 理 程序 是 通过 捕获 两 个 字符 序列 来 取得 这 种 效果 的 ， 所 有 使 用 
terminfo 或 termcap 包 的 程序 在 取得 和 释放 终端 布局 的 控制 时 都 需要 输出 这 两 个 字符 序列 ,第 一 
个 字符 序列 称 为 smcup (通常 是 Escape 后 面 跟着 [?1049h), 它 会 导致 终端 处 理 程序 切换 至 其 “ 预 
备 ” 屏幕。 第 二 个 序列 称 为 meup (通常 是 Escape 后 面 跟着 [?10491)， 它 会 导致 终端 处 理 程序 
恢复 到 默认 屏幕 ， 从 而 导致 在 显示 器 上 重 现 屏幕 处 理 程序 在 获取 终端 的 控制 权 之 前 的 初始 文本 。 


在 处 理 SIGTSTP 信号 时 需要 清楚 一 些 细 节 问 题 。 第 一 个 问题 是 在 34.7.2 节 中 提 及 过 的 : 
如 果 SIGTSTP 信和 号 被 捕获 了 ， 那么 束 不 会 执行 默认 的 停止 进程 的 动作 。 在 程序 清单 34-5 中 是 
通过 让 SIGTSTP 信号 的 处 理 器 生成 一 个 SIGSTOP 信和 号 来 解决 这 个 问题 的 。 由 于 SIGSTOP 信 
写 是 无 法 被 捕获 、 阻 塞 和 忽略 的 ， 因 此 能 确保 立即 停止 进程 ， 但 这 种 方式 不 是 非常 准确 。 在 
26.1.3 节 中 曾经 介绍 过 父 进程 可 以 使 用 wait0 或 waitpi dO 返回 的 等 待 状态 值 来 确定 哪个 信号 导 
人 臻 了 其 子 进程 的 停止 。 如 果 在 SIGTSTP 信和 号 处 理 器 中 生成 了 SIGSTOP 信号 ， 那 么 对 于 父 进 
程 来 讲 ， 其 子 进程 是 被 SIGSTOP 信号 停止 的 ， 这 就 会 产生 误导 。 

在 这 种 情况 下 ,恰当 的 处 理 方式 是 让 SIGTSTP 信号 处 理 器 再 生成 一 个 SIGTSTP 信号 来 停 
IEXERE, WW PHI. 

1. 处 理 右 将 SIGTSTP 信和 号 的 处 理 重 置 为 默认 值 (SIG_DFL)。 
2. 处 理 器 生成 SIGTSTP 信号 。 
3. 由 于 SIGTSTP 信号 会 被 阻塞 进入 处 理 器 〈 除 非 指 定 了 SA NODEFER 标记 )， 因 此 处 理 需 

会 接触 该 信号 的 阻 宪 。 这 时 ， 在 上 一 个 步骤 中 生成 的 SIGTSTP 信号 会 导致 默认 动作 的 执 

行 : 进程 会 立即 被 挂 起 。 

.在 后 面 的 某 个 时 刻 ， 当 进程 接收 到 SIGCONT 信号 时 会 恢复 。 这 时 ， 处 理 器 的 执行 就 会 继续 。 
5. 在 返回 之 前 ， 处 理 器 会 重新 阳 塞 SIGTSTP 信号 并 重新 注册 本 身 来 处 理 下 一 个 SIGTSTP 信号。 

执行 重新 阻塞 SIGTSTP 信号 这 一 步 是 因为 防止 在 处 理 器 重新 注册 本 身 之 后 和 返回 之 前 接 
收 到 另 一 个 SIGTSTP 信号 而 导致 处 理 器 被 递归 调用 的 情况 。 在 22.7 节 中 曾经 提 及 过 在 快速 发 
送信 号 时 递归 调用 一 个 信号 处 理 器 会 导致 栈 溢 出 。 阻 塞 信号 还 避免 了 信号 处 理 器 在 重新 注册 
本 身 和 返回 之 前 需要 执行 其 他 动作 (如 保存 和 还 原 全 局 变量 ) 时 存在 的 问题 。 


示例 程序 

程序 清单 34-6 中 的 处 理 融 实现 了 上 面 描述 的 步 又 ， 从 而 能 够 正确 地 处 理 SIGTSTP. 
(在 程序 清单 62-4 中 给 出 了 另 一 个 处 理 SIGTSTP 信和 号 的 例子 )。 在 注册 了 SIGTSTP 信和 号 
处 理 需 之 后 ,这 个 程序 的 main0O 函 数 开 始 循环 等 竺 信和 号。 下 面 是 运行 这 个 程序 忆 后 的 输出 。 

$ ./handling SIGTSTP 

Type Control-Z, sending SIGTSTP 













































































Caught SIGTSTP This message is printed by SIGTSTP handler 

[1]+ Stopped ./handling SIGTSTP 

$ fg Sends SIGCONT 

./handling SIGTSTP 

Exiting SIGTSTP handler Execution of handler continues; handler returns 
Main pause() call in main() was interrupted by handler 


Type Control-C to terminate the program 


在 请 如 vi ZZ 2I] BEA ADETE P , 程序 清单 34-6 P BR fei mr ABEESS HP IT] printtO 调 用 将 会 被 前 
TEHBETIEOSE IS] Be Ee DLE ERO T ER BUE Sz BUE DEUS Cae EE RH AEEA 
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ZERA, ZR 21.1.2 节 ， 处 理 器 应 该 通过 设置 一 个 标记 通知 主 程序 重新 绘制 屏幕 。) 
注意 SIGTSTP 处 理 器 可 能 会 中 断 特 定 的 阻塞 式 系统 调用 〈 如 21.5 节 中 描述 的 那样 )。 从 上 面 执 
行程 序 的 输出 中 也 可 以 看 出 这 一 点 ， 在 pause0 调 用 被 中 断 之 后 ， 主 程序 打印 出 了 消息 Main。 


程序 清单 34-6: 处 理 SIGTSTP 











pgsjc/handling SIGTSTP.c 


include «signal.h» 
#include "tlpi hdr.h" 


static void /* Handler for SIGTSTP */ 
tstpHandler(int sig) 
{ 

sigset t tstpMask, prevMask; 

int savedErrno; 

struct sigaction sa; 


savedErrno - errno; /* In case we change 'errno' here */ 
printf("Caught SIGTSTPAn"); /* UNSAFE (see Section 21.1.2) */ 
if (signal(SIGTSTP, SIG DFL) -- SIG ERR) 

errExit("signal"); /* Set handling to default */ 
raise(SIGTSTP); /* Generate a further SIGTSTP */ 


/* Unblock SIGTSTP; the pending SIGTSTP immediately suspends the program */ 

sigemptyset(&tstpMask); 

sigaddset(&tstpMask, SIGTSTP); 

if (sigprocmask(SIG UNBLOCK, &tstpMask, &prevMask) -- -1) 
errExit("sigprocmask"); 


/* Execution resumes here after SIGCONT */ 


if (sigprocmask(SIG SETMASK, &prevMask, NULL) == -1) 
errExit("sigprocmask"); /* Reblock SIGTSTP */ 


sigemptyset(&sa.sa mask); /* Reestablish handler */ 

sa.sa flags - SA RESTART; 

sa.sa handler - tstpHandler; 

if (sigaction(SIGTSTP, &sa, NULL) -- -1) 
errExit("sigaction"); 


printf("Exiting SIGTSTP handler'n"); 
errno - savedErrno; 


j 


int 
main(int argc, char *argv[]) 


{ 


struct sigaction sa; 
/* Only establish handler for SIGTSTP if it is not being ignored */ 


if (sigaction(SIGTSTP, NULL, &sa) == -1) 
errExit("sigaction"); 


if (sa.sa handler !- SIG IGN) { 


sigemptyset(8&sa.sa mask); 
sa.sa flags - SA RESTART; 
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sa.sa handler - tstpHandler; 
if (sigaction(SIGTSTP, &sa, NULL) -- -1) 
errExit("sigaction"); 


} 

for (55) { /* Wait for signals */ 
pause(); 
printf("MainWn"); 

} 


} 
pgsjc/handling SIGTSTP.c 


处 理 被 忽略 的 任务 控制 和 终端 生成 的 信号 


程序 清单 34-6 中 给 出 的 程序 只 有 在 SIGTSTP 信 号 不 被 忽略 的 情况 下 才 会 为 该 信号 建立 一 
个 信号 处 理 器 。 这 里 其 实 是 体 循 了 一 个 常规 规则 ， 即 应 用 程序 应 该 在 作业 控制 和 终 问 生成 信 
写 不 被 忽略 的 时 候 才 处 理 这 些 信 和 与。 对 于 作业 控制 信号 (SIGTSTP、SIGTTIN 以 及 SIGTTOU) 
来 讲 ， 这 个 规则 防止 应 用 程序 试图 处 理 那 些 从 非 作业 控制 shell. (如 传统 的 Bourne shell) 发 出 
的 信号 。 在 非 作 业 控 制 shel 中 ， 这 些 信号 的 处 理 被 设置 成 了 SIG_IGN， 只 有 作业 控制 shell 
将 这 些 信号 的 处 理 设 置 成 了 SIG DFL. 

一 个 类 似 的 规则 同样 适用 于 其 他 由 终端 生成 的 信号 : SIGINT, SIGQUIT 以 及 SIGHUP。 对 于 
SIGINT 和 SIGQUIT 来 讲 ， 其 原因 是 当 一 个 命令 在 非 作业 控制 shell 的 后 人 台 执 行 时 ， 结 末 进 程 
“会 被 放置 在 一 个 单独 的 进程 组 中 ， 而 是 与 shel 位 于 同一 个 进程 组 中 ， 而 shell 会 在 执行 命令 
之 前 将 SIGINT 和 SIGQUIT 的 处 理 设置 为 忽略 。 这样 就 能 确保 当 用 户 输入 终端 中 断 或 退出 字符 
(它们 应 该 只 会 影响 到 在 前 人 台 运 行 的 作业 ) 时 进程 不 会 被 杀 死 。 如 果 进 程 在 后 面 取消 了 shell 
对 这 些 信号 的 处 理 动作 ， 那 么 会 更 容易 受到 这 些 信和 号 的 影响 。 

当 命 令 通过 nohup(1) 被 执行 时 会 忽略 SIGHUP 信号 ， 这 样 承 防止 了 当 终 端 被 挂 朵 时 命令 
被 杀 死 的 情况 的 发 生 ， 因 此 应 用 程序 不 应 该 在 该 信号 被 忽略 时 试图 改变 这 个 信号 的 处 理 动 作 。 


34.7.4 ”孤儿 进程 组 ( SIGHUP 回顾 ) 


在 26.2 太 中 曾经 讲 过 下 儿 进程 是 那些 在 父 进程 终止 之 后 梓 init 进程 (进程 ID 为 1) 收养 
的 进程 。 在 程序 中 可 以 使 用 下 面 的 代码 创建 一 个 扳 儿 进程 。 


if (fork() != 0) /* Exit if parent (or on error) */ 
exit(EXIT SUCCESS); 


假设 在 shell 中 执行 一 个 包含 上 面 这 段 代 码 的 程序 , 图 34-3 给 出 了 父 进程 终止 前 后 该 进程 
的 状态 。 

从 图 34-3 中 可 以 看 出 ， 在 父 进 程 终 止 之 后 ， 子 进程 不 仪 是 一 个 孤儿 进程 ， 同 时 也 是 孤儿 
进程 组 的 一 个 成 员 。SUSv3 认为 当 一 个 进程 组 满足 “每 个 成 员 的 父 进程 本 身 是 组 的 一 个 成 员 
或 不 是 组 会 话 的 一 个 成 员 ” 时 束 弯 成 了 一 个 孤儿 进程 组 。 换 句 话 说， 如果 一 个 进程 组 中 至 少 
有 一 个 成 员 拥 有 一 个 位 于 同一 会 话 但 不 同 进程 组 中 的 父 进 程 ， 就 不 是 孤儿 进程 组 。 图 34-3 中 
包含 子 进 程 的 进程 组 是 孤儿 进程 组 ， 因 为 进程 组 中 的 子 进 程 是 唯一 进程 ， 其 父 进 程 Gni 位 
于 不 同 的 会 话 中 。 

根据 定义 ， 会话 首 进程 位 于 孤儿 进程 组 中 。 这 是 因为 setsid0 在 新 会 话 中 创建 了 一 个 新 进程 
组 ， 而 会 话 首 进程 的 父 进程 则 位 于 不 同 的 会 话 中 。 

从 shell 作业 控制 的 角度 来 讲 ， 孤 儿 进 程 组 是 非常 重要 的 。 根 据 图 34-3 考虑 下 面 的 场景 。 
1. 在 父 进程 退出 之 前 , 子 进程 被 停止 了 (可 能 是 由 于 父 进程 辣子 进程 发 送 了 一 个 停止 信号 )。 
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图 例 说 明 RN 
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孤儿 进程 组 一 He 子 进程 N 
1 1 ! | 
人 | 
a) 创建 父 进程 和 子 进程 b) 在 父 进程 存在 之 后 ， 由 init 收 养子 进程 


34-3 ”创建 狐 儿 进程 组 bj 步 又 
2.， 当 父 进 程 退 出 时 shell 从 作业 列表 中 删除 了 父 进程 的 进程 组 。 子 进程 由 init KEIR T 
终端 的 一 个 后 台 进程 ， 包 含 该 子 进程 的 进程 组 变 成 了 孤儿 进程 组 。 
3. 这 时 没有 进程 会 通过 waitO 监 控 被 停止 的 子 进程 的 状态 。 

由 于 shell 并 没有 创建 子 进程 ， 因 此 它 不 清楚 子 进程 是 盏 存在 以 及 子 进程 与 已 经 退出 的 父 
进程 位 于 同一 个 进程 组 中 。 此 外 ，init 进程 只 会 检查 被 终止 的 子 进 程 并 清理 该 僵尸 进程 ， 从 而 
导致 人 ”停止 的 子 进程 可 能 会 永远 残留 在 系统 中 ,因为 没有 进程 知道 要 问 其 发 送 一 个 SIGCONT 
言 号 来 恢复 它 的 执行 。 

即使 扳 儿 进程 组 中 一 个 被 停止 的 进程 拥有 一 个 仍然 存活 但 位 于 不 同 会 话 中 的 父 进程 ， 也 
无 法 保证 父 进程 能 够 向 这 个 被 停止 的 子 进程 发 送 SIGCONT 信号。 一 个 进程 可 以 向 同一 会 话 中 
的 任意 其 他 进程 发 送 SIGCONT 信和 号, 但 如 果子 进程 位 于 不 同 的 会 话 中 , 发 送信 号 的 标准 规则 
就 开 始 起 作用 了 参见 20.5 市 )， 因 此 如 果子 进程 是 一 个 修改 了 目 喘 的 验证 信息 的 特权 进程 ， 
父 进 程 可 能 就 无 法 向 子 进程 发 送信 号 。 

为 防止 上 面 所 描述 的 情况 的 发 生 ，SUSv3 规定 ， 如 果 一 个 进程 组 变 成 了 孤儿 进程 组 并 且 
拥有 很 多 已 停止 执行 的 成 员 ， 那 么 系统 会 问 进程 组 中 的 所 有 成 员 发 送 一 个 SIGHUP 信号 通知 
它们 已 经 与 会 话 断 开 连接 了 , 之 后 再 发 送 一 个 SIGCONT 信号 确保 它们 恢复 执行 。 wm RIU LRE 
程 组 不 包含 被 何止 的 成 员 ， 那 么 吏 不 会 发 送 任何 信号。 

一 个 进程 组 变 成 孤儿 进程 组 的 原因 可 能 是 因为 最 后 一 个 位 于 不 同 进程 组 但 属于 同一 会 话 
的 父 进 程 终 止 了 ， 也 可 能 是 因为 父 进程 位 于 为 一 个 进程 组 中 的 进程 组 中 最 后 一 个 进程 终止 了 。 
(图 34-3 展示 了 后 一 种 情况 。) 不 管 是 何 种 原因 引起 的 ， 对 包 合 被 停止 的 子 进程 的 新 孤儿 进程 
组 的 处 理 是 一 样 的 。 

向 包含 被 停止 的 成 员 的 新 孤儿 进程 组 发 送 SIGHUP 和 SIGCONT 信号 是 为 了 消除 任务 控制 
框 染 中 的 特定 漏洞 ， 因 为 没有 任何 措施 能 够 防止 一 个 进程 (拥有 合适 的 权限 向 孤儿 进程 组 中 
的 成 员 发 送 停止 信号 来 停止 它们 。 这 样 ， 进 程 就 会 保持 在 停止 的 状态 ， 直 到 一 些 进程 《同样 需 
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要 拥有 合适 的 权限 ) 回 它 们 发 送 一 个 SIGCONT 信号 。 

孤儿 进程 组 中 的 成 员 在 调用 tcsetpgrpO 函 数 (参见 34.5 节 ) 时 会 得 到 ENOTTY 的 错误 ， 
在 调用 tcsetattr()、tcflush()、tcflow()、tcsendbreakO 和 tedrainOPA ZA] CZ WS 62 章 ) 会 得 
到 EIO 的 错误 。 


示例 程序 
程序 清单 34-7 演示 了 前 面 描述 的 对 孤儿 进程 的 处 理 。 在 为 SIGHUP 和 SIGCONT 信号 建 
并 了 处 理 咒 之 后 所 ， 程 序 为 每 个 命令 行 参数 创建 了 一 个 子 进 程 @)。 接 着 每 个 子 进 程 停止 耻 
己 《 通 过 发 出 SIGSTOP 信号 ) 外 或 等 竺 信号 《使 用 pause()) 号 。 人 至 于 子 进程 到 撒 选 择 何 种 动 
作 则 取决 于 相应 的 命令 行 参数 是 否 以 字母 s (表示 stop) 打头 。( 这 里 使 用 了 以 字母 p 打头 的 
命令 行 参数 来 表示 相反 的 动作 ， 即 调用 pause, RE n] ELSE ER RE s ZEIT BE.) 
在 创建 完 所 有 子 进程 之 后 , 父 进 程 会 睡 虐 一 段 时 间 以 允许 设置 子 进程 时 间 @。( 在 24.2 市 
中 曾经 提 及 过 以 这 种 方式 使 用 sleep0O 不 是 一 个 完美 的 方案 ， 但 有 时 候 人 确实 是 达成 这 一 目标 的 
可 行 方法 。) 接着 父 进程 会 退出 人 中， 这 时 包含 子 进 程 的 进程 组 就 会 变 成 孤儿 进程 组 。 如 果 有 子 
进程 因为 进程 组 变 成 孤儿 进程 组 而 收 到 信号 ， 束 会 调用 信号 处 理 器 ， 信 号 处 理 占 会 显示 出 子 
进程 的 进程 ID 和 信号 编号 Q。 
程序 清单 34-7 SIGHUP 和 孤儿 进程 组 


















































pgsjc/orphaned pgrp SIGHUP.c 


#define GNU SOURCE /* Get declaration of strsignal() from «string.h» */ 
include <string.h> 

include «signal.h» 

include "tlpi hdr.h" 


static void /* Signal handler */ 
handler(int sig) 


i 
(D printf("PID-Xld: caught signal %d (%s)\n", (long) getpid(), 
sig, strsignal(sig)); /* UNSAFE (see Section 21.1.2) */ 
} 


int 
main(int argc, char *argv[]) 


int j; 
struct sigaction sa; 


if (argc < 2 || stremp(argv[1], "--help") == 0) 
usageErr("$s {s|p} ...\n", argv[0]); 


setbuf(stdout, NULL); /* Make stdout unbuffered */ 


sigemptyset(8sa.sa mask); 
sa.sa flags = 0; 
sa.sa handler - handler; 
© if (sigaction(SIGHUP, &sa, NULL) == -1) 
errExit("sigaction"); 
if (sigaction(SIGCONT, &sa, NULL) == -1) 
errExit("sigaction"); 
printf("parent: PID=%ld, PPID-Xld, PGID-Xld, SID=%ld\n", 
(long) getpid(), (long) getppid(), 
(long) getpgrp(), (long) getsid(o)); 
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/* Create one child for each command-line argument */ 
© for (j = 1; j < argc; j++) { 
switch (fork()) { 
case -1: 
errExit(" fork"); 
case 0: /* Child */ 
printf("child: PID=%ld, PPID-Xld, PGID=%ld, SID-XldWn", 
(long) getpid(), (long) getppid(), 
(long) getpgrp(), (long) getsid(o)); 


if (argv[j][0] == 's') { /* Stop via signal */ 
printf("PID-Xld stoppingWn", (long) getpid()); 


由 raise(SIGSTOP); 
] else { /* Wait for signal */ 
alarm(60); /* So we die if not SIGHUPed */ 
printf("PID=%ld pausingWn", (long) getpid()); 
(5) pause(); 
} 
exit(EXIT SUCCESS); 
default: /* Parent carries on round loop */ 
break; 
} 
} 
/* Parent falls through to here after creating all children */ 
(6) sleep(3); /* Give children a chance to start */ 
printf("parent exiting Wn"); 
JW) exit(EXIT SUCCESS); /* And orphan them and their group */ 
} 


pgsjc/orphaned pgrp SIGHUP.c 
下 面 的 shell 会 话 日 六 给 出 了 两 次 运行 程序 清单 34-7 中 的 程序 的 结果 。 
$ echo $$ Display PID of shell, which is also the session ID 
4785 
$ ./orphaned pgrp SIGHUP s p 
parent: PID-4827, PPID-4785, PGID-4827, SID-4785 
child: PID-4828, PPID-4827, PGID-4827, SID-4785 
PID-4828 stopping 
child: PID-4829, PPID-4827, PGID-4827, SID-4785 
PID-4829 pausing 
parent exiting 
$ PID-4828: caught signal 18 (Continued) 
PID-4828: caught signal 1 (Hangup) 
PID-4829: caught signal 18 (Continued) 
PID-4829: caught signal 1 (Hangup) 
Press Enter to get another shell brompt 
$ ./orphaned pgrp SIGHUP p p 
parent: PID-4830, PPID-4785, PGID-4830, SID-4785 
child: PID-4831, PPID-4830, PGID-4830, SID-4785 
PID-4831 pausing 
child: PID-4832, PPID-4830, PGID-4830, SID-4785 
PID-4832 pausing 
parent exiting 


此 一 次 运行 时 在 即将 变 为 孤儿 进程 组 的 进程 组 中 创建 了 两 个 子 进 程 : 一 个 进程 何止 了 目 
己 , 为 一 个 则 暂 集 了 。( 在 这 次 运行 中 , shell 提示 得 出 现在 子 进 程 的 输出 的 中 间 , 这 是 因为 shell 
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注意 到 父 进程 已 经 退出 了 。) 从 输出 中 可 以 看 出 ， 两 个 子 进程 在 父 进 程 退出 之 后 都 收 到 了 
SIGCONT 和 SIGHUP 信和 号。 在 第 二 次 运行 中 创建 了 两 个 子 进程 ， 但 它们 都 没有 停止 自身 ， 
此 当 父 进程 退出 之 后 不 会 发 送 任何 信和 号。 








孤儿 进程 组 和 SIGTSTP、SIGTTIN、 以 及 SIGTTOU 信和 号 


孤儿 进程 组 还 对 SIGTSTP、SIGTTIN 以 及 SIGTTOU 信号 的 传输 有 影响 。 

在 34.7.1 节 中 讲 过 ， 当 后 台 进 程 试图 从 控制 终端 中 调用 readO 时 将 会 收 到 SIGTTIN 信号 ， 当 
后 台 进 程 试 图 各 设置 了 TOSTOP 标记 的 控制 终端 调用 write0 时 会 收 到 SIGTTOU 信和 号。 但 同一 个 
抓 儿 进程 组 发 送 这 些 信号 坚 无 意义 ， 因 为 一 旦 被 停止 之 后 ， 筷 将 再 也 无 法 恢复 了 。 基 于 此 ， 在 进 
fT read() fI writeO 调 用 时 内 核 会 返回 EIO 的 错误 ， 而 不 是 发 送 SIGTTIN 或 SIGTTOU 信号 。 

基于 类 似 的 原因 ， 如 果 SIGTSTP、SIGTTIN 以 及 SIGTTOU 信和 号 的 分 送 会 导致 停止 孤儿 
进程 组 中 的 成 员 ， 那 么 这 个 信号 会 被 训 无 征兆 地 丢弃 。( 如 果 信 号 正在 被 处 理 ， 那 么 信号 已 经 
被 分 送 给 了 进程 。) 这 种 行为 不 会 因为 信号 发 送 方 式 〈( 如 信号 可 能 是 由 终端 驱动 器 产生 的 或 由 
显 式 地 调用 Kill0 而 发 送 ) 的 改变 而 改变 。 
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会 话 和 进程 组 (也 称 为 作业 ) 形成 了 进程 的 双 层 结构 : 会 话 是 一 组 进程 组 的 集合 ， 进 程 
组 是 一 组 进程 的 集合 。 会 话 首 进 程 是 使 用 setsid0 创 建 会 话 的 进程 。 类 似 的 ， 进 程 组 首 进 程 
是 使 用 setpgid0 创 建 进程 组 的 进程 。 进 程 组 中 的 所 有 成 员 共 享 同样 的 进程 组 ID. (与 进程 组 
首 进程 的 进程 组 ID 一 样 )， 进 程 组 中 所 有 构成 一 个 会 话 的 进程 拥有 同样 的 会 话 ID 〈 与 会 话 
首 进程 的 ID 一 样 )。 每 个 会 话 可 以 拥有 一 个 控制 终端 (/dev/tty)， 这 个 关系 是 在 会 话 首 进程 
打开 一 个 终端 设备 时 建立 的 。 打 开 控 制 终端 还 会 导致 会 话 首 进程 成 为 终端 的 控制 进程 。 

会 话 和 进程 组 是 用 来 文 持 shell 作业 控制 的 (尽管 有 时 候 在 应 用 程序 中 会 另 作 他 用 )。 
在 作业 控制 中 ，shell 是 会 话 首 进程 和 运行 该 shell 的 终端 的 控制 进程 shell 会 为 执行 的 
每 个 作业 《一 个 简单 的 命令 或 以 管道 连接 起 来 的 一 组 命令 ) 创建 一 个 独立 的 进程 组 ， 并 
且 提 供 了 将 作业 在 3 个 状态 之 间 迁 移 的 命令 。 这 三 个 状态 分 别 是 在 前 台 运 行 、 在 后 台 运 
行 和 在 后 台 停 止 。 

为 了 文 持 作业 控制 ， 终 问 驱 动 右 维护 了 包含 控制 终 新 的 前 台 进 程 组 (作业 〉 相关 信息 的 
记录 。 当 输入 特定 的 衬 符 时 ， 终 病 张 动 融 会 问 前 台 作 业 发 送 作 业 探 制 信号 。 这 些 信号 会 终止 
或 俘 止 前 台 作 业 。 

终端 的 前 台 作 业 的 概念 还 用 于 仲裁 终端 IO 请 求 。 只 有 前 台 作 业 中 的 进程 才能 从 控制 终端 
中 读 取 数据 。 系 统 通 过 SIGTTIN 信号 的 分 大 来 防止 后 台 作 业 访 取 数 据 ， 这 个 信号 的 默认 动作 
是 停止 作业 。 如 果 设 置 了 终端 的 TOSTOP 标记 ， 那 么 系统 会 通过 SIGTTOU 信号 的 发 送 来 防 
止 后 人 台 任 务 癌 控 制 终端 写 入 数据 ， 这 个 信号 的 默认 动作 是 停止 作业 。 

当 发 生 终端 断 开 时 ， 内 核 会 向 控制 进程 发 送 一 个 SIGHUP 信号 通知 它 这 件 事情 。 这 样 的 
事件 可 能 会 导致 一 个 链 式 反应 ， 即 癌 很 多 其 他 进程 发 送 一 个 SIGHUP fi^. Bc. Ada 
进程 是 一 个 shell (通常 是 这 种 情况 )， 那 么 在 终止 之 前 ， 进 程 会 加 所 有 由 其 创建 的 进程 组 发 送 
一 个 SIGHUP 信号 。 第 二 ， 如 果 SIGHUP 信和 号 的 分 送 导 致 了 控制 进程 的 终止 ， 那 么 内 核 还 会 
问 该 控制 终 妆 的 前 人 台 进 程 组 中 的 所 有 成 员 发 送 一 个 SIGHUP 信号。 
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一 般 来 讲 ， 应 用 程序 无 需 卉 清楚 作业 控制 信号 ， 但 执行 屏幕 处 理 操作 的 程序 则 是 一 种 例 
外 。 这 种 程序 需要 正确 处 理 SIGTSTP 信号 ， 在 进程 被 挂 起 之 前 需要 将 终端 特性 重 置 为 正确 的 
值 ， 而 当 应 用 程序 在 接收 到 SIGCONT 信号 而 再 次 恢复 时 需要 还 原 正确 (特定 于 应 用 程序 ) 的 
A IAT TE o 

ZAH A — 1 EA SERE MT I] 7 BLA REREH P SREE, W 
了 抓 儿 进 程 组 。 ILEEFE SERI], MAEAEA A AEA REE e I d 2H Hn PUE 
被 停止 的 进程 的 状态 并 总 是 能 够 问 这 些 被 停止 的 进程 肥大 SIGCONT (AFRE EA] o E 
可 能 导致 这 种 被 停止 的 进程 永远 残留 在 系统 中 。 为 了 避免 这 种 情况 的 发 生 ， 当 一 个 拥有 被 停 
止 的 成 员 进 程 的 进程 组 变 成 孤儿 进程 组 时 , 进程 组 中 的 所 有 成 员 都 会 收 到 一 个 SIGHUP 信和 号 ， 
后 和 面 跟 看 一 个 SIGCONT 信 写 ， 这 样 束 能 通知 它们 变 成 了 孤儿 进程 并 确保 重 局 它们 。 


更 多 信息 


[Stevens & Rago，2005] 的 第 9 章 介 绍 了 与 本 章 闫 似 的 内 容 ， 并 摘 述 了 在 登录 期 间 与 登录 
shell 建立 会 话 时 所 发 生 的 步骤 。glibc 手册 对 于 作业 控制 相关 的 函数 和 作业 控制 在 shell 中 的 实 
现 进 行 了 详细 的 描述 。SUSv3 对 会 话 、 进 程 组 和 作业 控制 进行 了 广泛 的 讨论 。 


























34.9 习题 


34-1. 假设 一 个 父 进 程 执 行 了 下 面 的 步骤 。 





/* Call fork() to create a number of child processes, each of which 
remains in same process group as the parent */ 


/* Sometime later... */ 
signal(SIGUSR1, SIG IGN); /* Parent makes itself immune to SIGUSR1 */ 


killpg(getpgrp(), SIGUSR1);  /* Send signal to children created earlier */ 


这 个 应 用 程序 设计 可 能 会 健 到 什么 问题 ? (考虑 shell 管道 。) 如 何 避 人 免 

此 类 问题 的 发 生 ? 

34-2. 编写 一 个 程序 来 验证 父 进程 能 够 在 子 进程 执行 exec() 之 前 修改 子 进程 的 进程 组 ID, 
但 无 法 在 执行 exec() 之 后 修改 子 进程 的 进程 组 ID。 

34-3. 编写 一 个 程序 来 验证 在 进程 组 首 进程 中 调用 setsi dO 会 失败 。 

34-4. 修改 程序 清单 34-4 (disc_SIGHUP.c) 来 验证 当 控 制 进程 在 收 到 SIGHUP 信号 而 不 
终止 时 ， 内 核 不 会 向 前 台 进 程 组 中 的 成 员 发 送 SIGHUP 信和 号 。 

34-5. 假设 将 程序 清单 34-6 中 的 信和 号 处 理 器 中 解除 阻 终 SIGTSTP 信和 号 的 代码 移动 到 人 处理 
器 的 开头 部 分 。 这 样 做 会 导致 何 种 竞争 条 件 ? 

34-6. ”编写 一 个 程序 来 验证 当 位 于 孤儿 进程 组 中 的 一 个 进程 试图 从 控制 终端 调用 read() 
时 会 得 到 EIO 的 错误 。 

34-7. 编写 一 个 程序 来 验证 当 SIGTTIN、SIGTTOU 或 SIGTSTP 三 个 信号 中 的 一 个 信号 被 
发 送 给 扳 儿 进程 组 中 的 一 个 成 员 时 ， 如 果 这 个 信号 会 停止 该 进程 〈 即 处 理 方式 为 
SIG. DFL)， 那 么 这 个 信和 号 就 会 被 丢弃 〈 即 不 产生 任何 效果 )， 但 如 果 该 信号 存在 处 
理 器 ， 就 会 发 送 该 信号 。 
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进程 优先 级 和 调度 


本 章 介 绍 确定 何 ”时 以 及 哪个 进程 能 够 取得 CPU 的 使 用 权 的 各 种 系统 调用 和 进程 特 
性 ,前 先 会 介绍 表示 进程 特点 的 
接 看 会 介绍 POSIX 实时 调度 API, XA API 允许 定义 调度 进程 的 策略 和 优先 级 ， 从 而 更 好 
地 控制 如 何 给 CPU 分 配 进 程 。 最 后 会 讨论 用 于 设置 进程 的 CPU 茉 和 力 掩 人 码 的 系统 调用 ， 
CPU 亲和力 掩 人 码 能 够 确定 一 个 运行 在 多 处 理 右 系统 上 的 进程 在 哪 组 CPU 上 运行 。 





o 


35.1 进程 优先 级 (nice 值 ) 


Linux 与 大 多 数 其 他 UNIX 实现 一 样 ， 调 度 进程 使 用 CPU 的 默认 模型 是 循环 时 间 共 享 。 
在 这 种 模型 中 ， 每 个 进程 轮流 使 用 CPU 一 段 时 间 ， 这 段 时 间 被 称 为 时 间 片 或 量子 。 循 环 时 间 
共享 满足 了 交互 式 多 任务 系统 的 两 个 重要 需求 。 

e 公平 性 : 每 个 进程 都 有 机 会 用 到 CPU. 

e 响应 度 : 一 个 进程 在 使 用 CPU 之 前 无 需 等 待 太 长 的 时 间 。 

在 循环 时 间 共 享 算法 中 ， 进 程 无 法 直接 控制 何 时 使 用 CPU 以 及 使 用 CPU 的 时 间 。 在 默认 情 
况 下 ， 每 个 进程 轮流 使 用 CPU 直至 时 间 片 被 用 光 或 自己 自动 放弃 CPU 〈 如 进行 睡眠 或 执行 一 个 
磁盘 读 取 操 作 )。 如 果 所 有 进程 都 试图 尽 可 能 多 地 使 用 CPU 〈 即 没有 进程 会 睡眠 或 被 IO HER 
塞 ), 那么 它们 使 用 CPU 的 时 间 差 不 多 是 相等 的 。 

进程 特性 nice 值 允许 进程 间接 地 影响 内 核 高 优先 级 ) -90 
的 调度 算法 。 每 个 进程 都 拥有 一 个 nice 值 ， 其 
取 值 范围 为 -20 (高 优先 级 ) 一 19( 低 优先 级 )， 

Jo (参见 图 35-1)。 在 传统 的 UNIX 实 (WME) 0 

现 中 ， 只 有 特权 进程 才能 够 赋 给 自己 (或 其 他 

进程 ) 一 个 负 〈 高 ) 优先 级 。( 在 35.3.2 节 中 将 

会 解释 一 些 Linux 上 的 差别 。) 非特 权 进 程 只 能 C RRA ) +9 

降低 目 己 的 优先 级 ， 即 研一 个 大 于 默认 值 0 的 35-1 进程 nice 值 的 范围 和 解释 
nice 值 。 这 样 做 之 后 它们 就 对 其 他 进程 “友好 (Cnice)” 了 ， 这 个 特性 的 名 称 也 由 此 而 来 。 






































(SEE) 只 用 于 特权 进程 
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使 用 forkO 创 建 子 进程 时 会 继承 nice 值 并 且 该 值 会 在 execO 调 用 中 得 到 保持 。 


getpriority() 系 统 调用 服务 例 程 不 会 返回 实际 的 nice 值 ， 相反 , 它 会 返回 一 个 范围 在 1 OK 
优先 级 ) —40 (高 优先 级 ) 之 间 的 数字 ， 这 个 数字 是 通过 公式 unice=20-knice 计算 得 来 的 。 
这 样 做 是 为 了 避免 让 系统 调用 服务 例 程 返回 一 个 负 值 ， 因 为 负 值 一 般 都 表示 错误 。( 人 参见 3.1 
节 中 系统 调用 服务 例 程 的 描述 。) 应 用 程序 是 不 清楚 系统 调用 服务 例 程 对 返回 值 所 做 的 处 理 
的 ， 因 为 C 库 函 数 getpriority0) 做 了 相反 的 计算 操作 ， 它 将 20-unice 值 返回 给 了 调用 程序 。 




















nice 值 的 影响 


进程 的 调度 不 是 严格 按照 nice 值 的 层次 进行 的 ， 相 反 , nice ffi XE — T BOR BN, CF 
数 内 核 调 度 器 倾向 手 调 度 拥 有 高 优先 级 的 进程 ， 给 一 个 进程 研一 个 低 优 先 级 〈 即 高 nice 值 ) 并 
\ 会 导致 它 完 全 无 法 用 到 CPU， 但 会 导致 它 使 用 CPU 的 时 间 变 少 。nice 值 对 进程 调度 的 
影响 程度 则 依据 Linux 内 核 版 本 的 不 同 而 不 同 ， 同 时 在 不 同 UNIX 系统 之 间 也 是 不 同 的 。 
从 版 本 号 为 2.6.23 WAFL, nice 值 之 间 的 差别 对 新 内 核 调 度 算 法 的 影响 比 对 之 前 
的 内 核 中 的 调度 算法 的 影响 要 强 。 因 此 ,， 低 nice 值 的 进程 使 用 CPU 的 时 间 将 比 以 前 少 ， 高 
nice 值 的 进程 占用 CPU 的 时 间 将 大 大 提高 。 



































获取 和 修改 优先 级 
getpriority() 和 setpriorityO 系 统 调用 允许 一 个 进程 获取 和 修改 自身 或 其 他 进程 的 nice 值 。 








#include «sys/resource.h» 


int getpriority(int which, id t who); 


Returns (possibly negative) nice value of specified process on success, 
or -1 on error 


int setpriority(int which, id t who, int prio); 


Returns 0 on success, or -1 on error 

















两 个 系统 调用 都 接收 参数 which 和 who， 这 两 个 参数 用 于 标识 需 读 取 或 修改 优先 级 的 进 
程 。which 参数 确定 who 参数 如 何 和 被 解释 。 这 个 参数 的 取 值 为 下 面 这 坚信 中 的 一 个 。 
PRIO PROCESS 

操作 进程 ID 为 who 的 进程 。 如 果 who X 0, JE f I URL] EE BERE ID. 














PRIO. PGRP 
操作 进程 组 ID 为 who 的 进程 组 中 的 所 有 成 员 。 如 来 who 为 0, 那么 使 用 调用 者 的 进程 组 。 
PRIO_USER 








操作 所 有 真实 用 户 ID 为 who 的 进程 。 如 果 who 为 0， 那么 使 用 调用 者 的 真实 用 户 ID. 

who 参数 的 类 型 id t 是 一 个 大 小 能 容纳 进程 ID 或 用 户 ID 的 整 型 。 

getpriority0 系 统 调用 返回 由 which 和 who 指定 的 进程 的 nice 值 。 如 果 有 多 个 进程 符合 指定 的 
ERE C which 为 PRIO PGRP 或 PRIO USER 时 会 出 现 这 种 情况 )， 那 么 将 会 返回 优先 级 最 高 的 
进程 的 mice 值 《 即 最 小 的 数值 )。 由 于 getpriority0 可 能 会 在 成 功 时 返回 -1， 因 此 在 调用 这 个 函数 之 
前 必须 要 将 erno 设置 为 0, 接着 在 调用 之 后 检查 返回 值 为 -1 以 及 errno 不 为 0 才能 确认 调用 成 功 。 
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setpriority() 系 统 调 用 会 将 由 which 和 who 指定 的 进程 的 nice 值 设 置 为 prio。 试 图 将 nice fH 
设置 为 一 个 超出 允许 范围 的 值 (-20~+19) 时 会 直接 将 nice 值 设置 为 边界 值 。 


以 前 nice 值 是 通过 调用 nice(incr) 来 完成 的 , 这 个 函数 会 将 调用 进程 的 nice 值 加 上 incr。 
现在 这 个 函数 仍然 是 可 用 的 ， 但 已 经 被 更 通用 的 setpriorityO 系 统 调 用 所 取代 了 。 
在 命令 行 中 与 setpriority(0) 系 统 调用 实现 类 似 功 能 的 命令 是 nice(1)， 非 特权 用 户 可 以 使 
J 1 Re — 4 Doc RE ren HS a 
超级 用 户 则 可 以 使 用 renice(8) 来 修改 既 有 进程 的 nice fH - 
特权 进程 CCAP. SYS NICE) 能 够 修改 任意 进程 的 优先 级 。 非 特权 进程 可 以 修改 自己 的 
优先 级 (将 which 设 为 PRIO PROCESS, who 设 为 0) 和 其 他 (目标 进程 的 优先 级 ， 前 提 
是 目 己 的 有 效用 户 ID 与 目标 进程 的 真实 或 有 效用 户 ID 匹配 。Linux 中 setpriority() 的 权限 规则 
与 SUSv3 中 的 规则 不 同 ， 它 规定 当 非 特权 进程 的 真实 或 有 效用 户 ID 与 目标 进程 的 有 效用 户 
ID 匹配 时 ， 该 进程 束 能 修改 目标 进程 的 优先 级 。UNIX 实现 在 这 一 点 上 与 Linux 有 些 不 同 。 
一 些 实现 遵循 的 SUSv3 的 规则 , 而 另 一 些 一 一 特别 是 BSD 系列 一 一 与 Linux 的 行为 方式 一 样 。 


























版 本 号 小 于 2.6.12 的 Linux 内 核 与 之 后 的 内 核对 非特 权 进 程 调用 setpriorityO 时 使 用 的 
权限 规则 不 同 〈 也 与 SUSv3 不 同 )。 当 非特 权 进 程 的 真实 或 有 效用 户 ID 与 目标 进程 的 真实 
H ID 匹配 时 ， 该 进程 束 能 修改 目标 进程 的 优先 级 。 从 Linux 2.6.12 开始 ， 权 限 检查 变 得 
与 Linux 中 类 似 的 API 一 致 了 ， 如 sched setschedulerO0 和 sched setaffinity()。 








在 版 本 号 小 于 2.6.12 的 Linux 内 核 中 ， 非 特权 进程 只 能 使 用 setpriority0) 来 降低 〈 不 可 逆 的 ) El 
己 或 其 他 进程 的 nice 值 。 特 权 进 程 (CAP. SYS NICE). 可 以 使 用 setpriority0 来 提高 nice 值 。 

从 版 本 写 为 2.6.12 的 内 核 开始 ，Linux 提供 了 RLIMIT NICE 资源 限制 ， 即 允许 非 竺 权 进 程 提 
Jl nice 值 。 非 特权 进程 能 够 将 自己 的 nice 值 最 高 提高 到 公式 20-rlim_cur 指定 的 值 ， 其 中 rlim cur 
是 当前 的 RLIMIT NICE 软 资源 限制 .如 假设 一 个 进程 的 RLIMIT NICE 软 限制 是 23, 那么 其 nice 
值 可 以 被 提高 到 -5。 根 据 这 个 公式 以 及 nice 值 的 取 值 范围 为 +19〈 低 ) 一 -20《〈 高 ) 的 事实 可 以 得 
出 RLIMIT NICE 的 有 效 范 围 为 1( 低 ) —40 (高 ) 的 结论 。(CRLIMIT NICE 没有 使 用 范围 为 +19 一 
20 之 则 的 值 ， 因 为 一 些 负 的 资源 限制 值 具有 特殊 含义 一 一 如 RLIM_INFINITY 可 以 为 -1。) 

非特 权 进 程 能 够 通过 setpriority0) 调 用 来 修改 其 他 (目标 进程 的 nice 值 ， 前 提 是 调用 
setpriority0) 的 进程 的 有 效用 户 ID 与 目标 进程 的 真实 或 有 效用 户 ID 匹配 并 且 对 nice 值 的 修改 
符合 目标 进程 的 RLIMIT NIC 限制 。 

程序 清单 35-1 中 的 程序 使 用 setpriority() 来 修改 通过 命令 行 参数 〈 对 应 于 setpriority() 函 数 
的 参数 ) 指定 的 进程 的 nice 值 ， 接 看 调用 getpriority(0) 来 验证 变更 是 合生 效 。 


程序 清单 35-1: 修改 和 获取 进程 的 nice 值 



































procpri/t setpriority.c 
include «sys/time.h» 
include «sys/resource.h» 
include "tlpi hdr.h" 
int 
main(int argc, char *argv[]) 


int which, prio; 
id t who; 
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if (argc != 4 || strchr("pgu", argv[1][0]) == NULL) 
usageErr( "^s (plg|u) who D 
set priority of: p-process; g-process group; " 
"u-processes for userWn", argv[0]); 


/* Set nice value according to command-line arguments */ 
which = (argv[1][0] == 'p') ? PRIO PROCESS : 

(argv[1][0] == 'g') ? PRIO PGRP : PRIO USER; 
who - getLong(argv[2], 0, "who"); 
prio = getInt(argv[3], 0, "prio"); 


if (setpriority(which, who, prio) == -1) 
errExit("getpriority"); 


/* Retrieve nice value to check the change */ 


errno - 0; /* Because successful call may return -1 */ 
prio - getpriority(which, who); 
if (prio == -1 && errno !- 0) 


errExit("getpriority"); 
printf("Nice value = XdNn", prio); 


exit(EXIT SUCCESS); 


procpri/t setpriority.c 


35.2 ”实时 进程 调度 概述 


在 一 个 系统 上 一 般 会 同时 运行 交互 式 进程 和 后 台 进 程 ， 标 准 的 内 核 调 度 算 法 一 般 能 够 为 
这 些 进程 提供 足够 的 性 能 和 啊 应 度 。 但 实时 应 用 对 调度 右 有 更 加 严格 的 要 求 ， 如 下 所 示 。 
e 实时 应 用 必须 要 为 外 部 输入 提供 担 你 最 大 啊 应 时 间 。 在 很 多 情况 下 ， 这 些 担 你 最 大 啊 
应 时 间 必 须 非 常 短 ( 如 低 于 秒 级 )。 如 交通 导航 系统 的 慢 速 啊 应 可 能 会 使 一 个 灾难 。 为 
了 油 足 这 种 要 求 ， 内 核 必须 要 提供 工具 让 高 优先 级 进程 能 快速 地 取得 CPU 的 控制 权 ， 
抢占 当前 运行 的 所 有 进程 。 























一 些 时 间 关 键 的 应 用 程序 可 能 需要 采取 其 他 措施 来 避免 不 可 接受 的 延迟 。 如 为 了 避免 
由 于 页 面 错误 而 引起 的 延 迟 ， 应 用 程序 可 能 会 使 用 mlock0O 或 mlockall() (50.2 市 中 将 予以 
介绍 ) 将 其 所 有 虚拟 内 存 锁 在 RAM 中。 














e 高 优先 级 进程 应 该 能 够 保持 互 斥 地 访问 CPU 直至 它 完 成 或 自动 释放 CPU. 

。 实时 应 用 应 该 能 够 精确 地 控制 其 组 件 进程 的 调度 顺序 。 

SUSv3 规定 的 实时 进程 调度 API (原先 在 POSIX.1b 中 定义 ) 部 分 满足 了 这 些 要 求 。 这 个 
(API 提供 了 两 个 实时 调度 策略 ; SCHED_RR 和 SCHED FIE9。 使 用 这 两 种 策略 中 任意 一 种 货 
略 进行 调度 的 进程 的 优先 级 要 高 于 使 用 35.1 中 介绍 的 标准 循环 时 间 分 享 策略 来 调度 的 进程 ， 
实时 调度 API 使 用 常量 SCHED_OTHER Rir ilie ft f Ee I] I] 4) ERI o 

每 个 实时 策略 允许 一 个 优先 级 范围 。SUSv3 要 求实 现 至 少 要 为 实时 策略 提供 32 个 离散 的 
优先 级 。 在 每 个 调度 策略 中 ， 拥 有 高 优先 级 的 可 运行 进程 在 尝试 访问 CPU 时 总 是 优先 于 优先 
级 较 低 的 进程 。 
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对 于 多 处 理 器 Linux 系统 〈 包 括 超 线 程 系统 ) 来 讲 ， 高 优先 级 的 可 运行 进程 总 是 优先 于 优 
丝 级 较 低 的 进程 的 规则 着 不 适用 曲 在 多 处 理 器 系统 中 , 各 个 CPU 拥有 独立 的 运行 队列 (这 种 方 
式 比 使 用 一 个 系统 层面 的 运行 队列 的 性 能 要 好 )， 并 用 每 个 CPU 的 运行 队列 中 的 进程 的 优先 级 
都 局 限于 该 队列 。 如 假设 一 个 双 处 理 器 系统 中 运行 着 三 个 进程 ， 进 程 A 的 实时 优先 级 为 20, 并 
且 它 位 于 CPU 0 的 等 竺 队列 中 ， 而 该 CPU 当前 正在 运行 优先 级 为 30 的 进程 B， 即 使 CPU 1 正 
在 运行 优先 级 为 10 的 进程 C， 进 程 A 还 是 需要 等 待 CPU 0. 

包含 多 个 进程 的 实时 应 用 可 以 使 用 35.4 节 中 描述 的 CPU 杀 和 力 API 来 避免 这 种 调度 行为 
可 能 引起 的 问题 。 如 在 一 个 四 处 理 器 系统 中 ,所 有 非 关 键 的 进程 可 以 被 分 配 到 一 个 CPU n, il 
其 他 三 个 CPU 处 理 实时 应 用 。 

Linux 提供 了 99 个 实时 优先 级 ， 其 数值 从 1《〈 有 最 低 ) 一 99〈 最 高 )， 并 且 这 个 取 值 范围 同 
国 适 用 手 两 余 实 时 调度 策略 5 每 个 策略 中 的 优先 级 是 等 价 的 。 这 意味 着 如 果 两 个 进程 拥有 同 
样 的 优先 级 ， 一 个 进程 采用 了 SCHED RR 的 调度 策略 ， 另 一 个 进程 采用 了 SCHED FIFO 的 
调度 策略 ， 那 么 两 个 都 符合 运行 的 条 件 ， 至 于 到 底 运 行 哪个 则 取决 于 它们 被 调度 的 顺序 了 。 
实际 上 ， 每 个 优先 级 级 别 都 维护 着 一 个 可 运行 的 进程 队列 ， 下 一 个 运行 的 进程 是 从 优先 级 最 
高 的 非 空 队列 的 队 头 选取 出 来 的 。 


POSIX 实时 与 硬 实时 对 比 


满足 本 市 开头 处 列 出 的 所 有 要 求 的 应 用 程序 有 了 时候 被 称 为 便 实 时 应 用 程序 。 但 POSIX 实 
时 进程 调度 API 无 法 满足 这 些 要 求 。 特 别 是 它 没 有 为 应 用 程序 提供 一 种 机 制 来 确保 椒 理 输入 
的 啊 应 时 间 ， 而 这 种 机 制 需 要 操作 系统 的 提供 相应 的 特性 , 但 Linux 内 核 并 没有 提供 这 种 特性 
(大 多 数 其 他 标准 的 操作 系统 也 没有 提供 这 种 特性 )。POSIX API 仅仅 提供 了 所 谓 的 软 实时 ， 

人 允许 控制 调度 哪个 进程 使 用 CPU. 

在 不 给 系统 增加 额外 开销 的 情况 下 增加 对 硬 实 时 应 用 程序 的 文 持 是 非常 困难 的 ， 这 种 新 
增 的 开销 通常 与 时 间 分 享 应 用 程序 的 性 能 要 求 是 存在 冲突 的 ， 而 典型 的 加 面 和 服务 器 系统 上 
运行 的 应 用 程序 大 部 分 都 是 时 间 分 享 应 用 程序 。 这 就 是 为 何 大 多 数 UNIX 内 核 一 一 包括 原来 
的 Linux 一 一 并 没有 为 实时 应 用 程序 提供 原生 文 持 的 原因 。 但 从 成 本 2.6.18 开始 ， 各 种 特性 都 
被 添加 到 了 Linux 内 核 中 ， 从 而 允许 Linux 为 硬 实时 应 用 程序 提供 了 完 例 的 原生 支持 , 同时 不 
会 给 时 间 分 享 应 用 程序 增加 前 面 提 及 到 的 开销 。 


35.2.1 SCHED_RR Rig 


在 SCHED RR (MEA 策略 中 ， 优 先 级 相同 的 进程 以 循环 时 间 分 孚 的 方式 执行 。 进 程 每 
次 使 用 CPU 的 时 间 为 一 个 国定 长 度 的 时 间 厂 。 一 旦 被 调度 执行 之 后 ， 使 用 SCHED RR Rig 
的 进程 会 保持 对 CPU 的 控制 直到 下 列 条 件 中 的 一 个 得 到 满足 : 

e j^ $E IR] TER xà D; 

e BÆI CPU， 这 可 能 是 由 于 执行 了 一 个 阻塞 式 系统 调用 或 调用 了 sched yield() £& 

调用 (35.3.3 市 将 予以 介绍 ); 

e ZIET; 

e 锌 一 个 优先 级 更 局 的 进程 抢占 本。 

对 于 上 面 列 出 的 前 两 个 事件 ， 当 运行 在 SCHED RR 策略 下 的 进程 丢掉 CPU 之 后 将 会 被 
放置 在 与 其 优先 级 级 别 对 应 的 队列 的 队 尾 。 在 最 后 一 种 情况 中 ， 当 优先 级 更 高 的 进程 执行 结 
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束 之 后 ， 被 抢占 的 进程 会 继续 执行 直到 其 时 间 所 的 剩余 部 分 被 消耗 完 《〈 即 被 抢占 的 进程 仍然 
位 于 与 其 优先 级 级 别 对 应 的 队列 的 队 头 )。 

在 SCHED RR 和 SCHED FIFO 两 种 策略 中 ， 当 前 运行 的 进程 可 能 会 因为 下 面 茶 个 原因 
而 被 抢占 : 

o 之 前 被 阻塞 的 高 优先 级 进程 解除 阻塞 了 《如 它 所 等 竺 的 IO 操作 完成 了 ); 

e 男 一 个 进程 的 优先 级 被 提 到 了 一 个 级 别 蜗 于 当前 运行 的 进程 的 优先 级 的 优先 级 ; 

e 当前 运行 的 进程 的 优先 级 被 降低 到 低 于 其 他 可 运行 的 进程 的 优先 级 了 。 

SCHED RR 策略 与 标准 的 循环 时 间 分 享 调 度 算 法 (SCHED_ OTHER) KWA, BE YF 
优先 级 相同 的 一 组 进程 分 享 CPU 时 间 。 化 和 有 之 间 最 重要 的 状 别 在 了 SCHEDIRR 策略 存在 到 
将 的 优先 级 级 别 ， 高 优先 级 的 进程 总 是 优先 于 优先 级 较 低 的 进程 。 而 在 SCHED OTHER 策略 
中 ， 低 nice 值 〈 即 高 优先 级 ) 的 进程 不 会 独占 CPU， 它 仅仅 在 调度 决策 时 为 进程 提供 了 一 个 
较 大 的 权重 。 前 面 35.1 和 中 曾经 讲 过 ， 一 个 优先 级 较 低 的 进程 〈 即 高 nice 值 ) 总 是 至 少 会 
到 一 些 CPU 时 间 的 。 它 们 之 间 另 一 个 重要 的 差别 是 SCHEDIRR 策略 允许 精确 控制 进程 被 调 ) 
用 的 顺序 。 


35.2.2 SCHED FIFO 策略 


SCHED FIFO《〈 先 入 先 出 ，first-in，first-out) 策略 与 SCHED RR 策略 类 似 ， 它 们 之 间 最 
主要 的 差别 在 于 在 SCHED FIFO PREE. EASED FIFO ERRAT. 
CPU 的 控制 权 之 后 ， 它 就 会 一 直 执 行 直 到 下 面 某 个 条 件 被 满足 : 

e BJF CPU 《采用 的 方式 与 前 面 摘 述 的 SCHED FIFO 策略 中 的 方式 一 样 ); 

e ZIET; 

e 被 一 个 优先 级 更 高 的 进程 抢占 了 【场景 与 表面 描述 的 SCHED_FIFO 策略 中 场景 一 样 )。 

在 第 一 种 情况 中 ， 进 程 会 被 放置 在 与 其 优先 级 级 别 对 应 的 队列 的 队 尾 。 在 最 后 一 种 情况 
中 ， 当 高 优先 级 进程 执行 结束 之 后 《被 阻塞 或 终止 了 )， 被 抢占 的 进程 会 继续 执行 〈 即 被 抢占 的 
进程 位 于 与 其 优先 级 级 别 对 应 的 队列 的 队 头 )。 


35.2.3 SCHED BATCH 和 SCHED IDLE 策略 


Linux 2.6 系列 的 内 核 添加 了 两 个 非 标准 调度 策略 : SCHED BATCH 41 SCHED IDLE. 尺 
管 这 些 策略 是 通过 POSIX 实时 调度 API 来 设置 的 ， 但 实际 上 它们 并 不 是 实时 策略 。 

SCHED BATCH 和 集 略 是 在 版 本 为 2.6.16 的 内 核 中 加 入 的 ， 它 与 默认 的 SCHED_OTHER R 
略 关 似 ， 两 个 之 间 的 关 别 在 于 SCHED_BATCH 人 肝 略 会 导致 频 索 被 唤醒 的 任务 被 调度 的 次 数 较 
少 。 这 种 策略 用 于 进程 的 批量 式 执 行 。 

SCHED IDLE 策略 是 在 版 本 为 2.6.23 的 内 核 中 加 入 的 ， 它 也 与 SCHED OTHER 类 似 ， 
但 提供 的 功能 等 价 于 一 个 非常 低 的 nice 值 〈 即 低 于 +19)。 在 这 个 策略 中 ， 进 程 的 nice 值守 无 
意义 。 它 用 于 运行 低 优先 级 的 任务 ， 这 些 任务 在 系统 中 没有 其 他 任务 需要 使 用 CPU 时 才 会 大 
量 使 用 CPU. 



















































































35.3 ”实时 进程 调用 API 
下 和 面 开始 介绍 构成 实时 进程 调度 API 的 各 个 系统 调用 。 这 些 系 统 调用 允许 控制 进程 调度 
打上 略 和 优先 级 。 
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TEGASA 2.0. PUECREIGSEISEUSSE DEA Linux [)—H892» T, 但 在 实现 中 儿 个 问题 存在 了 很 长 
时 间 。 在 2.2 内 核 的 实现 中 一 些 特性 仍然 无 法 工作 ， 甚 至 在 2.4 内 核 的 早期 版 本 中 也 是 同样 的 
情况 。 其 中 大 多 数 问题 下 到 2.4.20 内 核 才 得 以 修正 。 





35.3.1 实时 优先 级 范围 


sched get priority min0 和 sched get priority max() 系 统 调用 返回 一 个 调度 策略 的 优先 级 
取 什 范围 。 





#include «sched.h» 


int sched get priority min(int policy); 
int sched get priority max(int policy); 


Both return nonnegative integer priority on success, or -1 on error 














在 两 个 系统 调用 中 ，policy 指定 了 需 获 取 哪 种 调度 策略 的 信息 。 这 个 参数 的 取 值 一 般 是 
SCHED RR 或 SCHED FIFO., sched get priority min0 系 统 调用 返回 指定 策略 的 最 小 优先 级 ， 
sched get priority max0O 返 回 最 大 优先 级 。 在 Linux 上， 这些 系统 调用 为 SCHED RR 和 
SCHED FIFO RKA EYE y 1 到 99 的 数学 。 换 句 话 说 ,两 个 实时 策略 的 优先 级 取 值 沁 
围 是 完全 一 样 的 ， 并 且 优 先 级 相同 的 SCHED RR 和 SCHED FIFO 进程 都 具备 被 调度 的 资格 。 
(至 于 哪个 进程 先 被 调度 则 取决 于 它们 在 优先 级 级 别 队 列 中 的 顺序 。) 

不 同 UNIX 实现 中 的 实时 策略 的 取 值 范围 是 不 同 的 。 因 此 不 能 在 应 用 程序 中 便 编 码 优先 
级 值 ， 相 反 ， 需 要 根据 两 个 困 数 的 返回 值 来 指定 优先 级 。 因 此 ，SCHED_RR 策略 中 最 低 的 优 
先 级 应 该 是 sched get priority min(SCHED FIFO), 比 它 高 一 级 的 优先 级 是 sched get priority min 
(SCHED FIFO) +1， 依 此 类 推 。 




















SUSv3 并 不 要 求 SCHED RR 和 SCHED FIFO 条 略 使 用 同样 的 优先 级 范围 ， 但 在 大 多 数 
UNIX 实现 中 都 是 这 样 做 的 .如 在 Solaris 8 中 两 种 策略 的 优先 级 范围 是 0 一 5$9, 而 在 FreeBSD 6.1 
中 的 优先 级 范围 是 0 一 31。 


35.3.2 ”修改 和 获取 策略 和 优先 级 
本 节 将 介绍 修改 和 获取 调度 策略 和 优先 级 的 系统 调用 。 
修改 调度 策略 和 优先 级 


sched_setscheduler() 系 统 调用 修改 进程 ID 为 pid 的 进程 的 调度 介 略 和 优先 级 。 如 果 pid 为 
0， 那 么 将 会 修改 调用 进程 的 特性 。 











#include «sched.h» 


int sched setscheduler(pid t pid, int policy, const struct sched param *param); 


Returns 0 on success, or -1 on error 








param 参数 是 一 个 指 问 下面 这 种 结构 的 指针 。 
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struct sched param | 
int sched priority; /* Scheduling priority */ 

SUSv3 将 param 参数 定义 成 一 个 结构 以 允许 实现 包含 额外 的 特定 于 实现 的 字段 ， 当 实现 
提供 了 额外 的 调度 采 略 时 这 些 字 段 可 能 会 变 得 有 用 。 但 与 大 多 数 UNIX 实现 一 样 ，Linux 提供 
了 sched priority 字段 ， 该 字段 指定 了 调度 策略 。 对 于 SCHED RR 和 SCHED FIFO 来 讲 ， 这 
个 字段 的 取 值 必须 位 于 sched get priority min) sched get priority max() 规 定 的 范围 内 ;对 
于 其 他 策略 来 讲 ， 优 先 级 必须 是 0。 

policy 参数 硝 定 了 进程 的 调度 策略 ， 它 的 取 值 为 表 35-1 中 的 一 个 。 

表 35-1 Linux 实时 和 非 实 时 调度 策略 


策 — K 描 述 SUSv3 


SCHED FIFO 实时 先入 先 出 ® 
DOD RE 实时 循环 
SCHED OTHER | 标准 的 循环 时 间 分 圣 


SCHED BATCH | 5 SCHED OTHER 类 似 ， 但 用 于 批量 执行 〈 目 Linux 2.6.16 起 ) 
SCHED IDLE 与 SCHED OTHER 类 似 ， 但 优先 级 比 最 大 的 nice 值 (+19) 还 


















要 低 ( 自 Linux 2.6.23 起 ) 


成 功 调用 sched_setscheduler() 会 将 pid 指定 的 进程 移 到 与 其 优先 级 级 别 对 应 的 队列 的 队 尾 。 

SUSv3 规定 成 功 调 用 sched_setschedulerO 时 其 返回 值 应 该 是 上 一 种 调度 策略 。 但 Linux 并 
没有 遵循 这 个 规则 , 在 成 功 调用 时 该 函数 会 返回 0。 一 个 可 移植 的 应 用 程序 应 该 通过 检查 返回 
值 是 否 不 为 -1 来 判断 调用 是 售 成 功 。 

通过 forkO 创 建 的 竹 进 程 会 继承 父 进程 的 调度 策略 和 优先 级 ， 并 且 在 execO 调 用 中 会 保持 
这 些 信 息 。 

sched setparam() 系 统 调 用 提供 了 sched setscheduler() 函 数 的 一 个 功能 子 集 。 它 修改 一 个 进 
程 的 调度 策略 ， 但 不 会 修改 其 优先 级 。 























#include «sched.h» 


int sched setparam(pid t pid, const struct sched param *param); 





Returns 0 on success, or - 1 on error 





pid 和 param 参数 与 sched. setscheduler() 中 相应 的 参数 是 一 样 的 。 

成 功 调用 sched setparam() Z- Ff pid 指定 的 进程 移 到 与 其 优先 级 级 别 对 应 的 队列 的 队 尾 。 

程序 清单 35-2 使 用 sched_setscheduler0) 来 设置 由 命令 行 参数 指定 的 进程 的 策略 和 优先 级 。 
第 一 个 参数 是 一 个 指定 调度 全 略 的 学 母 ， 第 二 个 参数 是 一 个 整数 优先 级 ， 简 下 的 参数 是 需 修 
改 调度 特性 的 进程 的 进程 ID. 


程序 清单 35-2 修改 进程 的 调度 策略 和 优先 级 


procpri/sched set.c 


#include «sched.h» 
#include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 
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int j, pol; 
struct sched param sp; 


if (argc < 3 || strchr("rfo", argv[1][0]) == NULL) 
usageErr("Xs policy priority [pid...]Wn" 
: policy is 'r' (RR), 'f' (FIFO), " 


#ifdef SCHED BATCH /* Linux-specific */ 
"'b' (BATCH), " 

#endif 

#ifdef SCHED IDLE /* Linux-specific */ 
"'i' (IDLE), " 

#endif 
"or 'o' (OTHER)\n", 
argv[0]); 

pol = (argv[1][0] == 'r') ? SCHED RR : 

(argv[1][0] == 'f') ? SCHED FIFO : 


#ifdef SCHED BATCH 
(argv[1][0] == 'b') ? SCHED BATCH : 
ftendif 
#ifdef SCHED IDLE 
(argv[1][0] == 'i') ? SCHED IDLE : 
#endif 
SCHED OTHER; 
sp.sched priority = getInt(argv[2], 0, "priority"); 


for (j = 3; j < argc; j++) 
if (sched_setscheduler(getLong(argv[j], 0, "pid"), pol, &sp) == -1) 
errExit("sched setscheduler"); 


exit(EXIT SUCCESS); 
} 


procpri/sched set.c 


权限 和 资源 限制 会 影响 对 调度 参数 的 变更 


在 2.6.12 之 前 的 内 核 中 , 哇 程 必须 要 完 变 成 特权 进程 KCAP ”SYS NICE) A AEREO 
上 度 策 略 和 优 完 级 。 这 个 规则 的 一 个 例外 情况 是 非特 权 进 程 在 调用 者 的 有 效用 户 ID. 与 目标 进 
程 的 真实 或 有 效用 户 ID 匹配 时 残 能 将 该 进程 的 调度 策略 修改 为 SCHED_ OTHER. 
从 2.6.12 的 内 核 开始 ,设置 实时 调度 策略 和 优先 级 的 规则 发 生 了 变动 ， 即 引入 了 一 个 全 新 的 
非 标 准 的 资源 限制 RLIMIT_RTPRIO。 在 老式 内 核 中 ， 特权 (CAP_SYS_NICE) 进程 能 够 随意 修 
改 任意 进程 的 调度 策略 和 优先 级 。 同 时 , 非特 权 进 程 也 能 够 根据 下 列 规则 修改 调度 策略 和 优先 级 。 
。 如 条 进程 拥有 非 零 的 RLIMIT_RIPRIO 软 限 制 ， 那么 它 束 能 随意 修改 日 己 的 调度 集 略 
和 优先 级 ， 只 要 符合 实时 优先 级 的 上 限 为 其 当前 实时 优先 级 (如 果 该 进程 当前 运行 于 
一 个 实时 策略 下 ) 的 最 大 值 及 其 RLIMIT RTPRIO 软 限制 值 的 约束 即 可 。 
e UAE] RLIMIT RTPRIO 软 限制 值 为 0， 那么 进程 上 只 能 降低 目 己 的 实时 调度 优先 级 
或 从 实时 策略 切换 非 实 时 策略 。 
e SCHED IDLE 策略 是 一 种 特殊 的 策略 。 运 行 在 这 个 策略 下 的 进程 无 法 修改 自己 的 策 
略 ， 不 管 RLIMIT RTPRIO 资源 限制 的 值 是 什么 。 
。 在 其 他 非特 权 进 程 中 也 能 执行 策略 和 优先 级 的 修改 工作 ， 只 要 该 进程 的 有 效用 户 ID 
与 目标 进程 的 真实 或 有 效用 户 ID 匹配 即 可 。 
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e 进程 的 软 RLIMIT RTPRIO 限制 值 只 能 确定 可 以 对 目 己 的 调度 策略 和 优先 级 做 出 哪些 
变更 ， 这 些 变更 可 以 由 进程 自己 发 起 ， 也 可 以 由 其 他 非特 权 进 程 发 起 。 拥 有 非 零 限 制 值 
的 非特 权 进 程 无 法 修改 其 他 进程 的 调度 策略 和 优先 级 。 





从 2.6.25 的 内 核 开 始 ，Linux 增加 了 实时 调度 组 的 概 您 。 它 通过 CONFIG. RT. GROUP 
SCHED 内 核 参数 进行 配置 ， 会 影响 到 在 设置 实时 调度 策略 时 能 够 做 出 哪些 变更 ， 具 体 可 参见 
内 核 源 文件 Documentation/scheduler/sched-rt-group.txt。 


获取 调度 策略 和 优先 级 
sched getscheduler() 和 sched getparam0O 系 统 调用 获取 进程 的 调度 策略 和 优先 级 。 








#include «sched.h» 


int sched getscheduler(pid t pid); 
Returns scheduling policy, or -1 on error 


int sched getparam(pid t pid, struct sched param *param,); 


Returns 0 on success, or - 1 on error 

















在 这 两 个 系统 调用 中 ，Ppid 指定 了 需 碍 询 信 息 的 进程 D。 如 果 pid 为 0， 那么 就 会 查询 调用 
进程 的 信息 。 两 个 系统 调用 都 可 被 非特 权 进 程 用 来 获取 任意 进程 的 信息 ， 而 不 管 进程 的 验证 
信息 是 什么 。 

sched getparam() 系 统 调用 返回 由 param 指 回 的 sched param 结构 中 sched priority 字段 指 
定 的 进程 的 实时 优先 级 。 

如 琳 执 行 成 功 ，sched_getscheduler() 将 会 返回 前 面 表 35-1 中 列 出 的 一 个 策略 。 

程序 清单 35-3 使 用 了 sched getscheduler() fl sched getparam() 来 获取 进程 ID 为 命令 行 参 
数 指定 的 数值 的 进程 的 策略 和 优先 级 。 下 面 的 shell 会 话 演示 了 这 个 程序 的 使 用 以 及 程序 清单 
35-2 的 使 用 。 











$ su Assume privilege so we can set realtime policies 
Password: 

# sleep 100 & Create a process 

[1] 2006 

it ./sched view 2006 View initial policy and priority of sleep process 
2006: OTHER 0 

it ./sched set f 25 2006 Switch process to SCHED FIFO policy, priority 25 
it ./sched view 2006 Verify change 


2006: FIFO 25 


程序 清单 35-3 获取 进程 的 调度 策略 和 优先 级 


procpri/sched view.c 


#include «sched.h» 
#include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


int j, pol; 
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struct sched param sp; 


for (j = 1; j < argc; j++) { 
pol = sched getscheduler(getLong(argv[j], 0, "pid")); 
if (pol == -1) 
errExit("sched getscheduler"); 


if (sched getparam(getLong(argv[j], 0, "pid"), 8sp) == -1) 
errExit("sched getparam"); 


printf("%s: %-5s %2d\n", argv[j], 
(pol == SCHED OTHER) ? "OTHER" : 
(pol == SCHED RR) ? "RR" 
(pol == SCHED FIFO) ? "FIFO" : 
#ifdef SCHED BATCH /* Linux-specific */ 
(pol == SCHED BATCH) ? "BATCH" : 


#endif 
#ifdef SCHED IDLE /* Linux-specific */ 
(pol == SCHED IDLE) ? "IDLE" : 
#endif 
"???", sp.sched priority); 
} 


exit(EXIT SUCCESS); 
} 


procpri/sched view.c 


防止 实时 进程 锁 住 系统 

由 于 SCHED RR fll SCHED FIFO 进程 会 抢占 所 有 低 优先 级 的 进程 (如 运行 这 个 程序 的 
shell )， 因 此 在 开发 使 用 这 些 策略 的 应 用 程序 时 需要 小 心 可 能 会 发 生 失 探 的 实时 进程 因 一 直 
占 住 CPU 而 导致 锁 住 系统 的 情况 。 在 程序 中 可 以 通过 一 些 方法 来 避免 这 种 情况 的 发 生 。 

e 使 用 setrlimit() 设置 一 个 合理 的 低 软 CPU 时 间 组 员 限 制 (在 363 节 中 描述 了 
RLIMIT CPU)。 如 果 进 程 消 耗 了 太 多 的 CPU 时 间 ， 那 么 它 将 会 收 到 一 个 SIGXCPU 
信号 ， 该 信和 号 在 默认 情况 下 会 杀 死 该 进程 。 

e 使 用 alarmO0 议 置 一 个 警报 定时 器 。 如 有 条 进 程 的 运行 时 间 超 出 了 由 alarm() 调 用 指定 的 
秒 数 ， 那 么 该 进程 会 被 SIGALRM fi 2875. 

e 创建 一 个 拥有 部 实时 优先 级 的 看 门 狗 进程 。 这 个 进程 可 以 进行 无 限 循 环 ， 每 次 循环 都 
睡眠 指定 的 时 间 间 隅 ， 然 后 醒 来 并 监控 其 他 进程 的 状态 。 这 种 监控 可 以 包含 对 每 个 进 
程 消耗 的 CPU 时 间 的 上 度量 (参见 23.5.3 和 中 对 clock. getepuclockid() PR ZU] i] 18 2. 并 
使 用 sched getscheduler() 和 sched getparam(O 来 检查 进程 的 调度 策略 和 优先 级 。 如 果 一 
个 进程 看 起 来 行为 寞 党 ， 那 么 看 门 狗 线 线程 可 以 降低 该 进程 的 优先 级 或 回 其 友 送 合适 
的 信号 来 集 止 或 终止 该 进程 。 

e 从 2.6.25 的 内 核 开 始 ，Linux 提供 了 一 个 非 标准 的 资源 限制 RLIMIT_RTTIME 用 于 控 
制 一 个 运行 在 实时 调度 俩 上 略 下 的 进程 在 单 次 运行 中 能 够 消耗 的 CPU 时 间 。 
RLIMIT_RTTIME 的 单位 是 至 秒 , 它 限 制 了 一 个 进程 在 不 执行 阻 终 式 系 统 调用 时 能 够 消 
FERI CPU 时 间 。 当 进程 执行 了 这 样 的 系统 调用 时 ， 累 积 消 耗 的 CPU 时 间 将 会 被 重 置 为 
0。 当 这 个 进程 被 一 个 优先 级 更 高 的 进程 抢占 时 ， 累 积 消耗 的 CPU 时 间 不 会 被 重 置 。 
当 进 程 的 时 间 片 被 耗 完 或 调用 sched yield) (AJ 35.3.3 市 ) 时 进程 会 放弃 CPU. *¥ 
进程 达到 了 CPU 时 间 限 制 RLIMIT_CPU 之 后 , 系统 会 向 其 发 送 一 个 SIGXCPU fi^, 
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该 信号 在 默认 情况 下 会 杀 死 这 个 进程 。 


版 本 写 为 2.6.25 的 内 核 中 做 出 的 这 个 变更 还 有 助 于 避免 失控 的 实时 进程 锁 住 系统 ， 详 细 信 
息 可 参考 内 核 源 文件 Documentation/scheduler/sched-rt-group.txt。 


避免 子 进程 进程 特权 调度 策略 

Linux 2.6.32 增加 了 一 个 SCHED RESET ON FORK， 在 调用 sched setschedulerO 时 可 以 
将 policy 参数 的 值 设置 为 该 常量 ,。 系统 会 将 这 个 标记 值 与 表 35-1 中 列 出 的 其 中 一 个 策略 取 OR。 
如 果 设 置 了 这 个 标记 ， 那么 由 这 个 进程 使 用 fork0 创 建 的 子 进程 就 不 会 继承 特权 调度 策略 和 优 
先 级 了 。 其 规则 如 下 。 

e 如 果 调 用 进程 拥有 一 个 实时 调度 策略 (SCHED RR 或 SCHED FIFO), 那么 子 进程 的 

策略 会 被 重 置 为 标准 的 循环 时 间 分 享 策略 SCHED_ OTHER。 

。 如 果 进 程 的 nice ENPE OMARREK), MATEN nice 值 会 被 重 置 为 0。 

SCHED RESET ON FORK 标记 用 于 媒体 回放 应 用 程序 ， 它 允许 创建 单个 拥有 实时 调度 策 
略 但 不 会 将 该 策略 传递 给 子 进 程 的 进程 。 使 用 SCHED RESET. ON FORK 标记 能 够 通过 创建 多 
个 运行 于 实时 调度 策略 下 的 子 进程 来 防止 创建 试图 超出 RLIMIT RTTIME 资源 限制 的 子 进程 。 

一 旦 进程 启用 了 SCHED RESET ON FORK 标记 ,那么 只 有 特权 进程 (CAP SYS NICE) 
才能 够 禁用 该 标记 。 当 子 进程 被 创建 出 来 之 后 ， 它 的 reset-on-fork 标记 会 被 禁用 。 


35.3.3 释放 CPU 


实时 进程 可 以 通过 两 种 方式 自愿 释放 CPU: 通过 调用 一 个 阻 罕 进 程 的 系统 调用 (如 从 终 
mP read()) 或 调用 sched yield()。 























#include «sched.h» 


int sched yield(void); 


Returns 0 on success, or -1 on error 











sched yield0 的 操作 是 比较 简单 的 。 如 果 存 在 与 调用 进程 的 优先 级 相同 的 其 他 排队 的 可 运行 进 
程 ， 那 么 调用 进程 会 被 放 在 队列 的 队 尾 ， 队 列 中 队 头 的 进程 将 会 被 调度 使 用 CPU。 如 果 在 该 优先 
级 队列 中 不 存在 可 运行 的 进程 ， 那 么 sched yield0 不 会 做 任何 事情 ， 调 用 进程 会 继续 使 用 CPU. 

虽然 SUSv3 允许 sched. yield0 返 回 一 个 错误 , 但 在 Linux 或 很 多 其 他 UNIX 实现 上 这 个 系 
统 调用 总 会 成 功 。 可 移植 的 应 用 程序 应 该 总 是 检查 这 个 系统 调用 是 否 返 回 错误 。 

非 实时 进程 使 用 sched_yield0 的 结 末 是 未 定义 的 。 


35.3.4 SCHED RR 时 间 片 


通过 sched rr get intervalO 系 统 调 用 能 够 找 出 SCHED. RR 进程 在 每 次 被 授权 使 用 CPU 时 
分 配 到 的 时 间 卢 的 长 度 。 


























include «sched.h» 


int sched rr get interval(pid t pid, struct timespec */p); 


Returns 0 on success, or - 1 on error 
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与 其 他 进程 调度 系统 调用 一 样 ，pid 标识 出 了 需 奏 询 信息 的 进程 ， 当 pid 为 0 时 表示 调用 
进程 。 返 回 的 时 间 户 是 由 印 指 同 的 timespec 结构 。 
struct timespec { 
time t tv sec; /* Seconds */ 


long tv nsec; /* Nanoseconds */ 


y 
在 最 新 的 2.6 内 核 中 ， 实 时 循环 时 间 厂 是 0.1 秒 。 








35.4 CPU 亲和力 


当 一 个 进程 在 一 个 多 处 理 器 系统 上 被 重新 调度 时 无 需 在 上 一 次 执行 的 CPU 上 运行 。 之 所 
以 会 在 另 一 个 CPU 上 运行 的 原因 是 原来 的 CPU 处 于 忙碌 状态 。 

进程 切换 CPU 时 对 性 能 会 有 一 定 的 影响 : 如 果 在 原来 的 CPU 的 高 速 绥 冲 占 中 存在 进 
程 的 数据 ， 那 么 为 了 将 进程 的 一 行 数据 加 载 进 新 CPU 的 融 速 绥 冲 右 中 ， 首 先 必须 使 这 行 
数据 失效 《〈 即 在 没 被 修改 的 情况 下 丢弃 数据 ， 在 被 修改 的 情况 下 将 数据 写 入 内 存 )。( 为 防 
止 高 速 缓冲 噩 不 一 致 ， 多 处 理 融 架构 在 某 个 时 刻 只 允许 数据 被 存放 在 一 个 CPU 的 高 速 组 
证 器 中 。) 这 个 使 数据 失效 的 过 程 会 消耗 时 间 。 由 于 存在 这 个 性 能 影响 ，Linux (2.6) 内 核 
笠 试 了 给 进程 保证 软 CPU 亲和力 一 一 在 条 件 允 许 的 情况 下 进程 重 狐 被 调度 到 原来 的 
CPU 上 运行 。 























高 速 缓冲 器 中 的 一 行 与 虚拟 内 存 管理 系统 中 的 一 页 是 类 似 的 。 它 是 CPU 局 速 绥 冲 右 和 内 
存 之 间 传 输 数 据 的 单位 。 通 单行 大 小 的 苑 围 为 32 一 128 FH, 更 多 信息 请 参考 [Schimmel, 1994] 
和 [Drepper 2007]. 

Linux 特有 的 /proc/PID/stat 文件 中 的 一 个 字段 显示 了 进程 当前 执行 或 上 一 次 执行 时 所 在 的 
CPU 编号。 其 体 请 参见 proc(5) TJI. 

















有 时 候 需 要 为 进程 设置 便 CPU 杀 和 力 , 这样 束 能 显 式 地 将 其 限制 在 可 用 CPU 中 的 一 个 或 
一 组 CPU 上 运行 。 之 所 以 需要 这 样 做 ， 原 因 如 下 。 

e。 可 以 避免 由 使 蜗 速 缓冲 占 中 的 数据 失效 所 和 带 来 的 性 能 影响。 

e 如 条 多 个 线程 〈 或 进程) 访问 同样 的 数据 ， 那 么 当 将 它们 限制 在 同样 的 CPU 上 的 话 
可 能 会 带 来 性 能 提升 ， 因 为 它们 无 需 苋 争 数据 并 且 也 不 存在 由 此 而 产生 的 高 速 绥 冲 右 
未 命中 。 

e 对 于 时 间 关 键 的 应 用 程序 来 讲 ， 可 能 需要 为 此 应 用 程序 了 预 留 一 个 或 更 多 CPU， 而 将 系 
统 中 大 多 数 进 程 限制 在 其 他 CPU E. 


使 用 isolepus 内 核 启 动 参数 能 够 将 一 个 或 更 多 CPU 分 离 出 常规 的 内 核 调度 算法 。 将 一 个 进 
程 移 到 或 移出 被 分 离 出 来 的 CPU 的 唯一 方式 是 使 用 本 市 介绍 的 CPU 亲和力 系统 调用 。 isolepus 
局 动 参数 是 实现 上 面 列 出 的 最 后 一 种 场景 的 首选 方式 ， 有 共 体 可 参考 内 核 源 文件 Documentation/ 
kernel-parameters.txt。 

Linux 还 提供 了 一 个 cpuset 内 核 参数 , 该 参数 可 用 于 包含 大 量 CPU 的 系统 以 实现 如 何 给 进 
程 分 配 CPU 和 内 存 的 复杂 控制 ， 有 具体 可 参考 内 核 源 文件 Documentation/cpusets.txt。 
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Linux 2.6 提供 了 一 对 非 标准 的 系统 调用 来 修改 和 获取 进程 的 便 CPU 2888177: sched 
setaffinityO0 和 sched getaffinity()。 


很 多 其 他 UNIX 实现 提供 了 控制 CPU 杀 和 力 的 接口 ,如 HP-UX 和 Solaris pef f pset. bind() 
系统 调用 。 


sched _setaffinityO 系 统 调 用 议 置 了 pid 指定 的 进程 的 CPU RMJ. WR pid 为 0， 那么 调 
用 进程 的 CPU ZU ZJ SC ABUSUSE 





#define GNU SOURCE 
dinclude «sched.h» 


int sched setaffinity(pid t pid, size t lem, cpu set t *set); 


Returns 0 on success, or -1 on error 








赋 给 进程 的 CPU 亲和力 由 set 指向 的 cpu. set t 结构 来 指定 。 


实际 上 CPU 亲和力 是 一 个 线程 级 特性 ， 可 以 调整 线程 组 中 各 个 进程 的 CPU 亲和力 。 如 果 
需要 修改 一 个 多 线程 进程 中 某 个 特定 线程 的 CPU 亲和力 的 话 , 可 以 将 pid 设 定 为 线程 中 gettid() 
调用 返回 的 值 。 将 pid 设 为 0 表示 调用 线程 。 








虽然 cpu set t 数据 类 型 实现 为 一 个 位 掩 码 ， 但 应 该 将 其 看 成 是 一 个 不 透明 的 结构 。 所 有 
对 这 个 结构 的 操作 都 应 该 使 用 宏 CPU ZEROQ. CPU SETO, CPU CLRO 和 CPU ISSETO 来 








#define GNU SOURCE 
dinclude «sched.h» 


void CPU ZERO(cpu set t *set); 
void CPU SET(int cpu, cpu set t *sel); 
void CPU CLR(int cpu, cpu set t *set); 


int CPU ISSET(int cpu, cpu set t *set); 


Returns true (1) if cpu is in set, or false (0) otherwise 











下 和 面 这 些 宏 操 作 set 指 问 的 CPU 集合 : 

。 CPU_ZERO() 将 set IAT. 

e CPU SETO 将 CPU cpu 添加 到 set 中 。 

e CPU CLROA set 中 删除 CPU cpu. 

。 CPU ISSETO 在 CPU cpu 是 set 的 一 个 成 员 时 返回 true。 








。 GNUC 库 还 提供 了 其 他 一 些 宏 来 操作 CPU A, JURAN CPU SETO FM. 0 


CPU 集合 中 的 CPU 从 0 开始 编号 。<sched.h> 头 文件 定义 了 常量 CPU SETSIZE, 它 是 
LE cpu set {t 变 量 能 够 表示 的 最 大 CPU 编号 还 要 大 的 一 个 数字 。CPU_SETSIZE 的 值 为 1024。 

传递 给 sched setaffinityOI] len 参数 应 该 指定 set Zi rn CHI sizeof(cpu set t). 

下 面 的 代码 将 pid ERIR HERE B sg e UU Ab HESS Z8 6 EERTS— 1 CPU 之 外 的 任意 CPU 上 





第 35 章 ”进程 优先 级 和 调度 613 


异步 社区 会 员 flyman150(2410757683@qq.com) EF 尊重 版 权 


cpu set t set; 


CPU ZERO(8set); 

CPU SET(1, &set); 
CPU SET(2, &set); 
CPU SET(3, &set); 


sched setaffinity(pid, CPU SETSIZE, 8set); 

如 果 set 中 指定 的 CPU 与 系统 中 的 所 有 CPU 都 不 匹配 ， 那 么 sched setaffinity0 调 用 就 会 
返回 EINVAL 错误 。 

如 果 运 行 调用 进程 的 CPU 不 包含 在 set 中 ， 那 么 进程 会 被 迁移 到 set 中 的 一 个 CPU E. 

非特 权 进 程 只 有 在 其 有 效用 户 ID 与 日 标 进程 的 真实 或 有 效用 户 ID 匹配 时 才能 够 设 
"HENERIT CPU 亲和力 。 特 权 (CAP_SYS_NICE) 进程 可 以 设置 任意 进程 的 CPU 亲 
和 力 。 

sched_getaffinity() 系 统 调用 获取 pid 指定 的 进程 的 CPU RMI. WR pid 为 0， 那么 
就 返回 调用 进程 的 CPU 亲和力 掩 码 。 

















#define GNU SOURCE 
dinclude «sched.h» 


int sched getaffinity(pid t pid, size t lem, cpu set t *set); 


Returns 0 on success, or -1 on error 











返回 的 CPU 亲和力 掩 码 位 于 set 指向 的 cpu. set t 结构 中 ， 同 时 应 该 将 len 参数 设置 为 
结构 中 包含 的 字 节 数 ,， 即 sizeof(cpu set b。 使 用 CPU_ISSETO 安 能 够 确定 哪些 CPU 位 于 set 
中 。 

如 末 目 标 进 程 的 CPU 杀 和 力 掩 码 并 没有 被 修改 过 ， 那 么 sched_getaffinityO 返 回 包 含 系 统 
中 所 有 CPU 的 集合 。 

sched getaffinity() 执 行 时 不 会 进行 权限 检查 , 非特 权 进 程 能 够 获取 系统 上 所 有 进程 的 CPU 
AI RS. 

通过 forkO 创 建 的 子 进 程 会 继承 其 父 进 程 的 CPU 2831 7J f 03 3E HÆ execO 78] H 2 TR] EI 
得 以 保留 。 

sched setaffinity0 和 sched getaffinityO 系 统 调 用 是 Linux 特有 的 。 

本 书 源 代 码 中 procpri 子 目录 下 t sched setaffinity.c 和 t sched getaffinity.c 程 序 展示 了 sched 
setaffinity() 和 sched getaffinity0 的 使 用 。 








35.5 di 


默认 的 内 核 调 度 算 法 采用 的 是 循环 时 间 分 享 策略 。 默 认 情 况 下 ， 在 这 一 策略 下 的 所 有 进 
程 都 能 平等 地 使 用 CPU, 但 可 以 将 进程 的 nice 值 设置 为 一 个 范围 从 -20 (高 优先 级 ) ~+ AR 
优先 级 ) 的 数字 来 影响 调度 器 对 进程 的 调度 。 但 即使 给 一 个 进程 设置 了 一 个 最 低 的 优先 级 ， 
它 仍 然 有 机 会 用 到 CPU. 

Linux 还 实现 了 POSIX 实时 调度 扩展 。 这 些 扩 展 允 许 应 用 程序 精确 地 控制 如 何 分 配 CPU 
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给 进程 。 运 作 在 两 个 实时 调度 策略 SCHED RR 循环 ) 和 SCHED_FIFO《〈 先 入 先 出 ) 下 的 进 
程 的 优先 级 总 是 高 于 运作 在 非 实 时 策略 下 的 进程 。 实 时 进程 优先 级 的 取 值 范围 为 1( 低 ) 一 99 
(高 )。 只 有 进程 处 于 可 运行 状态 ， 那 么 优先 级 更 高 的 进程 束 会 完全 将 优先 级 低 的 进程 排除 在 
CPU 之 外 。 运 作 在 SCHED FIFO 策略 下 的 进程 会 互 斥 地 访问 CPU 直到 它 执行 终止 或 自动 释放 
CPU 或 被 进入 可 运行 状态 的 优先 级 更 高 的 进程 抢占 。 类 似 的 规则 同样 适用 于 SCHED. RR 策略 ， 
但 在 该 策略 下 ， 如 果 存 在 多 个 进程 运行 于 同样 的 优先 级 下 ， 那 么 CPU 就 会 以 循环 的 方式 被 这 

进程 的 CPU 亲和力 掩 码 可 以 用 来 将 进程 限制 在 多 处 理 器 系统 上 可 用 CPU 的 子 集中 运行 。 
这 样 束 可 以 提高 特定 类 型 的 应 用 程序 的 性 能 。 


更 多 信息 

[Love，2010] 提 供 了 Linux 上 进程 优先 级 和 调度 的 背景 资料 。[Gallmeister, 1995] 提 
ft f POSIX 实时 调度 API 的 更 多 信息 。 虽 然 [Butenhof, 1996] 中 很 多 有 关 实 时 调度 API 
的 讨论 都 是 针对 POSIX 线程 的 ， 但 它 也 为 本 半 中 有 关 实 时 调度 的 讨论 提供 了 有 用 的 背 
景 资料 。 

更 多 有 关 CPU 亲和力 以 及 控制 多 处 理 器 系统 上 给 线程 分 配 CPU 和 内 存 节点 的 信息 可 
以 参见 内 核 源 文件 Documentation/cpusets.txt, mbind(2). set mempolicy(2) 以 及 cpuset(7) 
手册 。 



































35.6 ”习题 
35-1. 实现 nice(1) 命 令 。 
35-0. 编写 一 个 与 nice(1) 命 令 类 似 的 实时 调度 程序 set-user-ID-root 程序 。 这 个 程序 的 命令 
行 界面 如 下 所 未 : 


# ./rtsched policy priority command arg... 





在 上 面 的 命令 中 ，policy F r xàzx SCHED RR, f£ Xs SCHED FIFO。 基 于 在 9.7.1 
EM 38.3 节 中 描述 的 原因 ， 这 个 程序 在 执行 命令 前 应 该 丢弃 自己 的 特权 ID. 

35-3. 编写 一 个 运行 于 SCHED FIFO 调度 策略 下 的 程序 , 然后 创建 一 个 子 进程 。 在 两 个 
进程 中 都 执行 一 个 能 导致 进程 最 多 消耗 3 秒 CPU 时 间 的 函数 。( 这 可 以 通过 使 用 
一 个 循环 并 在 循环 中 不 断 使 用 times 〇 系统 调用 来 确定 累积 消耗 的 CPU 时 间 来 完 
成 。) 每 当 消 耗 了 1/4 秒 的 CPU 时 间 之 后 ,函数 应 该 打印 出 一 条 显示 进程 ID 和 运 
AFERI CPU 时 间 的 消息 。 每 当 消 耗 了 1 秒 的 CPU 时 间 之 后 ， 子 数 应 该 调用 
sched _ yield0) 来 将 CPU 释放 给 其 他 进程 。 另 一 种 方法 是 进程 使 用 sched. setparam() 
提升 对 方 的 调度 策略 。) 从 程序 的 输出 中 应 该 能 够 看 出 两 个 进程 交 蔡 消耗 了 1 b 
的 CPU 时 间 。( 注 意 在 35.3.2 节 中 给 出 的 有 关 防 止 失 控 实 时 进程 占 住 CPU 的 建 
A. 

35-4. 如 果 两 个 进程 在 一 个 多 处 理 器 系统 上 使 用 管道 来 交换 大 量 数 据 , 那么 两 个 进程 
运行 在 同一 个 CPU 上 的 通信 速度 应 该 要 快 于 两 个 进程 运行 在 不 同 的 CPU E, 
其 原因 是 当 两 个 进程 运行 在 同一 个 CPU 上 时 能 够 快速 地 访问 管道 数据 ， 因 为 
管道 数据 可 以 保留 在 CPU 的 高 速 缓冲 器 中 。 相 反 ， 当 两 个 进程 运行 在 不 同 的 
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CPU 上 时 将 无 法 享受 CPU RRRA RRA. gc Ug e APa 
统 , 可 以 编写 一 个 使 用 sched setaffinity() 强 制 将 两 个 进程 运行 在 同一 个 CPU 上 
或 运行 在 两 个 不 同 的 CPU 上 的 程序 来 演示 这 种 效果 。( 第 44 章 描 述 了 管道 的 
使 用 。) 
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进程 资源 





每 个 进程 都 会 消耗 诸如 内 存 和 CPU 时 间 之 类 的 系统 资源 。 本 章 将 介绍 与 资源 相关 的 系统 调用 ， 
首先 会 介绍 getrusage0 系 统 调 用 ， 该 函数 允许 一 个 进程 监控 目 己 及 其 子 进程 已 经 用 掉 的 资源 。 接 着 
会 介绍 setrlimit0 和 getrlimit0 系 统 调用 ， 它 们 可 以 用 来 修改 和 获取 调用 进程 对 各 类 资源 的 消耗 限 值 。 


36.1 进程 资源 使 用 
getrusage() 系 统 调用 返回 调用 进程 或 其 子 进程 用 挥 的 各 类 系统 资源 的 统计 信息 。 























#include «sys/resource.h» 


int getrusage(int who, struct rusage *res usage); 


Returns 0 on success, or -1 on error 











who 参数 指定 了 需 碍 询 资源 使 用 信息 的 进程 ， 其 取 值 为 下 列 几 个 信 中 的 一 个 。 
RUSAGE, SELF 

返回 调用 进程 相关 的 信息 。 
RUSAGE_CHILDREN 

返回 调用 进程 的 所 有 被 终止 和 处 于 等 竺 状态 的 子 进 程 相关 的 信息 。 


RUSAGE THREAD (B Linux 2.6.26 起 ) 
返回 调用 线程 相关 的 信息 。 这 个 值 是 Linux 特有 的 。 
res usage 参数 是 一 个 指 问 rusage 结构 的 指针 ， 其 定义 如 程序 清单 36-1 所 示 。 


程序 清单 36-1: rusage 结构 的 定义 








struct rusage { 
struct timeval ru utime; /* User CPU time used */ 
struct timeval ru stime; /* System CPU time used */ 
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long ru maxrss; /* Maximum size of resident set (kilobytes) 
[used since Linux 2.6.32] */ 


long ru ixrss; /* Integral (shared) text memory size 
(kilobyte-seconds) [unused] */ 

long ru idrss; /* Integral (unshared) data memory used 
(kilobyte-seconds) [unused] */ 

long ru isrss; /* Integral (unshared) stack memory used 
(kilobyte-seconds) [unused] */ 

long ru minflt; /* Soft page faults (I/O not required) */ 

long ru majflt; /* Hard page faults (I/O required) */ 

long ru nswap; /* Swaps out of physical memory [unused] */ 

long ru inblock; /* Block input operations via file 
system [used since Linux 2.6.22] */ 

long ru oublock; /* Block output operations via file 
system [used since Linux 2.6.22] */ 

long ru msgsnd; /* IPC messages sent [unused] */ 

long ru msgrcv; /* IPC messages received [unused] */ 

long ru nsignals; /* Signals received [unused] */ 

long ry hVCSW; /* Voluntary context switches (process 


relinquished CPU before its time slice 
expired) [used since Linux 2.6] */ 

long ru nivcsw; /* Involuntary context switches (higher 
priority process became runnable or time 
slice ran out) [used since Linux 2.6] */ 


B 


从 程序 清单 36-1 中 的 注释 中 可 以 看 出 ， 在 Linux 上 ， 在 调用 getrusage() (或 wait30 
以 及 wait40) 时 ，rusage 结构 中 的 很 多 字段 都 不 会 被 盾 序 ， 只 有 最 新 的 和 内核 才 会 项 充 这 些 字 
段 。 有 其 中 一 些 池 段 在 Linux 中 并 没有 用 到 ， 只 有 UNIX 实现 用 到 了 这 坚 字 段 。 而 Linux 系统 
之 所 以 也 提供 了 这 些 字 段 是 为 了 防止 以 后 扩展 时 需要 修改 rusage 结构 而 破坏 既 有 的 应 用 程 
序 库 。 


虽然 大 多 数 UNIX 实现 都 提供 了 getrusage()， 但 SUSv3 并 没有 全 面 规 沁 这 个 系统 调用 
〈 仅 规定 了 ru_utime 和 ru, stime 字段 )， 这 样 做 的 部 分 原因 是 因为 rusage 结构 中 的 很 多 字段 
的 含义 是 依赖 于 实现 的 。 











ru utime 和 ru_stime 字段 的 类 型 是 timeval 结构 (参见 10.1 节 )， 它 分 别 表示 一 个 进程 在 
用 户 模 式 和 内 核 模式 下 消耗 的 CPU 的 秒 数 和 毫秒 数 。(10.7 节 中 介绍 的 times0 系 统 调 用 也 会 
返回 类 似 的 信息 。) 

Linux 特有 的 /proc/PID/stat 文件 提供 了 系统 中 所 有 进程 的 某 些 资 源 使 用 信息 (CPU 时 间 
和 页 面 错误 )， 更 多 信息 可 参考 proc(5) 手 册 。 











getrusage) RUSAGE CHILDREN 操作 返回 的 rusage 结构 中 包含 了 调用 进程 的 所 有 子孙 进 
程 的 资源 使 用 统计 信息 。 如 假设 三 个 进程 之 间 的 关系 为 父 进 程 、 子 进程 和 孙子 进程 ， 那 么 当 子 
进程 在 waitO 孙 子 进 程 时 ， 孙 子 进 程 的 资源 使 用 值 驶 会 航 加 到 子 进 程 的 RUSAGE_CHILDREN 
值 上 ， 当 父 进程 执行 了 一 个 waitO 子 进程 的 操作 时 ， 子 进程 和 孙子 进程 的 资源 使 用 信息 区 会 被 
加 到 父 进 程 的 RUSAGE_CHILDREN 值 上 。 而 如 果子 进程 没有 waitO 孙 子 进程 的 话 ， 孙 子 进 程 
的 资源 使 用 就 不 会 被 记录 到 父 进程 的 RUSAGE_CHILDREN 值 中 。 

在 RUSAGE_CHILDREN 操作 中 ，ru_maxrss 字段 返回 调用 进程 的 所 有 子孙 进程 中 最 大 驻 
留 集 大 小 《不 是 所 有 子孙 进程 之 和 )。 
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SUSv3 规定 当 SIGCHLD WAEIT OXIE T ERES AE Bn] SEIEHUIRUEXERE P0, 子 进 
程 的 统计 信息 不 应 该 被 加 到 RUSAGE_CHILDREN 的 返回 值 中 。 但 在 26.3.3 节 中 曾经 指出 过 
在 版 本 号 早 于 2.6.9 的 内 核 中 ，Linux 的 行为 与 这 个 规则 不 同一 一 当 SIGCHLD 被 忽略 时 ， 已 
经 死去 的 子 进 程 的 资源 使 用 值 会 被 加 到 RUSAGE_CHILDREN 的 返回 值 中 。 














36.2 ”进程 资源 限制 


每 个 进程 都 用 一 组 资源 限 值 ， 它 们 可 以 用 来 限制 进程 能 够 消耗 的 各 种 系统 资源 。 如 在 执 
行 任 意 一 个 程序 之 前 如 果 不 想 让 它 消 耗 太 多 资源 ， 则 可 以 设置 该 进程 的 资源 限制 。 使 用 shell 
的 内 置 命 令 ulimit 可 以 设置 shell 的 资源 限制 (在 C shell 中 是 limit)。shell 创建 用 来 执行 用 户 
命令 的 进程 会 继承 这 些 限制 。 








从 2.6.24 的 内 核 开 始 ，Linux 特有 的 /proc/PID/limits 文件 可 以 用 来 得 看 任意 进程 的 所 有 
资源 限制 。 这 个 文件 由 相应 进程 的 真实 用 户 ID 所 拥有 ， 并 且 只 有 进程 ID 为 用 户 ID 的 进程 
《或 特权 进程 ) 才能 够 读 取 这 个 文件 。 








getrlimitO F setrlimitO 系 统 调用 允许 一 个 进程 读 取 和 修改 目 己 的 资源 限制 。 


#include «sys/resource.h» 





int getrlimit(int resource, struct rlimit *rlim); 
int setrlimit(int resource, const struct rlimit *rlim); 


Both return 0 on success, or -1 on error 


resource 参数 标识 出 了 需 读 取 或 修改 的 资源 限制 。rlim 参数 用 来 返回 限制 值 CeetrlimitO) 或 
指定 新 的 资源 限制 人 〈(setrlimit0)， 它 是 一 个 指 同 包 合 两 个 字段 的 结构 的 指针 。 

struct rlimit ( 

rlim t rlim cur; /* Soft limit (actual process limit) */ 
rlim t rlim max; /* Hard limit (ceiling for rlim cur) */ 

这 两 个 字段 对 应 于 一 种 资源 的 两 个 天 联 限 制 : 软 限制 (rlim_cur) AI f rl Crlim. max). 
(lim t 数据 类 型 是 一 个 整数 类 型 。) 软 限制 规定 了 进程 能 够 消耗 的 资源 数量 。 一 个 进程 可 
以 将 软 限 制 调 整 为 从 0 到 便 限 制 之 间 的 值 。 对 于 大 多 数 资源 来 讲 , 便 限 制 的 唯一 作用 是 为 软 
限制 设 定 了 上 限 。 特 权 (CAP_SYS_RESOURCE) 进程 能 够 增 大 和 缩小 硬 限 制 (只 要 其 值 
仍然 大 于 软 限 制 )， 但 非 竺 权 进 程 则 上 只 能 缩小 便 限 制 〈“ 这 个 行为 是 不 可 赣 的 )。 在 getrimitO 
和 setrlimitO 调 用 中 ，rlim_cur 和 rlim max 取 值 为 RLIM, INFINITY 表示 没有 限制 (不 限制 
资源 的 使 用 )。 

在 大 多 数 情况 下 ， 特 权 进 程 和 非特 权 进 程 在 使 用 资源 时 都 会 受到 限制 。 通 过 forkO 创 建 的 
子 进程 会 继承 这 些 限 制 并 且 在 execO 调 用 之 间 不 得 到 保持 。 

K 36-1 列 出 了 getrlimit 〇 和 setrlimitO 两 个 函数 中 resource 参数 的 可 取 值 , 详细 信息 可 参见 
36.3 i, 

虽然 资源 限制 是 一 个 进程 级 别 的 特性 ， 但 在 某 些 情况 下 ， 不 仅 需 要 度量 一 个 进程 对 相关 
资源 的 消耗 情况 ， 还 需要 度量 同一 个 真实 用 户 ID 下 所 有 进程 对 资源 的 消耗 总 和 情况 。 限 制 能 
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创建 的 进程 数目 的 RLIMIT_NPROC 束 较 好 地 莹 循 了 这 个 规则 。 仪 仅 将 这 个 限制 施加 于 进程 本 
号 所 创建 的 子 进 程 的 数量 的 做 法 不 是 非常 有 效 ， 因 为 由 该 进程 创建 的 每 个 子 进程 都 可 以 创建 
自己 的 子 进程 ， 而 这 些 子 进程 还 能 够 创建 更 多 的 子 进程 ， 以 此 类 推 。 因 此 ， 这 个 限制 是 根据 
同一 真实 用 户 ID 下 所 有 的 进程 数 来 度量 的 。 注 意 只 有 在 设置 了 资源 限制 的 进程 中 ( 即 进 程 本 
号 及 继承 了 限制 值 的 子孙 进程 ) 才 会 对 资源 使 用 情况 进行 检查 。 如 果 同 一 真实 用 户 ID 下 存在 
一 个 没有 设置 限制 ( 即 限制 值 为 无 限 〉 或 设置 了 一 个 不 同 的 限制 值 的 进程 ， 那 么 束 会 根据 它 
所 设置 的 限制 值 来 检查 其 创建 的 子 进程 的 数量 。 

下 面 在 介绍 每 类 资源 的 限制 值 时 都 会 指出 此 类 资源 限制 值 是 指 同 一 真实 用 户 ID 下 所 有 进 
程 囚 积 能 够 消耗 的 资源 限制 值 。 如 果 没 有 特别 指出 ， 那 么 一 个 资源 限制 值 束 是 指 进程 本 映 能 
够 消耗 的 资源 限制 值 。 









































记 住 , 在 很 多 情况 下 , 获取 和 设置 资源 限制 的 shell 命令 (bash 和 Korn shell 中 是 ulimit, 
C shell 中 是 limit) 使 用 的 单位 与 getrlimitO FN setrlimitO 使 用 的 单位 不 同 。 如 shell 命令 在 限 
制 各 种 内 存 段 的 大 小 时 通常 以 生字 节 为 单位 。 





X 36-1: getrlimit() 和 setrlimit() 中 的 资源 值 








资 gm 限 ” 制 SUSv3 
RLIMIT_AS 进程 虚拟 内 存 限制 大 小 〈 凶 市 数 ) e 
RLIMIT CORE 核心 文件 大 小 《守节 数 ) e 
RLIMIT CPU CPU WF EDR) @ 
RLIMIT_DATA 进程 数据 段 〈 字 节 数 ) e 
RLIMIT FSIZE AFAKA (FTO e 
RLIMIT MEMLOCK 锁 住 的 内 存 〈 字 下 数 ) 

RLIMIT_MSGQUEUE 为 真实 用 户 ID 分 配 的 POSIX 消息 队列 的 字 节 数 〈 自 
Linux 2.6.8 起 ) 

RLIMIT_NICE nice 值 〈 目 Linux 2.6.12 起 ) 

RLIMIT_NOFILE 最 大 的 文件 描述 符 数 量 加 1 e 

RLIMIT NPROC 真实 用 户 ID 下 的 进程 数量 

RLIMIT_RSS FARKA CFTA: RAKI) 

RLIMIT_RTPRIO 实时 调度 策略 〈 自 Linux 2.6.12 起 ) 

RLIMIT_RTTIME 实时 CPU 时 间 《 微 秒 ， 目 Linux 2.6.25 起 ) 


RLIMIT SIGPENDING | 真实 用 户 ID 信号 队列 中 的 信号 数 〈 自 Linux 2.6.8 起 ) 
RLIMIT_STACK 栈 段 的 大 小 季节 数 ) e 





示例 程序 

在 开始 介绍 各 种 资源 限制 的 具体 内 容 之 前 ， 首 先 来 看 一 个 使 用 了 资源 限制 的 简单 示例 。 
程序 清单 36-2 定义 了 函数 printRlimit()， 该 函数 会 显示 一 条 消 胃 以 及 指定 资源 的 软 限制 和 便 
限制 。 




















rim t 数据 类 型 与 off ft 通 种 是 一 样 的 ， 用 来 处 理 文件 大 小 资源 限制 RLIMIT_FSIZE 的 
表示 。 基 于 这 个 原因 ， 在 打印 dim t 值 时 《如 在 程序 清单 36-2 中 )， 需 要 像 5.10 市 所 说 的 
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那样 将 它们 转换 成 long long 并 使 用 %lld printfO12 ff 4 - 


程序 清单 36-3 调用 了 setrlimitO 来 设置 一 个 用 户 能 够 创建 的 进程 数量 的 软 限 制 和 便 限 制 
(RLIMIT_NPROC)， 同 时 使 用 了 程序 清单 36-2 中 的 函数 printRlimitO 来 输出 变更 之 前 和 之 后 
的 资源 限制 ， 最 后 根据 资源 限制 创建 了 尽 可 能 多 的 进程 。 在 运行 这 个 程序 时 ， 如 采 将 软 限制 
设置 为 30， 硬 限制 设置 为 100， 那 么 就 能 看 到 下 面 的 输出 。 

$ ./rlimit nproc 30 100 

Initial maximum process limits:  soft-1024; hard-1024 

New maximum process limits: soft-30; hard-100 

Child 1 (PID-15674) started 

Child 2 (PID-15675) started 

Child 3 (PID-15676) started 

Child 4 (PID-15677) started 

ERROR [EAGAIN Resource temporarily unavailable] fork 


在 这 个 例子 中 ， 程 序 只 创建 了 4 个 新 进程 ， 因 为 在 该 用 户 下 已 经 运行 着 26 个 进程 了 。 




















程序 清单 36-2: 显示 进程 资源 限制 


procres/print rlimit.c 
include «sys/resource.h» 
include "print rlimit.h" /* Declares function defined here */ 
include "tlpi hdr.h" 


int /* Print 'msg' followed by limits for 'resource' */ 
printRlimit(const char *msg, int resource) 


| 


struct rlimit rlim; 


if (getrlimit(resource, &rlim) -- -1) 
return -1; 


printf("%s soft-", msg); 
if (rlim.rlim cur == RLIM INFINITY) 
printf("infinite"); 
#ifdef RLIM SAVED CUR /* Not defined on some implementations */ 
else if (rlim.rlim cur -- RLIM SAVED CUR) 
printf("unrepresentable"); 
ftendif 
else 
printf("Xlld", (long long) rlim.rlim cur); 


printf("; hard-"); 
if (rlim.rlim max == RLIM INFINITY) 
printf("infiniteW"); 
#ifdef RLIM SAVED MAX /* Not defined on some implementations */ 
else if (rlim.rlim max -- RLIM SAVED MAX) 
printf("unrepresentable"); 


ftendif 
else 
printf("%lld\n", (long long) rlim.rlim max); 
return 0; 
} 


procres/print rlimit.c 


第 36 3€ 进程 资源 621 


异步 社区 会 员 flyman150(2410757683 (9 qq.com) EF 尊重 版 权 


程序 清单 36-3. 设置 RLIMIT_NPROC 资源 限制 


procres/rlimit nproc.c 


#include «sys/resource.h» 
#include "print rlimit.h" /* Declaration of printRlimit() */ 
include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


struct rlimit rl; 

int j; 

pid t childPid; 

if (argc < 2 || argc > 3 || stremp(argv[1], "--help") == 0) 
usageErr("Xs soft-limit [hard-limit]Wn", argv[0]); 


printRlimit("Initial maximum process limits: ", RLIMIT NPROC); 


/* Set new process limits (hard -- soft if not specified) */ 


rl.rlim cur = (argv[1][0] == 'i') ? RLIM INFINITY : 
getInt(argv[1], 0, "soft-limit"); 
rl.rlim max = (argc -- 2) ? rl.rlim cur : 
(argv[2][0] == 'i') ? RLIM INFINITY : 


getInt(argv[2], 0, "hard-limit"); 
if (setrlimit(RLIMIT NPROC, &rl) -- -1) 
errExit("setrlimit"); 


printRlimit("New maximum process limits: ", RLIMIT NPROC); 


/* Create as many children as possible */ 


for (j = 1; ; je) ( 
switch (childPid = fork()) { 
case -1: errExit("fork"); 


case 0: exit(EXIT SUCCESS); /* Child */ 


default: /* Parent: display message about each new child 

and let the resulting zombies accumulate */ 

printf("Child Xd (PID=%ld) startedWn", j, (long) childPid); 
break; 


procres/rlimit nproc.c 


无 法 表示 的 限制 值 


在 东 些 程序 设计 环境 中 ，rlim_t 数据 类 型 可 能 无 法 表示 某 个 特定 资源 限制 的 所 有 可 取 值 ， 
这 是 因为 一 个 系统 可 能 提供 了 多 个 程序 设计 环境 ， 而 在 这 些 程序 设计 环境 中 tlim_t 数据 类 型 的 
大 小 是 不 同 的 。 如 当 一 个 off t 为 64 位 的 大 型 文件 编 详 环 昔 被 添加 到 off t 为 32 位 的 系统 中 时 
就 会 出 现 这 种 情况 。( 在 每 种 环境 中 ，rlim_t 和 off t 的 大 小 是 一 样 的 。) 这 就 会 导致 出 现 这 样 一 
种 情况 ， 即 一 个 off t 为 64 位 的 程序 能 够 创建 一 个 子 进程 来 执行 一 个 rim t 值 较 小 的 程序 ， 这 
样子 进程 束 会 继承 父 进 程 的 资源 限制 (如 文件 大 小 限制 ), 但 该 资源 限制 超过 了 最 大 的 rimt 值 。 
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为 了 帮助 可 移植 应 用 程序 处 理 可 能 出 现 的 无 法 标识 资源 限制 的 情况 ，SUSv3 规定 了 两 个 
种 量 来 标记 无 法 表示 的 限制 值 : RLIM SAVED CUR 和 RLIM_SAVED_ MAX。 如 果 一 个 软 资源 
限制 无 法 用 rimt KI, WMA getrlimit() 将 会 在 rlim cur. 字段 返回 RLIM SAVED CUR. m 
RLIM, SAVED MAX 的 功能 类 似 ， 即 当 储 到 无 法 表示 的 便 限 制 时 在 rim_max 字段 返回 该 值 。 

SUSv3 人 允许 实现 在 rim t 能 够 表示 资源 限制 的 所 有 可 取 值 时 将 RLIM_SAVED_CUR 和 
RLIM_SAVED_MAX 定义 成 与 RLIM_INFINITY 一 样 的 值 。 在 Linux 上 ， 这 两 个 常量 值 就 是 
这 样 定义 的 ,这 样 rim_t 能 够 表示 资源 限制 的 所 有 可 取 值 , 但 在 像 x86-32 xx FER 32 位 架构 上 
这 种 做 法 是 不 对 的 。 在 那些 架构 上 ， 在 一 个 大 文件 编译 环境 中 ，glibc 将 fim t 定义 为 64 位 ， 
但 内 核 中 表示 资源 限制 的 数据 类 型 是 unsigned long, 它 只 有 32 位 。 当 前 版 本 的 glibc 是 这 样 处 
理 这 种 情况 的 :如果 一 个 设置 了 _FILE_OFFSET_BITS=64 编译 选项 的 程序 试图 将 一 个 资源 限 
制 值 设置 为 一 个 超出 32 位 unsigned long KRW [RH MA glibc 中 setrlimitO 的 包装 函数 会 
训 无 征兆 地 将 这 个 值 转换 成 RLIM_INEFINITY。 换 名 话说 ， 要 求 完 成 的 资源 限制 值 的 设置 并 没 
有 如 实地 被 完成 。 


由 于 在 很 多 x86-32 发 行 版 中 ， 处 理 文件 的 实用 程序 在 编译 时 通常 都 设置 了 _FILE 
_OFFSET_BITS=64 参数 ， 因 此 当 资 源 限制 值 超出 32 位 的 表示 范围 时 系统 不 如 实地 设置 资 
源 限制 值 的 做 法 不 仅仅 会 影响 a 到 应 用 程序 开发 人 员 ， 还 会 影响 到 最 终 的 用 户 。 

有 些 人 可 能 会 认为 glbc setrlimit0 包 装 函数 的 做 法 要 比 在 请 求 的 资源 限制 超出 32 位 
unsigned long 表示 范围 时 返回 一 个 错误 要 好 ， 而 这 个 问题 的 本 质 是 内 核 的 限制 ，glibc 的 开 
发 人 员 在 处 理 这 个 问题 时 则 采用 了 前 面 正文 中 介绍 的 方法 。 




































































36.3 ”特定 资源 限制 细 市 
本 节 将 详细 介绍 Linux 上 可 用 的 各 个 资源 限制 ,特别 需要 注意 那些 Linux 特有 的 资源 限制 。 


RLIMIT_AS 

RLIMIT AS 限制 规定 了 进程 的 虚拟 内 存 (地 址 空间 ) 的 最 大 字 节 数 , 试图 (brkO、sbrkO、 
mmap(), mremapQ LJ /€ shmatO) 超出 这 个 限制 会 得 到 ENOMEM 错误 。 在 实践 中 ， 程 序 中 会 
超出 这 个 限制 的 最 常见 的 地 方 是 在 调用 malloc 包 中 的 函数 时 ， 因 为 它们 会 使 用 sbrkO 和 
mmap()。 当 页 到 这 个 限制 时 ， 栈 增长 操作 也 会 失败 ， 进 而 会 出 现下 面 RLIMIT_STACK 限制 中 
列 出 的 情况 。 


RLIMIT_CORE 

RLIMIT CORE 限制 规定 了 当 进 程 被 特定 信号 (参见 22.1 市 ) 终 止 时 产生 的 核心 dump 
文件 的 最 大 字 节 数 。 当 达到 这 个 限制 时 ， 核 心 dump 文件 就 不 会 再 产生 了 。 将 这 个 限制 指 
定 为 0 会 阻止 核心 dump 文件 的 创建 ， 这 种 做 法 有 时 候 是 比较 有 用 的 ， 因 为 核心 dump 文 
件 可 能 会 变 得 非常 大 ， 而 最 终 用 户 通 常 义 不 知道 如 何 处 理 这 些 文件 。 男 一 个 禁用 核心 dump 
文件 的 原因 是 安全 性 一 一 防止 程序 占用 的 内 存 中 的 内 容 输出 到 磁盘 上 。 如 果 RLIMIT_FSIZE 
限制 值 低 于 这 个 限制 值 ， 那 么 核心 dump 文件 的 最 大 大 小 会 被 限制 为 RLIMIT_FSIZE FH. 


RLIMIT_CPU 
RLIMIT_CPU 限制 规定 了 进程 最 多 使 用 的 CPU 时 间 (包括 系统 模式 和 用 户 模式 )。SUSv3 
要 求 当 达 到 软 限制 值 时 需要 向 进程 发 送 一 个 SIGXCPU 信号 ， 但 并 没有 规定 其 他 的 细节 。 
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(SIGXCPU 信号 的 默认 动作 是 终止 一 个 进程 并 输出 一 个 核心 dump。) 此 外 , 也 可 以 为 SIGXCPU 
信号 建立 一 个 处 理 吉 来 完成 期 望 的 处 理工 作 ， 然 后 将 控制 返回 给 主 程序 。 在 达到 软 限 制 值 之 
后 ， 内 核 〈 在 Linux E) 会 在 进程 每 消耗 一 秒 钟 的 CPU 时 间 后 向 其 发 送 一 个 SIGXCPU 信号。 
当 进 程 持 续 执 行 直 人 至 达 到 便 CPU 限制 时 ， 内 核 会 问 其 发 送 一 个 SIGKILL 信和 号， 该 信号 总 是 会 
终止 进程 。 

不 同 的 UNIX 实现 对 进程 处 理 完 SIGXCPU 信号 之 后 继续 消耗 CPU 时 间 这 种 情况 的 处 理 
方式 不 同 。 大 多 数 会 每 隔 固定 时 间 间 隔 癌 进程 发 送 一 个 SIGXCPU 信号。 访 者 如 果 想 要 编写 使 
用 这 个 信号 的 可 移植 应 用 程序 ， 那 么 应 该 在 首次 收 到 这 个 信号 之 后 就 完成 必要 的 清理 工作 ， 
然后 终止 执行 。( 或 者 ， 程 序 也 可 以 在 收 到 这 个 信号 之 后 修改 资源 限制 。) 






































RLIMIT DATA 

RLIMIT. DATA 限制 规定 了 进程 的 数据 段 的 最 大 字 节 数 〈 在 6.3 节 中 介绍 的 初始 化 数据 、 
非 初 始 化 数据 、 扒 段 的 总 和 )。 试 图 〈sbrkO0 和 brkOO 访问 这 个 限制 之 外 的 数据 段 会 得 到 
ENOMEM 的 错误 。 与 RLIMIT AS 一 样 ， 程 序 中 会 超出 这 个 限制 的 最 常见 的 地 方 是 在 调用 
malloc 包 中 的 函数 时 。 


RLIMIT_FSIZE 

RLIMIT FSIZE 限制 规定 了 进程 能 够 创建 的 文件 的 最 大 学 节 数 ,如 果 进 程 试图 扩充 一 个 文 
件 使 之 超出 软 限制 值 ， 那 么 内 核 就 会 癌 其 发 送 一 个 SIGXFSZ 信号 ， 并 且 系 统 调用 (如 write() 
或 truncate0) 会 返回 EFBIG Fx o SIGXFSZ 信号 的 默认 动作 是 终止 进程 并 产生 一 个 核心 dump。 
此 外 ， 也 可 以 捕获 这 个 信号 并 将 控制 返回 给 主 程序 。 不 管 怎样 ， 后 续 视 图 扩充 该 文件 的 操作 
都 会 得 到 同样 的 信号 和 错误 。 


RLIMIT MEMLOCK 

RLIMIT MEMLOCK 限制 OS E BSD, Æ SUSv3 中 并 没有 此 限制 ， 只 有 Linux 和 BSD 
系统 提供 了 这 个 限制 ) 规定 了 一 个 进程 最 多 能 够 将 多 少 字 节 的 虚拟 内 存 锁 进 物理 内 存 以 防止 
内 存 被 交换 出 去 。 这 个 限制 会 影 啊 mlockO0 和 mlockallO 系 统 调 用 以 及 mmap0O0 和 shmctlO 系 统 调 
用 的 加 锁 参 数 ， 后 面 50.2 节 中 将 会 介绍 其 中 的 细 市 信息 。 

如 果 在 调用 mlockall0 时 指定 了 MCL_FUTURE 标记 ， 那 么 RLIMIT_MEMLOCK 限制 也 
会 导致 后 续 的 brkO. sbrkO. mmapO^ll mremapO 调 用 失败 。 

















RLIMIT_MSGQUEUE 

RLIMIT MSGQUEUE 限制 (Linux 特有 的 ， 自 Linux 2.6.8 起 ) 规定 了 能 够 为 调用 进程 的 
HKH ID 的 POSIX 消息 队列 分 配 的 最 大 字数。 当 使 用 mq_open0 创 建 了 一 个 POSIX 1H 
县 队列 后 会 根据 下 面 的 公式 将 宇 节 数 与 这 个 限制 值 进行 比较 。 


bytes = attr.mq maxmsg * sizeof(struct msg msg *) 十 
attr.mq maxmsg * attr.mq msgsize; 


在 这 个 公式 中 , attr 是 传 给 mq_open0 的 第 四 个 参数 mq. attr 结构 。 加 数 中 包含 sizeof(struct 
msg msg 3) 硝 保 了 用 户 无 法 在 队列 中 无 正 境 地 加 入 长 度 为 零 的 消息 。(Cmsg_msg 结构 是 内 核 内 
部 使 用 的 一 个 数据 类 型 。) 这 样 做 是 有 必要 的 ， 因 为 虽然 长 度 为 零 的 消息 不 包含 数据 ， 但 它们 
需要 消耗 一 些 系 统 内 存 以 供 钴 记 。 

RLIMIT MSGQUEUE 限制 只 会 影响 调用 进程 。 这 个 用 户 下 的 其 他 进程 不 会 受到 影响 ， 
为 它们 也 会 设置 这 个 限制 或 继承 这 个 限制 。 
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RLIMIT. NICE 

RLIMIT NICE 限制 (Linux 特有 的 ， 目 Linux 2.6.12. 起 ) 规定 了 使 用 sched. setschedulerO 
和 niceO 能 够 为 进程 设置 的 最 大 nice 值 。 这 个 最 大 值 是 通过 公式 20 — rlim. cur 计算 得 来 的 ， 其 
中 rlim, cur 是 当前 的 RLIMIT_NICE 软 资 源 限制 ， 更 多 细 市 信息 可 参见 35.1 7. 





RLIMIT_NOFILE 

RLIMIT NOFILE 限制 规定 了 一 个 数值 , 该 数值 等 于 一 个 进程 能 够 分 配 的 最 大 文件 摘 述 符 
数量 加 1。 试图 (如 open), pipeO. socket), accept ~ shm open(O. dupl), dup20. fcntl(F DUPFD) 
和 epoll, create) 分 配 的 文件 描述 符 数 量 超出 这 个 限制 时 会 失败 。 在 大 多 数 情况 ， 失 败 的 错误 
是 EMFILE, 但 在 dup2(fd, newfd) 调 用 中 , 失败 的 错误 是 EBADF, 在 fentl(fd, F DUPFD, newfd) 
调用 中 当 newfd 大 于 或 等 于 这 个 限制 时 ， 失 败 的 错误 是 EINVAL. 

对 RLIMIT. NOFILE 限制 的 变更 会 通过 sysconf(_SC_OPEN_MAX) 的 返回 值 反 应 出 来 。 
SUSv3 允许 但 不 强制 实现 在 修改 RLIMIT_NOFILE 限制 前 后 调用 sysconf(_SC_OPEN_MAX) 
返回 不 同 的 值 ， 在 这 一 点 上 其 他 实现 的 行为 与 Linux 可 能 并 不 相同 。 


SUSv3 声称 如 果 一 个 应 用 程序 将 进程 的 软 或 硬 RLIMIT_NOFILE 限制 设置 为 一 个 小 于 
或 等 于 进程 当前 打开 的 最 大 文件 描述 符 数 量 的 值 时 会 出 现 预期 之 外 的 行为 。 

在 Linux 上 可 以 通过 使 用 readdir0 扫 描 /proc/PID/fd 目录 下 的 内 容 来 检查 一 个 进程 当前 
打开 的 文件 描述 符 ， 这 个 目录 包含 了 进程 当前 打开 的 每 个 文件 描述 符 的 符号 链接 。 


内 核 为 RLIMIT_ NOFILE 限制 规定 了 一 个 最 大 值 。 在 2.6.25 之 前 的 内 核 中 ， 这 个 最 大 值 是 
一 个 由 内 核 常 量 NR_OPEN 定义 的 便 编 码 值 , 其 值 为 1048576。( 提 高 这 个 最 大 值 需要 重建 内 核 。) 
从 2.6.25 的 版 本 开始 ， 这 个 限制 由 Linux 特有 的 /proc/sys/fs/nr_open 文件 定义 。 这 个 文件 中 的 默 
认 值 是 1048576， 超 级 用 户 可 以 修改 这 个 值 。 试 图 将 软 或 便 RLIMIT_NOFILE 限制 设置 为 一 个 
大 于 最 大 值 的 值 会 产生 EPERM 错误 。 

还 存在 一 个 系统 级 别 的 限制 ， 它 规定 了 系统 中 所 有 进程 能 够 打开 的 文件 数量 ， 通 过 Linux 特有 
的 /proc/sysfs/file-max 文件 能 够 获取 和 修改 这 个 限制 。( 可 以 将 包 e-max 更 加 精确 地 定义 为 系统 中 所 
能 打开 的 文件 描述 符 数 量 限制 ， 具 体 可 参考 5.4 T) 只 有 特权 (CAP_SYS_ADMIN) 进程 才能 够 
超出 file-max 的 限制 。 在 非特 权 进 程 中 ， 当 系统 调用 全 到 file-max 限制 时 会 返回 ENFILE 错误 。 


RLIMIT_NPROC 

RLIMIT_NPROC 限制 ( 源 自 BSD, Æ SUSv3 中 并 没有 此 限制 ， 只 有 Linux 和 BSD 系统 
提供 了 这 个 限制 ) 规定 了 调用 进程 的 真实 用 户 ID 下 最 多 能 够 创建 的 进程 数量 。 试 图 〈forkO、 
vforkO0 和 clone0) 超出 这 个 限制 会 得 到 EAGAIN 错误 。 

RLIMIT NPROC 限制 只 影 响 调用 进程 。 这 个 用 户 下 的 其 他 进程 不 会 受到 影响 ， 除 非 它们 也 
设置 或 继承 了 这 个 限制 。 这 个 限制 不 适用 于 特权 CCAP. SYS_ADMIN FI CAP. SYS RESOURCE) 
UE Ene 

Linux ejt T RAE h A cl oe A xe PT HS peA EAEAN E. Æ Linux 2.4 
以 及 之 后 的 版 本 中 , 可 以 使 用 Linux 特有 的 /proc/sys/kernel/threads-max 文件 来 获取 和 修改 
这 个 限制 。 

;准确 地 说 ，RLIMIT_NPROC 资源 限制 和 threads-max 文件 实际 上 限制 的 是 所 能 创建 的 
线程 数量 ， 而 不 是 进程 的 数量 。 
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不 同 版 本 的 内 核 为 RLIMIT_NPROC 资源 限制 设置 的 默认 值 不 同 。 在 Linux 2.2 中 ， 该 人 
是 根据 一 个 固定 的 公式 计算 得 来 的 。 在 Linux 2.4 和 之 后 的 版 本 中 ， 该 值 是 使 用 一 条 公式 根据 
可 用 的 物理 内 存 数 量 计 算得 来 的 。 











SUSv3 没有 规定 RLIMIT_NPROC 资源 限制 ， 但 它 规定 了 通过 sysconf( SC CHILD 
_MAX) 调 用 来 获取 不 是 修改 ) 一 个 用 户 ID 最 多 能 够 创建 的 进程 数量 。Linux 也 文 持 这 个 
sysconf() 调 用 , 但 只 有 2.6.23 前 的 内 核 才 文 持 这 个 调用 。 这 个 调用 不 会 返回 精确 的 信息 一 一 
它 总 是 返回 值 999。 自 Linux 2.6.23 起 (以 及 glibc 2.4 和 之 后 的 版 本 )， 这 个 调用 会 正确 地 
返回 限制 (通过 检查 RLIMIT. NPROC 资源 限制 值 )。 

不 存在 一 种 统一 的 方法 能 够 在 不 同系 统 中 找 出 某 个 特定 有 用户 ID 已 经 创建 的 进程 数 。 在 
Linux 中 可 以 通过 扫描 系统 中 的 所 有 /proc/PID/status 文件 并 检查 Uid 条 目 《 它 会 投 顺 序列 出 
四 个 进程 用 户 DDD: 真实 、 有 效 、 保 留 集 和 文件 系统 ) 下 的 信息 来 估算 一 个 用 户 当 前 拥有 的 
进程 ， 但 有 一 点 需要 记 住 ， 即 当先 成 扫描 之 后 信息 可 能 已 经 发 生 了 改变 。 


























RLIMIT_RSS 

RLIMIT RSS 限制 ( 源 日 BSD， 在 SUSv3 并 没有 此 限制 ， 但 该 限制 是 被 广泛 使 用 的 ) 规 
定 了 进程 驻 留 集中 的 最 大 页 面 数 ， 即 当前 位 于 物理 内 存 中 的 虚拟 内 存 页 面 总 数 。Linux 也 提供 
了 这 个 限制 ， 但 当前 并 没有 起 任何 作用 。 

















在 Linux 2.4 之 前 的 内 核 中 ( 早 于 以 及 包括 2.4.29), RLIMIT_RSS 会 影响 到 madvise0 
MADV WILLNEED 操作 的 行为 (参见 50.4 节 )。 如 果 这 个 操作 因 达 到 RLIMIT RSS 限制 
而 无 法 执行 ， 那 么 errno 中 会 存储 EIO 错误 。 





RLIMIT RTPRIO 
RLIMIT RTPRIO 限制 (Linux 特有 的 , A Linux 2.6.12 起 ) 规 定 了 使 用 sched. setscheduler() 
和 sched_setparam0) 能 够 为 进程 设置 的 最 高 实时 优先 级 ， 有 具体 细 币 请 参考 35.3.2 市 。 

















RLIMIT_RTTIME 

RLIMIT RTTIME 限制 (Linux 特有 的 ， 自 Linux 2.6.25 起 ) 规定 了 一 个 进程 在 实时 调度 
策略 中 不 睡眠 《〈 即 执行 一 个 阻塞 系统 调用 ) 的 情况 下 最 大 能 消耗 的 CPU 秒 数 。 当 达到 这 个 限 
制 时 系统 的 行为 与 达到 RLIMIT_CPU 限制 时 的 行为 是 一 样 的 : 如 果 进 程 达到 了 软 限 制 ， 那 么 
内 核 会 问 进程 发 送 一 个 SIGXCPU 信号 ， 之 后 进程 每 消耗 一 秒 的 CPU 时 间 都 会 收 到 一 个 
SIGXCPU 信和 号。 在 达到 便 限 制 时 ， 内 核 会 问 进 程 发 送 一 个 SIGKILL 信和 号。 更 多 细节 请 参考 
35.32 节 。 











RLIMIT_SIGPENDING 

RLIMIT. SIGPENDING 限制 (Linux 特有 的 ， 自 Linux 2.6.8 起 ) 规定 了 调用 进程 的 真实 
用 户 ID 下 信号 队列 中 最 多 能 容纳 的 信号 数量 ,试图 (sigqueue0 ) 超 出 这 个 限制 会 得 到 EAGAIN 
BUR. 

RLIMIT SIGPENDING 只 影响 调用 进程 。 这 个 用 户 下 的 其 他 进程 不 会 受到 影响 ， 除 非 它 
们 也 设置 或 继承 了 这 个 限制 。 

在 最 初 的 实现 中 ，RLIMIT_SIGPENDING 限制 的 默认 值 为 1024。 目 内 核 2.6.12 起 ， 这 个 
限制 的 默认 值 和 被 改 成 了 与 RLIMIT_NPROC 的 默认 值 一 样 的 值 。 
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在 检查 RLIMIT. SIGPENDING 限制 时 统计 的 队列 中 的 信号 包括 实时 信号 和 标准 信和 号。( 一 
个 进程 的 标准 信号 只 能 进入 队列 一 次 。) 但 这 个 限制 只 适用 于 sigqueue()。 即 使 这 个 实时 用 户 
ID 下 的 进程 的 信号 队列 中 包含 的 信号 数量 已 经 达到 了 这 个 限制 , 仍然 可 以 使 用 kill0 来 将 不 在 
进程 的 信号 队列 中 的 各 个 信号 (包括 实时 信和 号) 的 一 个 实例 添加 到 队列 中 。 

在 2.6.12 之 前 的 内 核 中 ，Linux 特有 的 /proc/PID/status 文件 中 的 SigQ 字段 显示 了 进程 的 
真实 用 户 ID 的 信号 队列 中 当前 存储 的 信号 数量 以 及 最 多 存储 的 信和 号 数量 。 


RLIMIT_STACK 

RLIMIT STACK 限制 规定 了 进程 栈 的 最 大 学 节 数 。 试 图 扩展 栈 大 小 以 至 于 超出 这 个 限制 
会 导致 内 核 向 该 进程 发 送 一 个 SIGSEGV 信号 。 由 于 栈 空 间 已 经 被 用 光 了 ， 因 此 捕获 这 个 信号 
的 唯一 方式 是 建立 另外 一 个 备用 的 信号 栈 ， 有 具体 可 参考 21.3 节 。 


H Linux 2.6.23 起 ，RLIMIT STACK 限制 还 确定 了 存储 进程 的 命令 行 参 数 和 环境 变量 
的 最 大 空间 ， 上 有 具体 可 参考 execve(2) 手 册 。 





























36.4 iR 


进程 会 消耗 各 种 系统 资源 。getrusage0 系 统 调用 允许 一 个 进程 监控 目 己 及 其 子 进程 所 消耗 
的 各 种 资源 。 

setrlimit0 和 getrlimitO 系 统 调用 允许 一 个 进程 设置 和 获取 目 己 在 各 种 资源 上 的 消耗 限制 。 
每 个 资源 限制 有 两 个 组 成 部 分 : 一 个 是 软 限 制 ， 内 核 在 检查 进程 的 资源 消耗 时 会 应 用 这 个 限 
制 ;万 外 一 个 是 便 限 制 ， 它 是 软 限 制 可 取 的 最 大 值 。 非 特权 进程 能 够 将 一 个 资源 的 软 限制 设 
置 为 0 到 使 限制 之 间 的 任意 一 个 值 ， 但 只 能 降低 便 限 制 值 。 特 权 进 程 能 够 随意 修改 这 两 个 限 
制 值 ,只 要 软 限制 值 小 于 或 等 于 便 限 制 值 即 可 。 当 一 个 进程 达到 软 限制 时 通常 会 通过 接收 一 
个 信和 号 或 在 调用 试图 超出 这 个 限制 的 系统 调用 时 得 到 一 个 错误 来 得 知 这 个 事实 。 

















36.5 ”习题 


36-1. 编写 一 个 程序 使 用 getrusagg RUSAGE CHILDREN 标记 获取 waitO 调 用 所 等 待 的 
子 进 程 相关 的 信息 。( 让 程序 创建 一 个 子 进程 并 使 子 进程 消耗 一 些 CPU 时 间 ， 接 痢 
让 父 进程 在 调用 waitO 前 后 都 调用 getrusageO 。) 

36-2. 编写 一 个 程序 来 执行 一 个 命令 ， 接 着 显示 其 当前 的 资源 使 用 。 这 个 程序 与 tme(]) 
命令 的 功能 类 似 ， 因 此 可 以 像 下 面 这 样 使 用 这 个 程序 : 

$ ./rusage command arg... 

36-3. 编写 一 个 程序 来 确定 当 进 程 所 消耗 的 各 种 资源 超出 通过 setrlimitO 调 用 设置 的 软 限 

制 时 会 发 生 什 么 事情 。 
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本 章 


3/.1 


9M. 


DAEMON 


介绍 daemon 进程 的 特征 和 将 一 个 进程 变 成 一 个 daemon 所 需 完 成 的 步骤 。 此 外 ， 
ia daemon 中 使 用 syslog 工具 记录 消息 。 


MEGA 


daemon 是 一 种 具备 下 列 特征 的 进程 。 

它 的 生命 周期 很 长 。 通 常 ， 一 个 daemon 会 在 系统 启动 的 时 候 被 创建 并 一 直 运 行 直至 
系统 被 天 闭 。 

它 在 后 人 台 运 行 并 且 不 拥有 控制 终端 。 控 制 终 端的 缺失 确保 了 内 核 永远 不 会 为 daemon 
自动 生成 任何 任务 控制 信号 以 及 终端 相关 的 信号 (如 SIGINT, SIGTSTP 和 SIGHUP )。 























daemon 是 用 来 执行 特殊 任务 的 ， 如 下 面 的 示例 所 示 。 


序 时 应 该 遵循 第 


cron: 
sshd: 
httpd: 


inetd: 


一 个 在 规定 时 间 执 行 命令 的 daemon. 

安全 shell daemon， 人 允许 在 远程 主机 上 使 用 一 个 安全 的 通信 协议 登录 系统 。 
HTTP 服务 器 daemon (Apache )， 它 用 于 服务 Web 页 面 。 

Internet 超级 服务 器 daemon (参见 60.5 节 )， 它 监听 从 指定 的 TCP/IP 端口 上 进 








入 的 网 络 连 接 并 局 动 相 应 的 服务 器 程序 来 处 理 这 些 连接 。 
很 多 标准 的 daemon 会 作为 特权 进程 运行 〈 即 有 效用 户 ID 为 0)， 因 此 在 编写 daemon fE 








38 草 中 给 出 的 指南 。 





X8 T5 f daemon 程序 的 名 称 以 字母 4 结尾 《〈 但 并 不 是 所 有 人 都 得 循 这 个 惯例 )。 


在 Linux 上 ， 特 定 的 daemon 会 作为 内 核 线 程 运 行 。 实 现 此 类 daemon 的 代码 是 内 核 的 
， 它 们 通常 在 系统 启动 的 时 候补 创建 。 当 使 用 ps(1) 列 出 线程 时 ， 这 些 daemon 的 名 
称 会 用 方 括 写 〈[]) fe. AR- SAARA E pdfluh, ESEE E 
训 区 中 的 页 面 ) 写 入 磁盘 。 


2 
S 
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37.2 创建 一 个 daemon 


要 变 成 daemon， 一 个 程序 需要 完成 下 面 的 步 又。 
1. 执行 一 个 fork()， 之 后 父 进 程 退 出 ， 子 进程 继续 执行 。( 结 果 是 daemon 成 为 了 init 进程 的 
THF.) 之 所 以 要 做 这 一 步 是 因为 下 和 而 两 个 原因 。 
一 假设 daemon 是 从 命令 行 启 动 的 ， 父 进程 的 终止 会 被 shell 发 现 ，shell 在 发 现 之 后 会 显 
示 出 另 一 个 shell 提示 符 并 让 子 进程 继续 在 后 台 运 行 。 
一 子 进 程 被 确保 不 会 成 为 一 个 进程 组 首 进程 ， 因 为 它 从 其 父 进程 那里 继承 了 进程 组 ID 
并 且 拥 有 了 目 己 的 唯一 的 进程 D， 而 这 个 进程 ID 与 继承 而 来 的 进程 组 ID 是 不 同 的 ， 
这 样 才 能 够 成 功 地 执行 下 面 一 个 步骤 。 
2. 子 进程 调用 setsid) (AM 34.3 市 ) 开局 一 个 新 会 话 并 释放 它 与 控制 终端 之 间 的 所 有 关联 
关系 。 
3. ”如果 daemon 从 来 没有 打开 过 终 问 设备， 那么 束 无 需 担 心 daemon 会 重新 请 求 一 个 控制 终 
Ju f. WR daemon 后 面 可 能 会 打开 一 个 终端 设备 ， 那 么 必须 要 采取 措施 来 确保 这 个 设备 
不 会 成 为 控制 终 疡 。 这 可 以 通过 下 和 耐 两 种 方式 实现 。 
一 在 所 有 可 能 应 用 到 一 个 终 问 设备 上 的 open() 调 用 中 指定 O_NOCTTY 标记 。 
一 或 者 更 人 简单 地 说 ， 在 setsid0 调 用 之 后 执行 第 二 个 forkO0， 然 后 再 次 让 父 进程 退出 并 让 
孙子 进程 继续 执行 。 这样 就 确保 了 子 进程 不 会 成 为 会 话 组 长 , 因此 根据 System V 中 获 
取 终 端的 规则 〈Linux 也 遵循 了 这 个 规则 )， 进 程 永 远 不 会 重新 请 求 一 个 控制 终端 ( 参 
Jl, 34.4 7). 
























































在 遵循 BSD 规则 的 实现 中 ， 一 个 进程 只 能 通过 一 个 显 式 的 ioctl0 TIOCSCTTY 操作 来 
锋 取 一 个 控制 终 痢 ， 因 此 此 三 个 forkO 调 用 对 控制 终 站 的 获取 并 没有 任何 影响 ， 但 多 一 个 
forkO 调 用 不 会 带 来 任何 坏处 。 








4. 清除 进程 的 umask《〈 人 参见 15.4.6 3) 以 确保 当 daemon 创建 文件 和 目录 时 拥有 上 所 需 的 权限 。 

5. 修改 进程 的 当前 工作 目录 ， 通 常会 改 为 根 目录 〈/)。 这 样 做 是 有 必要 的 ， 因 为 daemon 通 
常会 一 直 运 行 寺 至 系统 关闭 为 止 。 如果 daemon 的 当前 工作 目录 为 不 包含 /的 文件 系统 ， 那 
么 束 无 法 凶 载 该 文件 系统 (参见 14.8.2 55. wA daemon 可 以 将 工作 目录 改 为 完成 任务 
时 所 在 的 目录 或 在 配置 文件 中 定义 的 一 个 目录 , 只 要 包含 这 个 目录 的 文件 系统 永远 不 会 祝 
zB HI. Un cron 会 将 目 喘 放 在 /var/spool/cron 目录 下 。 

6. XH] daemon 从 其 父 进 程 继承 而 来 的 所 有 打开 看 的 文件 描述 符 。(daemon 可 能 需要 你 
持 继 有 承 而 来 的 文件 描述 的 打开 状态 ， 因 此 这 一 步 是 可 选 的 或 者 是 可 变更 的 。) 之 所 以 
需要 这 样 做 的 原因 有 很 多 。 由 于 daemon 失去 了 控制 终 新 并 且 是 在 后 台 运 行 的 ， 因 此 
让 daemon 保持 文件 揪 述 符 0、1 和 2 的 打开 状态 又 无 音义， 因为 它们 指 问 的 束 是 控 
制 终端 。 此 外 ， 无 法 卸载 长 时 间 运 行 的 daemon 打开 的 文件 所 在 的 文件 系统 。 因 此 ， 
通 第 的 做 法 是 关闭 所 有 无 用 的 打开 看 的 文件 摘 述 符 ， 因 为 文件 摘 述 符 是 一 种 有 限 的 






































一 些 UNIX 实现 (如 Solaris 9 和 一 些 最 新 的 BSD 发 行 版 ) 提供 了 一 个 名 为 closefrom(n) 
(或 类 似 的 名 称 〉 的 函数 ， 它 关闭 所 有 大 于 或 等 于 n 的 文件 描述 符 。Linux 上 并 不 存在 这 个 
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7. 在 关闭 了 文件 描述 符 0、1 和 2 之 后 ，daemon 通常 会 打开 /dev/null 并 使 用 dup20 (或 类 似 
的 函数 〉 使 所 有 这 些 描述 符 指 网 这 个 设备 。 之 所 以 要 这 样 做 是 因为 下 面 两 个 原因 。 

一 它 确 保 了 当 daemon 调用 了 在 这 些 摘 述 符 上 执行 IO 的 库 函 数 时 不 会 出 乎 意料 地 
失败 。 

一 它 防 止 了 daemon 后 面 使 用 描述 符 1 或 2 打开 一 个 文件 的 情况 ， 因 为 库 函 数 会 将 这 些 

挡 述 符 当 做 标准 输出 和 标准 错误 来 写 入 数据 (进而 破坏 了 原 有 的 数据 )。 


/dev/null 是 一 个 虚拟 设备 ， 它 总 会 将 写 入 的 数据 丢弃 。 当 需要 删除 一 个 shell 命令 的 标 
准 输出 和 错误 时 可 以 将 它们 重 定 癌 到 这 个 文件 。 从 这 个 设备 中 读 取 数据 总 是 会 返回 文件 结 
束 的 错误 。 


下 和 面 是 becomeDaemon0O 函 数 的 实现 ， 它 完成 了 上 面 摘 述 的 步骤 以 将 调用 者 变 成 一 个 


daemon 。 




















include «syslog.h» 


int becomeDaemon(int flags); 


Returns 0 on success, or -1 on error 








becomeDaeomon() FK Zip zi —^ rd 322 flags， 它 允许 调用 者 有 选择 地 执行 其 中 的 步 
又 ， 具 体 可 参考 程序 清单 37-1 中 列 出 的 头 文件 中 的 注释 。 


程序 清单 37-1: become daemon.c 的 头 文件 











daemons/become daemon.h 


#ifndef BECOME DAEMON H /* Prevent double inclusion */ 
itdefine BECOME DAEMON H 


/* Bit-mask values for 'flags' argument of becomeDaemon() */ 


itdefine BD NO CHDIR 01  /* Don't chdir("/") */ 

#define BD NO CLOSE FILES 02 /* Don't close all open files */ 

#define BD NO REOPEN STD FDS 04 /* Don't reopen stdin, stdout, and 
stderr to /dev/null */ 

#define BD NO UMASKO 010 A /* Don't do a umask(0) */ 


#define BD MAX CLOSE 8192 /* Maximum file descriptors to close if 
sysconf( SC OPEN MAX) is indeterminate */ 


int becomeDaemon(int flags); 


#endif 
daemons/become daemon.h 


程序 清单 37-2 给 出 了 becomeDaemon(Q FR Zi I] SB 
GNU C 库 提 供 了 一 个 非 标准 的 daemon0 函 数 ， 它 将 调用 者 变 成 一 个 daemon. glibc 
daemon() K Zit E; ix E I becomeDaemon() 函 数 不 同 ,， 它 并 没有 定义 一 个 与 flags 参数 等 价 的 
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程序 清单 37-2: 创建 一 个 daemon 进程 


#include «sys/stat.h» 
#include «fcntl.h» 
#include "become daemon.h" 
include "tlpi hdr.h" 


int 


/* Returns 


becomeDaemon(int flags) 


daemons/become daemon.c 


O on success, -1 on error */ 


i 
int maxfd, fd; 
switch (fork()) 1 /* Become background process */ 
Case -1: return -1; 
case 0: break; /* Child falls through... */ 
default:  exit(EXIT SUCCESS); /* while parent terminates */ 
} 
if (setsid() == -1) /* Become leader of new session */ 
return -1; 
switch (fork()) ( /* Ensure we are not session leader */ 
Case -1: return -1; 
case 0: break; 
default:  exit(EXIT SUCCESS); 
} 
if (!(flags & BD NO UMASKO)) 
umask(0) ; /* Clear file mode creation mask */ 
if (!(flags & BD NO CHDIR)) 
chdir("/"); /* Change to root directory */ 
if (!(flags & BD NO CLOSE FILES)) ( /* Close all open files */ 
maxfd = sysconf( SC OPEN MAX); 
if (maxfd == -1) /* Limit is indeterminate... */ 
maxfd - BD MAX CLOSE; /* so take a guess */ 
for (fd = 0; fd < maxfd; fd++) 
close(fd); 
} 
if (!(flags & BD NO REOPEN STD FDS)) 1 
close(STDIN FILENO); /* Reopen standard fd's to /dev/null */ 
fd = open("/dev/null", O RDWR); 
if (fd !- STDIN FILENO) /* 'fd' should be 0 */ 
return -1; 
if (dup2(STDIN FILENO, STDOUT FILENO) !- STDOUT FILENO) 
return -1; 
if (dup2(STDIN FILENO, STDERR FILENO) !- STDERR FILENO) 
return -1; 
} 
return 0; 
} 


daemons/become daemon.c 
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假设 编写 一 个 程序 调用 becomeDaemon(0)， 之 后 睡眠 一 段 时 间 ， 那 么 可 以 使 用 ps(1) 来 查 
看 结果 进程 的 一 些 特 性 。 
$ ./test become daemon 
$ ps -C test become daemon -o "pid ppid pgid sid tty command" 
PID PPID POGID SID TT COMMAND 
24731 1 24730 24730 ? ./test become daemon 


由 于 代码 比较 人 简单， 因此 这 里 并 没有 给 出 daemons/test become daemon.c 的 源 代 码 ， 本 
书 的 源 代码 包 中 提供 了 这 个 程序 的 代码 。 


在 ps 的 输出 中 ，TT 标题 下 的 ? 表示 进程 没有 控制 终端 。 从 进程 ID 与 会 话 ID (SID) 不 
同 的 事实 也 可 以 看 出 进程 不 是 会 话 首 进程 ， 因 此 在 打开 终端 设备 时 不 会 重新 获得 控制 终端 ， 
这 束 是 daemon 应 该 具备 的 特性 。 














37.3 编写 daemon 指南 


前 面 曾经 提 及 过 ， 一 个 daemon 通常 只 有 在 系统 关闭 的 时 候 才 会 终止 。 很 多 标准 的 daemon 
是 通过 在 系统 关闭 时 执行 特定 于 应 用 程序 的 脚本 来 俘 止 的 。 而 那些 不 以 这 种 方式 终止 的 
daemon 会 收 到 一 个 SIGTERM 信和 号， 因为 在 系统 关闭 的 时 候 init HES IRI PPAR ECT ERE EX 
个 信号 。 在 默认 情况 下 ，SIGTERM 信号 会 终止 一 个 进程 。 如 果 daemon 在 终止 之 前 需要 做 些 
清理 工作 ， 那 么 就 需要 为 这 个 信号 建立 一 个 处 理 器 。 这 个 处 理 器 必须 能 快速 地 完成 清理 工作 ， 
因为 init 在 发 完 SIGTERM 信号 的 5 秒 之 后 会 发 送 一 个 SIGKILL 信和 号 。( 这 并 不 意味 着 这 个 
daemon 能 够 执行 5 秒 的 CPU 时 间 ， 因 为 init 会 同时 向 系统 中 的 所 有 进程 发 送信 号 ， 而 它们 可 
能 都 试图 在 5 秒 内 完成 清理 工作 。) 

由 于 daemon 是 长 时 间 运 行 的 ， 因 此 要 特别 小 心 潜在 的 内 存 泄露 问题 (参见 7.1.3 节 ) 
和 文件 摘 述 符 泄 露 〈 即 应 用 程序 没有 关闭 所 有 打开 着 的 文件 拉 述 符 )。 如 果 此 类 bug 影响 
到 了 daemon 的 运行 ， 那 么 唯一 的 解决 方案 是 杀 死 它 ， 之 后 《修复 了 bug) 再 重新 局 动 它 。 

很 多 daemon 需要 确保 同一 时 刻 只 有 一 个 实例 处 于 活跃 状态 。 如 让 两 个 cron daemon 都 试 
图 实行 计划 任务 上 毫 无 意义 。 在 55.6 节 中 将 会 介绍 完成 这 个 任务 的 技术 。 






































37.4 ”使 用 SIGHUP 重新 初始 化 一 个 daemon 


由 于 很 多 daemon 需要 持续 运行 ， 因 此 在 设计 daemon 程序 时 需要 元 服 一 些 障碍 。 
e ili daemon 会 在 启动 时 从 相关 的 配置 文件 中 读 取 操作 参数 ， 但 有 些 时 候 需 要 在 不 午 
局 daemon 的 情况 下 快速 修改 这 些 参数 。 
e 一 些 daemon 会 产生 日 志文 件 。 如 果 daemon 永远 不 关闭 日 志文 件 的 话 , 那么 日 志文 件 
就 会 无 限制 地 增长 ， 最 终 会 阻塞 文件 系统 。( 在 18.3 市 中 曾经 提 到 过 即使 删除 了 一 个 
文件 的 文件 名 ， 只 要 有 进程 还 打开 看 这 个 文件 ， 那 么 这 个 文件 束 会 一 直 和 存在 下 去 。) 
这 里 需要 有 一 种 机 制 来 告诉 daemon 关闭 其 日 志文 件 并 打开 一 个 狐 文 件 ， 这 样 束 能 够 
在 需要 的 时 候 旋 转 日 志文 件 了 。 
解决 这 两 个 问题 的 方案 是 让 daemon 为 SIGHUP 建立 一 个 处 理 器 ,并 在 收 到 这 个 信号 时 采 
取 所 和 需 的 指 施 。 在 34.4 方 中 曾 经 讲 到 ， 当 控制 进程 与 控制 终端 断 开 连接 之 后 束 会 生成 SIGHUP 
信号 。 由 于 daemon 没有 控制 终端 ， 因 此 内 核 永 远 不 会 癌 daemon 发 送 这 个 信号 。 这 样 daemon 
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束 可 以 使 用 SIGHUP 信和 号 来 达到 目的 。 





logrotate 程序 可 以 用 来 自动 旋转 daemon 的 日 志文 件 ， 具 体 可 参考 logrotate(8) 手 册 。 


程序 清单 37-3 提供 了 daemon 如 何 使 用 SIGHUP 的 一 个 示例 。 这 个 程序 为 SIGHUP 建立 了 一 
个 处 理 器 20， 然 后 变 成 daemon (3)， 接 着 打开 日 志文 件 @， 最 后 读 取 其 配置 文件 @。SIGHUP 处 理 
器 CD 只 设置 了 一 个 全 局 标记 变量 hubpReceived， 主 程序 会 检查 这 个 变量 。 主 程序 位 于 一 个 循环 中 , E 
每 隔 15 秒 向 日 志文 件 输出 一 条 消息 @。 循 环 中 对 sleep0 的 调用 @ 用 来 模拟 真实 应 用 程序 中 的 某 些 处 
理工 作 。 在 循环 中 每 次 sleep0 返 回 之 后 ， 程 序 会 检查 hupReceived 变量 是 否 被 设置 ()， 如 采 该 变量 
被 设置 了 ， 那 么 程序 就 会 重新 打开 日 志文 件 和 重 狐 读 取 配 置 文件 以 及 清除 hupReceived 标记 。 

限于 篇 幅 ， 程 序 清单 37-3 中 并 没有 给 出 logOpenO0、logClose0、logMessage0 和 readConfigFile() 
国 数 的 实现 ， 但 本 书 的 源 代 但 分 发 包 中 提供 了 这 些 图 数 的 源 代 码 。 其 中 前 面 三 个 函数 所 做 的 
工作 从 其 名 称 中 就 能 看 出 , readConfigFile() 函 数 只 是 简单 地 从 配置 文件 中 读 取 一 行 数 据 并 将 这 
行 数 据 输出 到 日 志文 件 中 。 


一 些 daemon 在 收 到 SIGHUP 信和 号 时 会 使 用 其 他 方法 来 重新 初始 化 目 吴 : 它们 会 关闭 所 
有 文件 ， 然 后 使 用 execO 重 新 启动 自身 。 


下 面 是 运行 程序 清单 37-3 时 可 能 看 到 的 输出 ， 这 里 首先 创建 一 个 哑 配 置 文件 ， 然 后 局 动 
这 个 daemon, 


$ echo START > /tmp/ds.conf 

$ ./daemon SIGHUP 

$ cat /tmp/ds.log View log file 
2011-01-17 11:18:34: Opened log file 

2011-01-17 11:18:34: Read config file: START 


现在 修改 这 个 配置 文件 并 在 问 daemon 发 送 SIGHUP 信和 号 之 前 重 命名 日 志文 件 。 
$ echo CHANGED > /tmp/ds.conf 

$ date + %F %X'; mv /tmp/ds.log /tmp/old ds.log 

2011-01-17 11:19:03 AM 

$ date + %F %X'; killall -HUP daemon SIGHUP 

2011-01-17 11:19:23 AM 



























































$ ls /tmp/*ds.log Log file was reopened 
/tmp/ds.log /tmp/old ds.log 
$ cat /tmp/old ds.log View old log file 


2011-01-17 11:18:34: Opened log file 
2011-01-17 11:18:34: Read config file: START 
2011-01-17 11:18:49: Main: 1 

2011-01-17 11:19:04: Main: 2 

2011-01-17 11:19:19: Main: 3 

2011-01-17 11:19:23: Closing log file 


Is 的 输出 表明 新 旧 日 志文 件 同 时 存在 。 当 使 用 cat 但 看 旧 的 日 志文 件 中 的 内 容 时 可 以 看 出 ， 
即使 使 用 了 mv 命令 来 重 命名 这 个 文件 ，daemon 仍然 会 将 日 志 信息 记录 到 那个 文件 中 。 这 时 
如 果 不 再 需要 这 个 旧 日 忘 文件 ， 丈 可 以 删除 这 个 旧 日 忘 文件 了 。 在 俘 看 新 日 忘 文件 时 会 发 现 
配置 文件 被 重 靳 该 取 了 。 


$ cat /tmp/ds.log 

2011-01-17 11:19:23: Opened log file 

2011-01-17 11:19:23: Read config file: CHANGED 

2011-01-17 11:19:34: Main: 4 

$ killall daemon SIGHUP Kill our daemon 
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在 /Var/log "H, Daemon 程序 通常 


注意 daemon 的 日 志和 配置 文件 通常 会 像 程序 清单 37-3 所 做 的 那样 被 放置 在 标准 目录 中 ， 
而 不 是 /tmp 目录 中 。 按 照 惯例 ,配置 文件 会 NUBE ele 或 它 的 一 个 子 目 录 中 ， 日 志文 件 会 被 放 


(DAE 


程序 清单 37-3: 使 用 SIGHUP 重新 初始 化 一 个 daemon 


634 


OG 


#include <sys/stat.h> 
#include <signal.h> 
#include "become daemon.h" 
#include "tlpi hdr.h" 


static const char *LOG FILE - 


"/tmp/ds.log"; 


static const char *CONFIG FILE - "/tmp/ds.conf"; 


/* Definitions of logMessage(), logOpen(), logClose(), and 
readConfigFile() are omitted from this listing */ 


static volatile sig atomic t 

from 

static void 

sighupHandler(int sig) 
hupReceived - 


int 
main(int argc, char *argv[]) 


const int SLEEP TIME - 15; 


int count - 
int unslept; 
struct sigaction sa; 


sigemptyset(8&sa.sa mask); 
sa.sa flags - SA RESTART; 


hupReceived - 


R PEEM 112 STRE JC br BUT E EUER BRA T EXC 


daemons /daemon SIGHUP.c 


/* Set nonzero on receipt of SIGHUP */ 


/* Time to sleep between messages */ 


/* Number of completed SLEEP TIME intervals */ 
/* Time remaining in sleep interval */ 


sa.sa handler - sighupHandler; 
if (sigaction(SIGHUP, &sa, NULL) -- -1) 


errExit("sigaction"); 


if (becomeDaemon(0) == -1) 
errExit("becomeDaemon"); 


logOpen(LOG FILE); 


readConfigFile(CONFIG FILE); 


unslept - SLEEP TIME; 


for (55) 1 


unslept - sleep(unslept); 


if (hupReceived) { 
logClose(); 


/* If we got SIGHUP... 
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/* Returns > 0 if interrupted */ 


*/ 


logOpen(LOG FILE); 
readConfigFile(CONFIG FILE); 


hupReceived - /* Get ready for next SIGHUP */ 
j 
if (unslept -- 0) { /* On completed interval */ 
count; 
(8) logMessage("Main: Xd", count); 
unslept - SLEEP TIME; /* Reset interval */ 
j 


daemons/daemon SIGHUP.c 


37.5 “使 用 syslog 记录 消息 和 错误 


在 编写 daemon 时 合 到 的 一 个 问题 是 如 何 显 示 错 误 消 县 。 由 于 daemon 是 在 后 台 运 行 的 ， 
因此 通 营 无 法 像 其 他 程序 那样 将 消 县 输出 到 关联 终端 上 。 这 个 问题 的 一 种 解决 方式 是 将 消 县 
写 入 到 一 个 特定 于 应 用 程序 的 日 志文 件 中 ， o 37-3 所 做 的 那样 。 这 种 方式 存在 的 
一 个 主要 问题 是 让 系统 管理 员 管 理 多 个 应 用 程序 日 志文 件 和 监控 其 中 是 否 存在 错误 消息 比较 
困难 ，syslog 工具 束 用 于 解决 这 个 问题 。 


37.5.1 概述 


syslog 工具 提供 了 一 个 集中 式 日 志 工 具 , 系统 中 的 所 有 应 用 程序 都 可 以 使 用 这 个 工具 来 记 
录 日 志 消 息 。 图 37-1 提供 了 这 个 工具 的 一 个 概览 。 


printk() systog( 3) 
































syslog( 2), /proc/kmsg TCP/IP 网 络 


ll 
hlogd | ) 


/dev/log — | UDP 端口 514 


了 JP 
$7) UNIXdomain Internet domain 


datagram socket datagram socket 


“= syslogd 









配置 文件 
syslog.conf 





wa FIFO 磁盘 ”远程 已 登录 


控制 各 文件 主机 用 户 


图 37-1: 系统 日 志 概 览 


syslog 工具 有 两 个 主要 组 件 : syslogd daemon 和 syslog(3) 库 函数 。 
System Log daemon syslogd 从 两 个 不 同 的 源 接收 日 志 消 奶 : 一 个 是 UNIX domain socket 
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/devlog， 它 保存 本 地 产生 的 消息 ; 另 一 个 是 Internet domain socket CUNP 端口 S14， 如 果 启 用 
的 话 )， 它 保存 通过 TCP/IP 网 络 发 送 的 消息 。( 在 其 他 一 些 UNIX KIF, syslog socket 位 于 
/varrun/log 。) 

每 条 由 syslogd 处 理 的 消息 都 具备 几 个 特性 ， 其 中 包括 一 个 facility， 它 指定 了 产生 消息 的 
程序 类 型 ， 还 有 一 个 是 level， 它 指定 了 消息 的 严重 程度 〈 优 先 级 )。syslogd daemon 会 检查 每 
条 消息 的 facility 和 level， 然 后 根据 一 个 相关 配置 文件 /etc/syslog.conf 中 的 指令 将 消 县 传递 到 
几 个 可 能 目的 地 中 的 一 个 。 可 能 的 目的 地 包括 终 问 或 虚拟 控制 台 、 破 盘 文 件 、FIFO、 一 个 或 
多 个 《或 所 有 ) 登录 过 的 用 户 以 及 位 于 另 一 个 系统 上 的 通过 TCP/IP 网 络 连 接 的 进程 〈 通 第 是 
另 一 个 syslogd daemon)。( 将 消息 发 送 到 另 一 个 系统 上 的 进程 有 助 于 通过 将 多 个 系统 中 的 日 志 
言 县 集中 到 一 个 位 置 以 降低 管理 负担 。) 一 条 消息 可 以 被 发 送 到 多 个 目的 地 《或 不 发 送 到 任何 
目的 地 )， 具 备 不 同 的 facility 和 level 组 合 的 消息 可 以 被 发 送 到 不 同 的 目的 地 或 不 同 的 目的 地 
实例 《〈 即 不 同 的 控制 台 、 不 同 的 磁盘 文件 等 )。 


























通过 TCP/IP 网 络 将 syslog 消息 发 送 到 太一 个 系统 还 有 助 于 发 现 系 统 非法 入 侵 。 非 法 入 
侵 通 津 会 在 系统 日 志 中 留 下 踪迹 ,但 攻击 者 通常 会 删除 日 志 记 录 以 掩盖 他 们 的 行为 。 有 了 远 
程 日 忘记 录 之 后 ， 攻 击 者 束 需 要 侵入 妨 一 个 系统 才能 删除 日 记 记 录 。 




















通常 ， 任 意 进程 都 可 以 使 用 syslog(3) 库 函数 来 记录 消息 。 这 个 函数 会 使 用 传 入 的 参数 以 
标准 的 格式 构建 一 条 消息 , 然后 将 这 条 消息 写 入 /dev/log socket 以 供 syslogd 读 取 , 本章 稍 后 就 
会 介绍 这 个 函数 。 

/dev/log 中 的 消息 的 另 一 个 来 源 是 Kernel Log daemon klogd， 它 会 收集 内 核 日 志 消 息 〈 内 
核 使 用 printkO 函 数 生成 的 消息 )。 这 些 消 息 的 收集 可 以 通过 两 个 等 价 的 Linux 特有 的 接口 中 的 
一 个 来 完成 〈 即 /proc/kmsg 文件 和 syslog(2) 系 统 调 用 )， 然 后 使 用 syslog(3) 库 函数 将 它们 写 入 
/dev/log。 

















尽管 syslog(2) 和 syslog(3) 的 名 称 相 同 ， 但 它们 执行 的 任务 是 不 同 的 。glibc 提供 了 一 个 
调用 syslog(2) 的 接口 , 其 名 称 为 klogctl0 ,除非 特别 指出 , 本 市 中 的 syslog0) 指 的 是 syslog(3)。 





syslog 工 上 其 原先 出 现在 4.2BSD 中 ， 但 现在 几乎 所 有 的 UNIX 实现 都 提供 了 这 个 工具 。 
SUSv3 对 syslog(3) 和 相关 水 数 进 行 了 标准 化 ， 但 并 没有 规定 syslogd 的 实现 和 操作 以 及 
syslog.conf 文件 的 格式 .Linux 中 syslogd 的 实现 与 它 原先 在 BSD 的 实现 的 不 同 之 处 在 于 Linux 
允许 对 在 syslog.conf 中 指定 的 消息 处 理 规则 进行 一 些 扩展 。 


37.5.2 syslog API 
syslog API 由 以 下 三 个 主要 函数 构成 。 
e openlog0 函 数 为 后 续 的 的 syslog0) 调 用 建立 了 默认 设置 。syslog() 的 调用 是 可 选 的 ， 如 
果 省 略 了 这 个 调用 ， 那 么 就 会 使 用 冯 次 调用 syslogO0 时 采用 的 默认 设置 来 建立 到 日 志 
记录 工具 的 连接 。 
e syslogOrK Ziridoi — A Hes o 
e 当 完 成 日 志 记 录 消 息 之 后 需要 调用 closelog() 函 数 拆 除 与 日 志 之 间 的 连接 。 
所 有 这 些 图 数 都 不 会 返回 一 个 状态 值 , 这 是 因为 系统 日 六 服务 应 该 总 是 处 于 可 用 状态 ( 系 
统管 理 员 应 该 在 服务 不 可 用 时 立即 能 发 现 这 个 问题 )。 此 外 ， 如 宁 在 系统 记录 日 忘 的 过 程 中 友 
生 了 一 个 错误 ， 应 用 程序 通常 也 无 法 做 更 多 的 事情 来 报告 这 个 错误 。 
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GNU C 库 还 提供 了 函数 void vsyslog(int priority, const char*format, va list args). X^] Pf 
数 所 做 的 工作 与 syslog0 一 样 ， 但 接收 之 前 由 stdarg(3) API 处 理 的 一 个 参数 列表 。( 因 此 
vsyslog0 之 于 syslog0 就 像 vprintf0 之 于 printf).) SUSv3 并 没有 规定 vsyslog()， 并 且 所 有 的 
UNIX 实现 都 没有 提供 这 个 函数 。 


建立 一 个 到 系统 日 志 的 连接 


openlog0 函 数 的 调用 是 可 选 的 ， 它 建 立 一 个 到 系统 日 志 工 具 的 连接 并 为 后 续 的 syslog0 调 
用 设置 默认 设置 


#include «syslog.h» 














void openlog(const char *zdent, int log options, int facility); 











ident 参数 是 一 个 指 问 字 符 串 的 指针 ，syslog0 输 出 的 每 条 消 因 都 会 包含 这 个 字符 串 ， 这 个 
参数 的 取 值 通常 是 程序 名 。 注 意 openlogO0 仅 仅 是 复制 了 这 个 指针 的 值 。 只 要 应 用 程序 后 面 会 
继续 调用 syslog()， 奢 么 束 应 该 人 确保 不 会 修改 所 引用 的 字符 串 。 











如 果 ident 的 值 为 NULL， 那 么 与 其 他 一 些 实现 一 样 ，glibc syslog 实现 会 自动 将 程序 名 
作为 ident 的 值 。 但 SUSv3 并 没有 要 求实 现 这 个 功能 , 一 些 实现 也 没有 提供 这 个 功能 。 可 移 
植 的 应 用 程 不 应 该 依赖 于 这 个 功能 。 








传 入 openlog0 的 log options 参数 是 一 个 位 掩 人 码 ， 它 是 下 和 面 儿 个 常量 之 间 的 OR fie 


LOG_CONS 
当 问 系统 日 六 发 送 消息 发 生 错误 时 将 消息 号 入 到 系统 控制 合 〈/dev/console )。 
LOG_NDELAY 


立即 打开 到 日 志 系 统 的 连接 〈 即 底层 的 UNIX domain socket，/dewlog)。 在 默认 情况 下 
(LOG _ ODELAY)， 只 有 在 首次 使 用 syslogO 记 录 消 上 息 的 时 候 才 会 打开 连接 。O_NDELAY 标记 
对 于 那些 需要 精确 控制 何 时 为 /dewlog 分 配 文件 摘 述 符 的 程序 来 讲 是 比较 有 用 的 ， 如 调用 
chrootO 的 程序 就 有 这 样 的 要 求 。 在 调用 chroot) Z), /dev/log 路 径 名 将 不 再 可 见 ， 因 此 在 
chrootO0 之 前 需要 调用 一 个 指定 了 LOG NDELAY 的 openlog(). tftpd daemon (Trivial File 
Transfer) 就 因为 上 述 的 原因 而 使 用 了 LOG NDELAY. 




















LOG_NOWAIT 

不 要 waitO 被 创建 来 记录 日 志 消 息 的 子 进程 。 在 那些 创建 子 进 程 来 记录 日 志 消 息 的 实现 
上 ， 当 调用 者 创建 并 等 竺 子 进 程 时 束 需 要 使 用 LOG_NOWAIT 了 ， 这 样 syslog() 束 不 会 试图 等 
待 已 经 被 调用 者 销毁 的 子 进程 。 在 Linux E, LOG NOWAIT 不 起 任何 作用 ， 因 为 在 记录 日 志 
消息 时 不 会 创建 子 进程 。 
LOG ODELAY 

这 个 标记 的 作用 与 LOG NDELAY 相反 一 一 连接 到 日 六 系统 的 操作 会 被 延迟 全 记录 第 一 
条 消息 时 。 这 是 默认 行为 ， 因 此 无 需 指 定 这 个 标记 。 
LOG_PERROR 

将 消息 写 入 标准 错误 和 系统 日 志 。 通 常 ，daemon 进程 会 关闭 标准 错误 或 将 其 重 定 向 到 
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/dev/null, ixff LOG PERROR 就 没有 用 了 。 


LOG PID 

在 每 条 消息 中 加 上 调用 者 的 进程 DDD。 在 一 个 创建 多 个 子 进程 的 服务 器 中 使 用 LOG. PID 
有 助 于 区 分 哪个 进程 记录 了 某 条 特定 的 消息 。 

SUSv3 规定 了 上 面 除 LOG_ PERROR 之 六 的 所 有 稼 量 ， 但 很 多 其 他 《〈 不 是 全 部 ) UNIX K 
现 都 定义 了 LOG PERROR 常量 。 

传 入 openlog0 的 facility 参数 指定 了 后 续 的 syslogO 调 用 中 使 用 的 默认 的 facility 值 。 表 
37-1 列 出 了 这 个 参数 的 可 取 值 。 


表 37-1: openlog() 的 facility 值 和 syslog() 的 priority 参数 























值 SUSv3 
LOG_AUTH 安全 和 验证 消息 〈 如 su) @ 
LOG AUTHPRIV | 私有 的 安全 和 验证 消息 

LOG_CRON K H cron 和 at daemons 的 消息 e 
LOG DAEMON 来 自 其 他 系统 daemon 的 消息 e 
LOG FTP 来 目 ftp daemon 的 消息 〈ftpd) 

LOG KERN 内 核 消 县 《用 户 进 程 无 法 生成 此 类 消息 ) @ 
LOG LOCALO 保留 给 本 地 使 用 (包括 LOG LOCALI 到 LOG LOCAL?) e 
LOG LPR 来 自行 打印 机 系统 的 消息 Apr, Ipd, Ipe) e 
LOG MAIL K H ITE ZR ERES ES Ae. e 
LOG NEWS 与 Usenet 网 络 新 闻 相 关 的 消息 e 
LOG SYSLOG 来 自 syslogd daemon 的 消息 

LOG USER 用 户 进程 〈 默 认 值 ) PERKISHTR E e 
LOG UUCP KA UUCP 系统 的 消息 @ 





表 37-1 中 列 出 的 facility 值 的 大 部 分 都 在 SUSv3 中 进行 了 定义 , 如 表 中 的 SUSv3 列 所 示 ， 
fH LOG. AUTHPRIV 4l LOG _ FTP 只 出 现在 了 一 些 UNIX 实现 中 , LOG SYSLOG 则 在 大 多 数 
实现 中 都 存在 。 当 需要 将 包含 密 但 或 其 他 敏感 信息 的 日 忘 消息 记录 到 一 个 与 LOG_AUTH 指定 
的 位 置 不 同 的 位 置 上 时 ，LOG AUTHPRIV 值 是 比较 有 用 的 。 

LOG KERN facility 值 用 于 内 核 消 朋 。 用 户 空 间 的 程序 是 无 法 用 这 个 工具 记录 日 忘 消 忆 
的 。LOG KERN 当量 的 值 为 0。 如 果 在 syslogO 调 用 中 使 用 了 这 个 音量 ， 那 么 0 被 翻 详 成 了 “使 
用 默认 的 级 别 ” 


























要 写 入 一 条 日 志 消 息 可 以 调用 syslog0。 


include «syslog.h» 











void syslog(int priority, const char *format, ...); 


priority 参数 是 facility 值 和 level 值 的 OR 值 。facility 表示 记录 日 志 消 恩 的 应 用 程序 的 类 
zj CHUA 37-1 中 列 出 的 值 中 的 一 个 。 如 本 省 略 了 这 个 参数 ， 那 么 facility KREN Bl 
面 一 个 openlog0 调 用 中 指定 的 facility 值 ， 或 者 当 那 个 调用 中 也 省 略 了 facility 值 的 话 为 
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LOG USER. level 表示 消息 的 严重 程度 ， 其 取 值 为 表 37-2 中 列 出 的 值 中 的 一 个 。 这 张 表 中 列 
出 的 所 有 值 都 在 SUSv3 进行 了 定义 。 


X 37-2: syslog() 中 priority 参数 的 level 值 (严重 性 从 最 高 到 最 低 ) 








值 描 jÈ 
LOG EMERG Em AGI TUS CASES HERI T 
LOG ALERT 需要 立即 处 理 的 情况 〈 如 破坏 了 系统 数据 库 ) 
LOG CRIT AT ORR e Ac E ER VA 
LOG ERR 常规 错误 情况 
LOG WARNING 警告 
LOG NOTICE 可 能 需要 特殊 处 理 的 普通 情况 
LOG INFO 情报 性 消息 
LOG DEBUG 调试 消息 


为 一 个 传 入 syslogO 的 参数 是 一 个 格式 字符 串 以 及 相应 的 参数 , 它们 与 传 入 printftO) 中 的 参 
数 是 一 样 的 ， 但 与 printf0 不 同 的 是 这 里 的 格式 字符 串 不 需要 包含 一 个 换行 字符 。 此 外 ， 格 式 
字符 串 还 可 以 包含 双 字 人 符 序列 %m， 在 调用 的 时 候 这 个 序列 会 被 与 当前 的 ermo 值 对 应 的 错误 
字符 串 《〈 即 等 价 于 strerror(errno)) 所 替换 。 

下 面 的 代码 演示 了 openlog0 和 syslog0 的 用 法 。 

openlog(argv[0], LOG PID | LOG CONS | LOG NOWAIT, LOG LOCALO); 

syslog(LOG ERROR, "Bad argument: 5s", argv[1]); 

syslog(LOG USER | LOG INFO, "Exiting"); 

由 于 在 第 一 个 syslog0 调 用 中 并 没有 指定 facility, 因此 将 会 使 用 openlog0 调 用 中 的 默认 什 
(LOG LOCAL0)。 在 第 二 个 syslogO 调 用 中 显 式 地 指定 了 LOG USER PRERA mi openlog() 
调用 中 设置 的 稚 认 但 。 

在 shell 中 可 以 使 用 logger() 命 令 来 向 系统 日 志 中 添加 条 目 。 这 个 命令 允许 指定 与 日 志 
消息 相关 的 level (priority) 和 ident (tag)， 更 多 细节 可 参考 logger(1) 手 册 。SUSv3 规定 了 
logger 命令 《并 没有 进行 全 面 定义 )， 大 多 数 UNIX 实现 都 实现 了 这 个 命令 。 


像 下 面 这 样 使 用 syslog0 写 入 一 些 用 户 提供 的 字符 串 是 错误 的 。 

syslog(priority, user supplied string); 

上 面 这 段 代 人 码 存在 的 问题 是 应 用 程序 会 面临 所 谓 的 格式 字符 串 攻 击 。 如 采用 户 提 供 的 字 
从 串 中 包含 格式 指示 从 “如 %s)， 那 么 结果 将 是 不 可 预测 的 ， 从 安全 的 角度 来 讲 ， 这 种 结果 可 
能 是 上 其 有 人 破坏 性 的 。( 这 个 结论 也 同样 适用 于 传统 的 printftO) 函 数 。) 因此 需要 将 上 面 的 调用 重 
写 为 下 面 这 样 。 


syslog(priority, "5s", user supplied string); 









































XB] BS 
当 完 成 日 忘记 录 之 后 可 以 调用 closelog() 来 释放 分 配给 /dev/log socket 的 文件 摘 述 符 。 


#include «syslog.h» 








void closelog(void); 
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由 于 daemon 通常 会 持续 保持 与 系统 日 记 之 间 的 连接 的 打开 状态 ， 因 此 通常 会 省 略 对 
closelog() 的 调用 。 


过 滤 日 4^ 志 消 息 IU 
setlogmask() PK Zi i e T —^ Bei ys FH syslogO 5 ATI TH EAS] 46504 














include «syslog.h» 


int setlogmask(int mask priority); 


Returns previous log priority mask 











所 有 level 4E 5 Bt B5)36: 03 v EE PARRER. AARE Ao YF OK PH HB P Rc 
性 级 别 。 

宏 LOG MASK() (在 <syslog.h> 中 定义 ) 会 将 表 37-2 中 的 level 值 转换 成 适合 传 入 
setlogmask( 的 位 值 。 如 要 丢弃 除 优先 级 为 LOG. ERR. 以 及 以 上 之 外 的 消息 时 可 以 使 用 下 面 的 
调用 。 

setlogmask(LOG MASK(LOG EMERG) | LOG MASK(LOG ALERT) | 

LOG MASK(LOG CRIT) | LOG MASK(LOG ERR)); 

SUSv3 规定 了 LOG MASK(Z. X3 UNIX 实现 (包括 Linux). 还 提供 了 标准 中 未 规 
定 的 LOG_UPTOO 宏 。 它 创建 一 个 能 过 小 特定 级 别 以 及 以 上 的 所 有 消 奶 的 位 掩 码 。 使 用 这 个 
宏 能 够 将 前 面 的 setlogmaskO 调 用 人 简化 成 下 面 这 个 。 

setlogmask(LOG UPTO(LOG ERR)); 








37.5.3 J/etc/syslog.conf 文件 


letc/syslog.conf 配置 文件 控制 syslogd daemon JE. 3x XC F BREE CERE TANE 
打头 ) 构成 。 规 则 的 形式 如 下 所 示 。 








facility . level action 





facility 和 level HEE -ERRA Ave I MHA As NET Y E 
是 与 表 37-1 和 表 37-2 中 的 值 对 应 的 字符 串 。action 指定 了 与 选择 器 匹配 的 消息 被 发 送 到 何 处 。 
X TÉRRA action Z PHH TATEM. TAER]. 








*.err / dev/tty10 
auth.notice root 
* .debug;mail.none;news.none -/var/log/messages 








第 一 条 规则 表示 来 目 所 有 工具 Œ) 的 level 为 err (LOG_ERR) z& S e EE E SS ETC 
送 到 /dewtty10 控制 台 设 备 上 。 第 二 条 规则 表示 来 目 验 证 工具 (LOG_AUTH) 的 level 为 notice 
(LOG NOTICE) 或 更 高 的 消息 应 该 被 发 送 到 root 登录 的 所 有 控制 台 和 终端 。 如 这 个 特别 的 规 
则 允许 一 个 登录 的 root 用 户 立 即 看 到 失败 的 su Fio 

最 后 一 条 规则 演示 了 规则 语法 中 的 几 个 高 级 特性 。 一 个 规则 可 以 包含 多 个 选择 器 ， 选 择 需 
之 间 用 分 号 隔 开 。 第 一 个 选择 器 指定 了 所 有 的 消息 ， 它 使 用 * 通 配 符 表 示 facility 并 将 level 的 值 
指定 为 debug， 这 意味 看 所 有 级 别 为 debug (最低 的 级 别 ) 以 及 更 高 的 消 县 都 会 被 记录 下 来 。( 在 
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Linux 以 及 其 他 一 些 UNIX 实现 中 ， 可 以 将 level 指定 为 *， 其 含义 与 debug 是 一 样 的 。 但 不 是 所 
有 的 syslog 实现 都 支持 这 个 特性 。) 通常 ， 一 个 包含 多 个 选择 器 的 规则 会 匹配 与 其 中 任意 一 个 选 
择 器 对 应 的 消 县 ， 但 当 将 level 设置 为 none 时 则 表示 排除 所 有 属于 相应 的 facility 的 消 县 。 因 此 
这 条 规则 将 除 来 自 mail 和 news 工具 的 消息 之 外 的 所 有 消息 发 送 到 /varlog/messages 文件 中 。 文 
件 名 前 面 的 连接 符 〈-) 表示 无 需 每 次 写 入 文件 时 都 将 文件 同步 到 人 磁盘“〈 参 见 13.3 节 )。 这 意 
味 看 号 入 操作 将 变 得 更 快 ， 但 如 果 系 统 在 写 入 之 后 朋 溃 的 话 可 能 会 丢失 一 些 数据 。 

每 次 修改 syslog.conf 文 件 之 后 都 需要 使 用 下 面 的 方式 让 daemon 根据 这 个 文件 重新 初始 化 
HE. 


$ killall -HUP syslogd Send. SIGHUP to syslogd 























syslog.conf 规则 语法 的 高 级 特性 允许 编写 比 前 面 介绍 的 更 加 强大 的 规则 ， 更 多 细节 可 
参考 syslog.conf(S) 手 册 。 


37.6 iR 


daemon 是 一 个 长 时 间 运 行 并 且 没 有 控制 终端 的 进程 ( 即 它 运行 在 后 台 )。daemon 执行 特 
定 的 任务 ， 如 提供 一 个 网 络 登 录 工 具 或 服务 Web 页 面 。 一 个 程序 要 成 为 daemon 需要 按 序 执 
行 一 组 步骤 ， 包 括 调用 forkO 和 setsid(). 

daemon 应 该 在 合适 的 地 方正 确 地 处 理 SIGTERM 和 SIGHUP 信号 。SIGTERM 信和 号 的 处 
理 方式 应 该 是 按 序 关闭 这 个 daemon, m SIGHUP 信号 则 提供 了 一 种 机 制 让 daemon 通过 该 取 
器 配置 文件 并 重新 打开 所 使 用 的 所 有 日 志文 件 来 重新 初始 化 目 身 。 

syslog 工具 为 daemon 〈 以 及 其 他 应 用 程序 ) 提供 了 一 种 便捷 的 方式 来 将 错误 和 其 他 消息 
记录 到 一 个 中 心 位 置 。 这 些 消息 由 syslogd daemon 处 理 ，syslogd 会 根据 syslogd.conf 配置 文件 
中 的 指令 来 重新 分 发 消息 。 可 以 将 消息 重新 分 发 到 几 个 目标 上 ， 包 括 终端 、 磁 盘 文 件 、 登 ; 
的 用 户 以 及 通过 TCP/IP 网 络 分 发 到 远程 主机 上 的 进程 中 (通常 是 其 他 syslogd daemon). 


更 多 信息 
有 关 编 写 daemon 的 更 多 信息 的 最 住 来 源 可 能 束 是 各 种 妹 有 daemon 的 源 代码 。 



































37.7 2]&M 


37-1: ”编写 一 个 使 用 syslog(3) 的 程序 〈 与 logger(1) 关 似 ) 来 将 任意 的 消 恩 写 入 到 系统 日 忘 
文件 中 。 程序 应 该 接收 包含 如 记录 到 日 志 中 的 消息 的 命令 行 参 数 ， 同 时 应 该 允许 指 
定 消息 的 level. 
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编写 安全 的 特权 程序 











特权 程序 能 够 访问 普通 用 户 无 法 访问 的 特性 和 资源 (文件 设备 每 )。 一 个 程序 可 以 通过 下 
面 网 种 方式 以 特权 方式 运行 。 

。 程序 在 一 个 特权 用 户 ID 下 启动 , 很 多 daemon 和 网 络 服务 器 通常 以 root 号 份 运行 ， 它 

们 束 属 于 这 种 类 别 。 

e 程序 设置 了 set-user-ID 或 set-group-ID 权限 位 。 当 一 个 set-user-ID (set-group-ID) 程 
序 被 执行 之 后 ， 它 会 将 进程 的 有 效用 户 “〈 组 ) ID 修改 为 与 程序 文件 的 所 有 者 (组 ) 一 
样 的 ID. CE 9.3 节 中 首次 对 set-user-ID 和 set-group-ID 程序 进行 了 介绍 。) 在 本 章 中 
有 时 候 会 使 用 术语 set-user-ID-root 区 分 将 超级 用 户 权限 赋 给 进程 的 set-user-ID 程序 与 
赋 给 进程 另 一 个 有 效 身 份 的 程序 。 

如 条 一 个 特权 程序 包含 bug 或 可 以 被 恶意 用 户 破 坏 ， 那 么 系统 或 应 用 程序 的 安全 性 就 会 
受到 影响 。 从 安全 的 角度 来 讲 ， 在 编写 程序 的 时 候 应 该 将 系统 受到 安全 威胁 的 可 能 性 以 及 受 
到 安全 威胁 时 产生 的 损失 降 到 最 小 。 本 革 将 对 这 些 课题 进行 讨论 ， 并 提供 了 一 组 编写 安全 程 
序 的 推荐 实践 ， 同 时 介绍 了 在 编写 特权 程序 时 应 该 避免 的 各 种 陷阱 。 























38.1 是 否 需 要 一 个 Set-User-ID 或 Set-Group-ID 程序 


有 关 编 写 set-user-ID 和 set-group-ID 程序 的 最 佳 建 议 中 的 一 条 束 是 尽量 避免 编写 这 种 程 
序 。 在 执行 一 个 任务 时 如 条 存在 无 需 赋 给 程序 权限 的 方法 ， 那 么 一 般 来 讲 应 该 采用 这 种 方法 ， 
因为 这 样 就 消除 了 发 生 安全 性 问题 的 可 能 。 

有 了 时候 可 以 将 需要 权限 才能 完成 的 功能 拆 分 到 一 个 只 执行 单个 任务 的 程序 中 ， 然 后 在 需 
要 的 时 候 在 子 进程 中 执行 这 个 程序 。 对 于 库 来 讲 ， 这 项 技术 是 特别 有 用 的 。64.2.2 节 中 介绍 的 
pt chown FEF WKH TAMER. 

即使 有 时 候 需 要 set-user-ID 或 set-group-ID 权限 ， 对 于 一 个 set-user-ID 程序 来 讲 也 并 不 总 
是 需要 赋 给 进程 root 身份 。 如 果 赋 给 进程 其 他 一 些 身 份 已 经 足够 ， 那 么 就 应 该 采用 这 种 方法 ， 
因为 以 root 权限 运行 可 能 会 引起 安全 性 问题 。 

假设 一 个 set-user-ID 程序 需要 允许 用 户 更 新 一 个 它 没有 写 权 限 的 文件 ， 那 么 解决 这 个 问 
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题 的 一 种 更 加 安全 的 方式 是 为 这 个 程序 创建 一 个 专用 组 账号 (组 ID), 然后 将 文件 所 属 的 组 修 
改 为 那个 组 (即使 得 该 组 中 的 成 员 能 够 号 入 该 文件 )， 接 看 编写 一 个 将 进程 的 有 效 组 ID 设置 
为 该 专用 组 ID 的 set-user-ID 程序 。 由 于 这 个 专用 的 组 ID 没有 其 他 权限 ， 因 此 能 够 极 大 地 限 
制程 序 包 含 Bug 或 被 破坏 时 所 造成 的 损失 。 





38.2 以 最 小 权限 操作 


set-user-ID ( 3, set-group-ID) 程序 通常 只 有 在 执行 特定 操作 的 时 候 才 需要 权限 ， 因 此 在 程 
序 〈 特 别 是 那些 拥有 超级 用 户 权 限 的 程序 ) 执行 其 他 工作 时 应 该 禁用 这 些 权 限 ， 同 时 如 果 之 
后 永远 也 不 会 请 求 这 项 权限 时 束 应 该 永久 删除 这 项 权限 。 换 句 话 说， 程序 应 该 总 是 使 用 完成 
当前 所 执行 的 任务 所 需 的 最 小 权限 来 操作 ，saved 的 set-user-ID 工具 就 是 为 此 而 设计 的 (参见 
9.4 cH). 

















按 需 拥有 权限 


在 set-user-ID 程序 中 可 以 使 用 下 面 的 seteuidO 调 用 序列 来 临时 删除 并 在 之 后 重新 获取 
权限 。 


uid t orig euid; 








orig euid - geteuid(); 
if (seteuid(getuid()) -- -1) /* Drop privileges */ 
errExit("seteuid"); 


/* Do unprivileged work */ 


if (seteuid(orig euid) == -1) /* Reacquire privileges */ 
errExit("seteuid"); 


/* Do privileged work */ 


第 一 个 调用 使 调用 进程 的 有 效用 户 ID ERREK DD。 第 二 个 调用 将 有 效用 户 ID 还 原 成 
saved set-user-ID 程序 中 保存 的 值 。 

对 于 set-group-ID 程序 来 讲 , saved set-group-ID 会 保存 程序 的 初始 有 效 组 ID, 并且 setegid( 
可 以 用 来 删除 和 重新 获取 权限 。 第 9 草 对 在 下 面 的 建议 中 提 到 的 seteuid()、setegid()、 以 及 类 
似 的 系统 调用 进行 了 介绍 ， 表 9-1 对 它们 进行 了 总 结 。 

最 安全 的 作法 是 在 程序 局 动 的 时 候 立 即 删 除权 限 ， 然 后 在 后 面 需要 的 时 候 临 时 重新 获得 
这 些 权 限 。 如 果 在 某 个 特定 的 时 刻 之 后 永远 不 会 再 次 请 求 权 限时 ， 那 么 程序 应 该 删除 这 些 权 
限 ， 并 通过 确保 saved set-user-ID 的 变更 来 保证 程序 无 法 再 请 求 这 些 权 限 。 这 样 就 消除 了 通过 
第 38.9 市 中 介绍 的 栈 骨 演技 术 来 让 程序 重新 要 求 权 限 的 可 能 。 





















































在 无 需 使 用 权限 时 永久 地 删除 权限 


如 果 set-user-ID 或 set-group-ID 程序 完成 了 所 有 需要 权限 的 任务 , 那么 它 应 该 永久 地 删除 
这 些 权限 以 消除 任何 由 于 程序 中 包含 bug 或 其 他 意料 之 外 的 行为 而 可 能 引起 的 安全 风险 。 永 
久 删 除权 限 是 通过 将 所 有 进程 用 户 (组 ) ID 重 置 为 真实 (组 ) ID 来 完成 的 。 

对 于 一 个 当前 有 效用 户 ID 为 0 的 set-user-ID-root 程序 来 讲 ， 可 以 使 用 下 面 的 代码 来 重 置 
所 有 的 用 户 ID. 
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if (setuid(getuid()) == -1) 
errExit("setuid"); 
当 调用 进程 的 当前 有 效用 户 ID 为 非 零 时 ， 上 面 的 代码 不 会 重 置 saved set-user-ID: 当 在 一 
个 有 效用 户 ID 不 为 零 的 程序 中 发 起 调用 时 ，setuidO 只 会 修改 有 效用 户 ID (参见 9.7.1 节 )。 
换 名 话说， 在 一 个 set-user-ID-root 程序 中 ， 下 面 的 调用 序列 不 会 永久 地 删除 用 户 ID 0。 


/* Initial UIDs: real-1000 effective-0 saved=0 */ 





/* 1. Usual call to temporarily drop privilege */ 


orig euid - geteuid(); 
if (seteuid(getuid() == -1) 
errExit("seteuid"); 


/* UIDs changed to: real-1000 effective-1000 saved=0 */ 
/* 2. Looks like the right way to permanently drop privilege (WRONG!) */ 


if (setuid(getuid() -- -1) 
errExit("setuid"); 


/* UIDs unchanged: real-1000 effective-1000 saved=0 */ 
相反 ， 在 永久 删除 权限 乙 前 必须 要 重新 获取 权限 ， 这 可 以 通过 将 下 面 的 调用 本 入 到 前 面 
的 第 1 步 和 第 2 步 之 间 即 可 。 


if (seteuid(orig euid) == -1) 
errExit("seteuid"); 


男 一 方面 ， 如 果 一 个 非 root HIA T setuser-ID 程序 ， 那 么 由 于 setuid0 不 足以 修改 
set-user-ID 标识 符 ， 因 此 必须 要 使 用 setreuid() 或 setresuid0 来 永久 地 删除 特权 标识 符 。 例 如 ， 
可 以 使 用 setreuid() 来 获得 预期 的 结果 ， 如 下 所 示 。 

if (setreuid(getuid(), getuid()) == -1) 

errExit("setreuid"); 

上 面 的 代码 依赖 于 Linux 实现 中 的 setreuid0 特 性 : n RSS 5X (uid) 不 是 -1， 那 么 
saved set-user-ID 也 会 被 设置 成 〈 新 ) 有 效用 户 ID. SUSv3 并 没有 规定 这 个 特性 ， 但 很 多 其 他 
实现 的 行为 方式 与 Linux 是 一 样 的 。 

在 set-group-ID 程序 中 永久 地 删除 一 个 特权 组 ID 同样 必须 要 使 用 setregid0 或 setresgidO 
系统 调用 ， 因 为 当 程 序 的 有 效用 户 ID 不 为 零 时 ，setgidO0 只 会 修改 调用 进程 的 有 效 组 ID. 


修改 进程 身份 信息 的 注意 事项 


前 面 几 小 节 介 绍 了 临时 和 永久 删除 权限 的 技术 。 下 面 介 绍 有 关 使 用 这 些 技术 时 的 一 些 注 
意 事 项 。 

e 一 些 修 改进 程 身 份 信 息 的 系统 调用 在 不 同系 统 上 的 语义 是 不 同 鸭 。 此 外 ， 此 类 系统 调 
用 中 的 一 些 在 调用 者 是 特权 进程 时 (有 效用 户 ID 为 0) 与 非特 权 进 程 时 表现 出 来 的 语 
义 是 不 同 的 。 更 多 细节 信息 可 参考 第 9 E, 特别 是 9.7.4 T. BH T ETEXXES25 8, [Tsafrir 
et al., 2008] 建 议 应 用 程序 应 该 使 用 系统 特有 的 非 标准 系统 调用 来 修改 进程 的 喘 份 信息 ， 
因为 在 很 多 情况 下 ， 这 些 非 标准 系统 调用 比 与 其 对 应 的 标准 系统 调用 提供 了 更 加 简单 
和 一 致 的 语义 。 在 Linux 上 ， 这 表示 需要 使 用 setresuid0 和 setresgid() 来 修改 用 户 和 组 
里 份 信息 。 尽 管 并 不 是 所 有 的 系统 都 提供 了 这 些 系统 调用 ， 但 使 用 它们 会 降低 发 生 错 
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误 的 可 能 性 。([Tsafrir et aL, 2008] 提 供 了 一 个 函数 库 ， 其 中 的 函数 会 使 用 各 个 平 侣 上 
可 用 的 最 佳 接 口 来 修改 映 份 信息 。) 

e 在 Linux 上 ,即使 调用 者 的 有 效用 户 ID 为 0， 修改 身份 信息 的 系统 调用 在 程序 显 式 地 
操作 其 能 力 时 也 可 能 会 表现 出 意料 之 外 的 行为 。 如 ， 如 果 禁 用 了 CAP SETUID 能 
那么 修改 进程 用 户 ID 将 会 失败 ， 甚 至 更 糟 的 是 ， 它 会 晤 无 征兆 地 只 修改 其 中 一 些 需 
修改 的 用 户 ID. 

e 由 于 存在 前 面 两 种 可 能 性 ， 因 此 强烈 建议 在 实践 中 (参见 [Tsafrir et al., 2008]) 不 仅 需 
要 检查 一 个 修改 身份 信息 的 系统 调用 是 否 成 功 ， 还 需要 验证 修改 行为 是 否 如 预期 的 那 
样 。 例 如 如 果 使 用 seteuidO EST I s eX RES — T RERUM P! ID， 那 么 接着 应 该 使 用 
一 个 geteuidO 调 用 来 验证 有 效用 户 ID 是 否 为 预期 值 。 类 似 地 ， 如 果 永 久 删 除了 一 个 
特权 用 户 DDD， 那么 接着 应 该 验证 真实 用 户 ID、 有 效用 户 ID 以 及 saved set-user-ID 已 
经 被 成 功 地 修改 为 非特 权 用 户 DD。 遗 憾 的 是 ， 虽 然 存 在 获取 真实 和 有 效 ID 的 标准 系 
统 调用 ， 但 不 存在 获取 saved set IDs 的 标准 系统 调用 。Linux 和 其 他 一 些 系统 提供 了 
getresuid() 和 getresgid() 来 解决 这 个 问题 ， 在 其 他 一 些 系 统 上 则 可 能 需要 使 用 诸如 解析 
/proc 文件 中 的 信息 之 类 的 技术 来 解决 这 个 问题 。 

。 一 些 身份 信 息 的 变更 只 能 由 有 效用 户 ID 为 0 的 进程 来 完成 。 因 此 在 修改 多 个 ID 时 一 一 
辅助 组 ID、 组 ID 和 用 户 也 一 一 先 删 除 特权 ID， 最 后 再 删除 特权 有 效用 户 ID. THN 
地 ， 在 提升 特权 ID 时 应 该 先 提升 特权 有 效用 户 ID. 




































































38.3 小 心 执 行程 序 


当 一 个 特权 程序 通过 execO 下 接 或 通过 system()、popen0 〇 以 及 类 似 的 库 函 数 间接 地 执行 态 
个 程序 时 就 需要 小 心 处 理 了 。 





在 执行 另 一 个 程序 之 前 永久 地 删除 权限 


如 有 果 一 个 set-user-ID (EX set-group-ID ) 程序 执行 了 另外 一 个 程序 ， 那 么 就 应 该 要 确保 所 
有 的 进程 用 户 ( 组 ) ID 被 重 置 为 真实 用 户 〈( 组 ) ID， 这 样 新 程序 在 启动 时 就 不 会 拥有 权限 ， 
并 且 也 无 读 重 新 请 求 这些 权 限 。 完 成 这 一 任务 的 一 种 方式 是 在 执行 execO 之 前 使 用 第 38.2 市 
中 介绍 的 技术 来 重 置 所 有 的 ID。 

在 exec() 调 用 之 前 调用 setuid(getuid()) 能 够 取得 同样 的 结果 。 虽 然 setuidO0 调 用 只 修改 了 那 
些 有 效用 户 ID 不 为 零 的 进程 的 有 效用 户 ID， 但 权限 还 是 会 被 删除 ， 因 为 成 功 的 execO 调 用 会 
将 有 效用 户 ID 复制 到 saved set-user-ID。( 如 果 exec0 执 行 失败 了 ， 那 么 saved set-user-ID 不 会 
发 生 改 变 。 这 对 于 在 exec0 失 败 时 需要 执行 其 他 特权 工作 的 程序 来 讲 是 比较 有 用 的 。) 

在 set-group-ID 程序 中 也 可 以 采用 类 似 的 方式 〈 即 setgid(getgid()))， 因 为 成 功 的 execO 调 
用 也 会 将 有 效 组 ID 复制 到 saved-setgroup-ID。 

现在 假设 用 户 ID 200 拥有 一 个 set-user-ID 程序 ， 当 ID 为 1000 的 用 户 执行 这 个 程序 时 ， 
结果 进程 的 有 用户 ID 如 下 所 示 。 

real=1000 effective=200 saved=200 

如 末 这 个 程序 执行 了 setuid(getuid()) 调 用 ， 那 么 进程 的 用 户 ID 将 会 变 成 如 下 。 

real=1000 effective=1000 saved=200 


当 进 程 执行 一 个 非特 权 程 序 时 ,进程 的 有 效用 户 ID. 会 被 复制 到 saved set-user-ID， 从 而 导 
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致 进程 的 用 户 ID 变 为 : 


real-1000 effective-1000 Saved=1000 


避免 执行 一 个 拥有 权限 的 shell (或 其 他 解释 器 ) 

运行 于 用 户 控 制 之 下 的 特权 程序 永远 都 不 该 直接 或 间接 (通过 system()，popen()， 
execlp(), execvp() Ek Hf 2S TELE] PE BR 2C). 地 执行 shell. shell (以 及 其 他 不 受 限 的 解释 器 ， 
如 awk) 的 复杂 性 和 强大 功能 意味 看 几乎 不 可 能 消除 所 有 的 安全 漏洞 ,即使 被 执行 的 shell 
不 允许 交互 式 访问 。 其 可 能 引起 的 风险 是 用 户 可 能 能 够 在 进程 的 有 效用 户 ID 下 执行 任意 
的 shell 命令 。 如 果 必 须要 执行 shell， 那 么 就 需要 人 确保 在 执行 之 前 永久 地 删除 权限 。 

















在 27.6 WAX systemO 的 讨论 中 介绍 的 安全 漏洞 吏 是 执行 shell 时 可 能 引起 的 一 个 
漏 铜 。 





一 些 UNIX 实现 在 将 权限 位 应 用 于 解释 器 脚本 时 会 采用 set-user-ID 和 set-group-ID 的 权限 
位 《参见 27.3)， 因 此 当 运 行 脚本 时 ， 执 行 脚 本 的 进程 的 号 份 是 其 他 《特权 ) 用户 。 由 于 存在 
前 面 描述 的 安全 风险 ，Linux 与 其 他 一 些 UNIX 实现 一 样 ， 在 执行 脚本 时 会 训 无 征兆 地 忽略 
set-user-ID 和 set-group-ID 权限 位 。 即 使 在 允许 set-user-ID 和 set-group-ID 脚本 的 实现 上 也 应 
该 避免 使 用 它们 。 





在 exec() 之 前 关闭 所 有 用 不 到 的 文件 描述 符 


在 27.4 节 中 提 到 过 在 默认 情况 下 ， 在 exec0 调 用 之 间 文 件 描述 符 会 保持 在 打开 状态 。 特 权 进 
程 可 能 会 打开 普通 进程 无 法 访问 的 文件 , 这 种 打开 的 文件 描述 符 表 示 一 种 特权 资源 。 在 调用 exec) 
之 前 应 该 关闭 这 种 文件 描述 符 ， 这 样 被 执行 的 程序 加 无 法 访问 相关 的 文件 了 。 完 成 这 个 任务 既 可 
以 通过 显 式 关闭 文件 描述 符 ， 也 可 以 设置 程序 的 close-on-exec 标记 (参见 27.4). 











38.4 避免 又 露 敏感 信息 


当 一 个 程序 读 取 密 码 或 其 他 敏感 信息 时 应 该 在 执行 完 所 需 的 处 理 之 后 立即 从 内 存 中 有 删除 
这 些 信息 。( 在 8.5 节 中 给 出 了 一 个 这 样 的 例子 。) 在 内 存 中 保留 这 些 信息 是 一 种 安全 隐患， 其 
原因 如 下 。 

e 包含 这 些 数据 的 虚拟 内 存 页 面 可 能 会 被 换 出 (除非 使 用 mlock0 或 类 似 的 函数 将 它们 

锁 在 内 存 中 )， 这 样 交 换 区 域 中 的 数据 可 能 会 被 一 个 特权 程序 读 取 。 
e 如 果 进 程 接收 到 了 一 个 能 导致 它 产生 一 个 核心 dump 文件 的 信和 号， 那么 就 有 可 能 会 从 
该 文件 中 获取 这 类 信息 。 

从 上 面 的 最 后 一 点 来 讲 ， 编 写 程 序 时 应 遵循 的 一 个 通用 原则 是 安全 程序 应 该 避免 产生 核 
心 dump。 一 个 程序 可 以 使 用 setrlimit() 将 RLIMIT_CORE 资源 限制 设置 为 0 来 防止 核心 dump 
文件 的 创建 (参见 36.3 节 )。 















































在 默认 情况 下 ，Linux 不 允许 set-user-ID 程序 在 收 到 信号 时 执行 一 个 核心 dump (参见 
22.1 节 )， 即 使 程序 已 经 删除 了 所 有 的 权限 。 但 其 他 UNIX 实现 可 能 并 没有 提供 这 个 安全 
特性 。 
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38.5 ”确定 进程 的 边界 
本 节 将 介绍 各 种 限制 程序 以 控制 程序 发 生 安 全 问题 时 所 造成 的 损失 的 方法 。 


考虑 使 用 能 力 
Linux 能 力 模型 将 传统 的 all-or-nothing UNIX 权限 模型 划分 为 一 个 个 被 称 为 能 力 的 单元 。 
一 个 进程 能 够 独立 地 局 用 或 禁用 单个 能 力 。 通 过 只 启用 进程 所 需 的 能 力 使 得 程序 能 够 在 不 拥 
有 完整 的 root 权限 的 情况 下 运行 。 这 样 束 降低 了 程序 友 生 安全 问题 时 造成 损失 的 可 能 性 。 
此 外 ,使 用 能 力 和 securebits 标记 可 以 创建 只 拥有 有 限 的 一 组 权限 但 无 需 属 于 root 的 进程 
《 即 进程 的 所 有 用 户 ID 都 不 为 零 )。 这 样 的 进程 无 法 使 用 exec(0) 来 重新 获取 所 有 能 力 。 在 第 39 


草 中 将 会 介绍 能 力 和 securebits 标记 。 


考虑 使 用 一 个 chroot 监牢 


在 特定 情况 下 一 项 有 用 的 安全 技术 是 建立 一 个 chroot 监牢 来 限制 程序 能 够 访问 的 一 组 目 
录 和 文件 。( 还 知人 确保 调用 chdir0 来 将 进程 的 当前 工作 目录 改 为 监牢 中 的 一 个 位 置 。) 但 chroot 
监牢 不 足以 限制 一 个 set-user-ID-root 程序 (参见 18.12 节 )。 









































除了 使 用 chroot 监牢 之 外 还 可 以 使 用 一 个 虚拟 服务 器 , 它 是 实现 于 庶 拟 内 核 之 上 的 一 个 服务 
釉 。 由 于 每 个 虚拟 内 核 与 运行 于 同一 使 件 上 的 其 他 虚拟 内 核 是 相互 隔离 的 ， 因 此 虚拟 服务 硕 比 
chroot 监牢 更 加 安全 和 灵活 。( 其 他 一 些 现代 操作 系统 还 提供 了 目 己 的 虚拟 服务 兹 实现 。 ) Linux 
上 最 早 的 虚拟 化 实现 是 User-Mode Linux (UML)， 它 是 Linux 2.6 内 核 的 标准 组 成 部 分 。 在 
http://user-mode-linux.sourceforge.net/ 上 可 以 找到 有 关 UML 的 更 多 信息 。 最 狐 的 虚拟 内 核 项 目 包 括 
Xen (http://www.cl.cam.ac.uk/Research/SRG/netos/xen/) 4 KVM (http:/kvm.qumranet.com/ ) 。 























38.6 小心 信号 和 竞争 条 件 


用 户 可 以 癌 他 启动 的 set-user-ID 程序 发 送 任意 信号 ， 其 发 送 时 间 和 发 送 频率 也 是 任意 的 。 
当 信 号 在 程序 执行 过 程 中 的 任意 时 刻 发 送 时 需要 考虑 可 能 出 现 的 竞争 条 件 。 在 程序 中 合适 的 
地 方 应 该 捕获 、 阻 窟 或 忽略 信号 以 防止 可 能 存在 的 安全 性 问题 。 此 外 ， 信 号 处 理 器 的 设计 应 
该 尽 可 能 简单 以 降低 无 意 中 创 建 范 争 条 件 的 风险 。 
这 个 问题 与 停止 进程 的 信号 (如 SIGTSTP 和 SIGSTOP) 特别 相关 。 存 在 问题 的 场景 如 下 所 示 。 
1. 一 个 set-user-ID 程序 确定 与 其 运行 时 环境 有 关 的 一 些 信息 。 
2. 用户 需要 停止 运行 程序 的 进程 和 修改 运行 时 环境 的 细节 。 这 样 的 变更 可 能 包括 修改 文 
件 的 权限 、 改 变 符号 链接 的 目标 以 及 删除 程序 所 依赖 的 文件 。 
3. 用 户 使 用 SIGCONT 信和 号 恢复 进程 。 这 时 程序 会 假设 原先 的 运行 时 环境 没有 发 生变 化 并 继 
续 执 行 ， 但 其 实 运行 时 环境 已 经 发 生 了 变化 ， 因 此 在 这 种 假设 可 能 会 破坏 系统 的 安全 性 。 
这 里 描述 的 情况 确实 只 是 检查 时 间 〈time-of-check) 和 使 用 时 间 (time-of-use) 竞争 条 件 
的 一 种 特殊 情况 。 特 权 进 程 应 该 避免 执行 依赖 于 之 前 成 立 但 现在 已 经 不 再 成 并 的 条 件 的 操作 
(具体 示例 可 参考 第 15.4.4 节 中 对 access0 系 统 调用 的 讨论 )。 即 使 当 用 户 无 法 向 进程 发 送信 和 号 
时 也 应 该 遵循 这 个 指南 。 停 止 一 个 进程 的 能 力 仅仅 允许 一 个 用 户 扩大 检查 时 间 和 使 用 时 间 之 
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间 的 时 间 间 隅 。 


虽然 通过 一 次 尝试 就 在 检查 时 间 和 使 用 时 间 之 间 停 止 一 个 进程 是 比较 困难 的 ， 但 恶意 
用 户 可 以 重复 地 执行 一 个 set-user-ID 程序 并 使 用 男 一 个 程序 或 一 个 shell 脚本 重复 地 回 
set-user-ID 程序 发 送 停止 信号 并 修改 运行 时 环境 。 




















38.7 执行 文件 操作 和 文件 VO 的 缺陷 


如 果 一 个 特权 进程 需要 创建 一 个 文件 , 那么 必须 要 小 心 处 理 那 个 文件 的 所 有 权 和 权限 以 
确保 文件 不 存在 锌 恶意 操作 攻击 的 风险 点 ， 不 省 这 个 风险 点 有 多 小 。 因 此 需 避 循 下 列 指 南 。 








需要 将 进程 的 umask〈 参 见 15.4.6 市 ) 设置 为 一 个 能 确保 进程 永远 无 法 创建 公共 可 写 
的 文件 的 值 ， 否 则 恶意 用 户 就 能 修改 这 些 文件 了 。 

由 于 文件 的 所 有 权 是 根据 创建 进程 的 有 效用 户 ID 来 确定 的 ， 因 此 可 能 需要 使 用 
seteuid() 或 setreuid0) 来 临时 地 修改 进程 的 号 份 信 息 以 确保 新 创建 的 文件 不 会 属于 错 
误 的 用 户 。 由 于 文件 的 组 所 有 权 可 能 会 根据 进程 的 有 效 组 ID CA 15.3.1 节 ) 来 确 
定 ， 因 此 类 似 的 规则 也 同样 适用 于 set-group-ID 程序 ， 并 且 可 以 使 用 相应 的 组 ID is 
用 来 避免 此 类 问题 的 发 生 。( 严 格 来 讲 ， 在 Linux 上 ， 新 文件 的 所 有 者 是 由 进程 的 文 
件 系 统 用 户 ID 来 确定 的 , 这 个 ID 值 通常 与 进程 的 有 效用 户 ID 值 是 一 样 的 , 具体 可 
参见 9.55), 

如 果 一 个 set-user-ID-root 程序 必须 要 创建 一 个 一 开始 由 其 上 自己 拥有 但 最 终 由 另 一 个 用 
户 拥有 的 文件 , 那么 所 创建 的 文件 在 一 开始 应 该 不 对 其 他 用 户 开 放 写 权限 , 这 可 以 通过 
I] open() 传 入 一 个 合适 的 mode 参数 或 在 调用 open0 之 前 设置 进程 的 umask 完成 ,之 后 ， 
程序 可 以 使 用 fchown0 修 改 文 件 的 所 有 权 , 然后 根据 需要 使 用 fchmodO 修 改 文件 的 权限 。 
这 里 的 关键 点 是 set-user-ID 程序 应 该 确保 它 永 远 不 会 创建 一 个 由 程序 所 有 者 拥有 但 允 
许 其 他 用 户 写 入 《即使 这 项 权限 只 开放 了 一 瞬间 ) 的 文件 。 

在 打开 的 文件 描述 符 上 检查 文件 的 特性 〈 如 在 open0 之 后 调用 fstat0)， 而 不 是 检查 与 
一 个 路 径 名 相关 联 的 特性 后 再 打开 文件 〈 如 在 stat0 之 后 调用 open0)。 后 一 种 方法 存 
在 使 用 时 间 和 检查 时 间 的 问题 。 

如 果 一 个 程序 必须 要 确保 它 自 己 是 文件 的 创建 者 ， 那 么 在 调用 open0 时 应 该 使 用 
O EXCL 标记 。 

特权 进程 应 该 避免 创建 或 依赖 像 /tmp 这 样 的 公共 可 写 的 目录 , 因为 这 样 程序 束 容 易 受 
到 那些 试图 创建 文件 名 与 特权 程序 预期 一 致 的 非 授 权 文 件 的 恶意 攻击 。 一 个 必须 要 在 
某 个 公共 可 写 的 目录 中 创建 文件 的 程序 应 该 至 少 要 使 用 诸如 mkstemp0 之 类 的 函数 
(参见 5.12 市 ) 确保 这 个 文件 的 文件 名 不 会 不 可 预测 。 







































































38.8 不 要 完全 相信 输入 和 环境 


特权 程序 应 该 避免 完全 信任 输入 和 它们 所 运行 的 环境 。 








不 要 信任 环境 列表 
set-user-ID 和 set-group-ID 程序 不 应 该 假设 环境 变量 的 值 是 可 靠 的 ， 特 别 是 PATH 和 IFS 
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WEE. 

PATH 确定 了 shell (和 system() and popen()) 以 及 execlpO fll execvpO 在 何 处 搜索 程序 。 恶 
意 用 户 可 以 改变 PATH 的 值 以 欺骗 setruser-ID 程序 使 它 在 使 用 其 中 一 个 函数 时 会 导致 在 拥有 权 
限 的 情况 下 执行 任意 一 个 程序 。 在 使 用 这 些 函 数 时 应 该 将 PATH. 值 设置 为 一 个 可 信 的 目录 列 
de (更 好 的 做 法 是 在 执行 程序 时 指定 绝对 路 人 径 名 )。 但 正如 之 前 已 经 提 过 的 ,在 执行 shell 或 使 
用 前 面 提 到 的 函数 之 前 最 好 先 删 除权 限 。 

IFS 指定 了 shell 解释 套用 来 分 隔 命令 行 中 的 单词 的 分 陋 符 。 应 该 将 这 个 变量 设置 为 任意 
一 个 空 字符 串 , 表示 shell 只 会 把 空白 字符 当成 单词 分 隔 符 。 一 些 shell 在 局 动 的 时 候 总 是 会 这 
样 设置 下 S IB. (27.6 市 插 述 了 老式 Bourne shell 中 与 IFS 相关 的 一 个 漏洞 。) 

在 某 些 情况 中 ， 特 别 是 在 执行 其 他 程序 或 调用 可 能 会 受到 环境 变量 设置 影响 的 库 时 ， 最 
安全 的 方式 是 删除 整个 环境 列表 (参见 6.7 市 )， 然 后 使 用 已 知 的 安全 值 来 还 原 所 选中 的 环境 


变量 。 










































































防御 性 地 处 理 不 可 信用 书 的 输入 


特权 程序 应 该 在 根据 来 目 不 可 信 源 的 输入 采取 动作 之 前 小 心地 验证 这 些 输入 。 这 种 验证 
包括 校 验 数 子 是 否 位 于 接受 范围 之 内 、 子 符 串 的 长 度 是 任 位 于 接受 范围 之 内 以 及 是 否 由 允许 
的 字符 构成 等 。 需 要 采取 此 类 验证 措施 的 输入 包括 用 户 创建 的 文件 、 命 令 行 参 数 、 交 五 式 输 
入 、CGI 输入 、 电 子 邮 件 消 轧 、 环 境 变 量 、 不 可 信用 户 能 够 访问 的 进程 问 通 信 通 道 FIFO, 
共享 内 存 等 ) 以 及 网 络 包 。 

















避免 对 进程 的 运行 时 环境 进行 可 靠 性 假设 

set-user-ID 程序 应 该 避免 假设 其 初始 的 运行 环境 是 可 靠 的 。 如 标准 输入 、 输 出 或 错误 可 能 
会 被 关闭 。( 这 些 描述 符 可 能 是 在 执行 这 个 set-user-ID 程序 的 程序 中 被 关闭 的 。) 这 样 ， 当 打 
开 一 个 文件 时 可 能 会 无 意 中 复 用 摘 述 符 1〈 假 设 )， 从 而 导致 程序 认为 正在 往 标准 输出 中 输出 
数据 ， 但 实际 上 是 在 往 一 个 由 其 打开 的 文件 中 写 入 数据 。 

还 有 很 多 情况 需要 考虑 。 如 一 个 进程 可 能 会 耗 光 各 种 资源 限制 ， 如 能 够 创建 的 进程 数 限 
制 、CPU 时 间 资 源 限 制 或 文件 大 小 资源 限制 ， 从 而 导致 各 种 系统 调用 会 失败 或 各 种 信号 的 生 
成 。 和 恶意 用 户 可 能 会 故意 攻击 系统 使 得 资源 耗 尽 以 便 破 坏 程序 。 





























38.9 “小心 缓冲 区 洪 出 


当 输 入 值 或 复制 的 字符 串 超出 分 配 的 缓冲 区 衬 间 时 瓯 需 要 小 心 缓冲 区 浇 出 了 。 了 永远 不 要 
使 用 gets0， 在 使 用 请 如 scanf()、sprintf()、strcpy 〇 以 及 streatOI Iis; ZEVETR CASE if T8 8D 
止 在 使 用 这 些 函数 时 造成 缓冲 区 溢出 )。 

恶意 用 户 可 以 通过 诸如 缓冲 区 溢出 《也 被 称 为 栈 粉碎 ) 之 类 的 技术 将 精心 编写 的 学 节 放 
入 一 个 栈 帧 中 以 强制 特权 程序 执行 任意 代码 。( 网 上 的 几 个 资源 站 点 解释 了 栈 粉碎 的 细节 ， 读 
者 还 可 以 参考 [Erickson，2008] 和 [Anley，2007])。 从 CERT Chttp://www.cert.org/)? 和 Bugtraq 
(http://www.securityfocus.com/) 上 友 表 的 咨询 报告 的 频 座 上 明显 可 以 看 出 在 一 个 计算 机 系统 
E, 绥 冲 区 淤 出 可 能 是 引起 安全 性 问题 的 最 第 见 的 原因 了 。 绥 冲 区 流出 对 于 网 络 服 务 占 来 讲 
特别 具有 和 危害 性 ， 因 为 它们 使 得 系统 同 网 络 上 任意 地 方 的 远程 攻击 打开 了 大 门 。 





























78 38 €& ”编写 安全 的 特权 程序 649 


异步 社区 会 员 flyman150(2410757683@qq.com) EF 尊重 版 权 








为 了 使 栈 崩 尝 变 得 更 加 困难 一 一 特别 是 使 得 在 远程 主机 上 使 用 此 类 攻击 手段 攻击 网 络 
服务 器 时 更 加 耗 时 一 一 从 内 核 2.6.12 开始 ，Linux 实现 了 地 址 空间 随机 化 。 这 项 技术 使 得 栈 
的 位 置 能 够 在 虚拟 内 存 最 前 面 的 8M 空间 内 随机 变动 。 此 外 ， 如 果 软 RLIMIT STACK 限制 
有 限 并 且 Linux 特有 的 /proc/sys/vm/legacy_va_layout 不 包含 0， 那么 内 存 映射 的 位 置 也 可 以 
随机 化 。 

最 新 的 x86-32 架构 为 将 页 表 变 成 NX (“no execute"). 提供 了 硬件 支持 。 这 个 特性 用 来 
防止 执行 栈 上 的 代码 ， 从 而 使 得 栈 奔 演变 得 更 加 困难 。 


上 和 耐 提 到 的 很 多 函数 都 存在 安全 的 版 本 一 一 如 snprintf()、strmcpyO 以 及 strncat() 一 一 允许 
调用 者 指定 需 复 制 的 最 大 字符 数 。 这 些 函 数 考 虑 到 了 最 大 数量 以 防止 目标 缓冲 区 的 溢出 。 一 
般 来 讲 ， 最 好 使 用 这 些 函 数 ， 但 使 用 时 仍然 需要 小 心 ， 特 别 需 要 注意 下 列 事项 。 

e 对 于 其 中 的 大 多 数 函 数 来 讲 ， 如 果 到 达 了 指定 的 最 大 值 ， 那 么 源 字 符 串 的 截断 部 分 会 

锌 放 到 目标 绥 冲 区 中 。 由 于 这 样 的 截断 学 符 串 对 于 程序 来 讲 可 能 是 坚 无 意义 的 ， 因 此 
调用 者 必须 要 检查 字符 串 是 否 发 生 了 截断 〈 如 使 用 snprintfO 的 返回 值 ) 并 且 在 发 生 截 
断 的 时 候 采 取 必 要 的 措施 。 

。 使 用 strmncpyO 对 性 能 会 有 影响 。 如 在 strncpy(s1, s2, DH P, WR s2 指 同 的 字符 串 

的 长 度 小 于 n 字 节 ， 那 么 补 全 的 null 字 贡 就 会 被 写 入 sl 以 确保 总 共 写 入 了 nn 字 市 。 
o 如 果 传 入 strncpy0 的 最 大 大 小 不 足以 容纳 结尾 的 null 字符 ， 那 么 目标 字符 串 就 会 成 为 
不 以 null 结尾 的 字符 串 。 






































一 些 UNIX 实现 提供 了 strlcpy0 孙 数 ， 它 接收 长 度 参 数 n， 最 多 将 n 一 1 个子 市 复制 到 
目标 缓冲 区 中 并 且 总 是 会 在 缓冲 区 的 结尾 加 上 null 字符 。 但 SUSv3 并 没有 规定 这 个 函数 ， 
并 且 glibc 也 没有 实现 这 个 函数 。 此 外 ， 如 采 调 用 者 没有 小 心 检查 字符 串 长 度 ， 那 么 这 个 函 
数 在 解决 一 个 问题 〈 缓 冲 区 湾 出 ) 的 同时 勾引 入 了 妃 一 个 问题 〈 坚 无 征兆 地 丢 痉 数据 )。 

















38.10 小心 拒绝 服务 攻击 

随 着 基于 Internet 服务 的 增长 ， 系 统 相 应 受到 远程 拒绝 服务 (Dos) 的 攻击 的 可 能 性 也 在 
增长 。 这 些 攻 击 通 过 癌 服 务 器 发 送 能 导 人 至 其 月 尝 的 错误 数据 或 使 用 虚假 请 求 给 服务 器 增加 过 
量 的 负载 使 得 系统 无 法 问 合 法 用 户 提 供 正常 的 服务 。 

本 地 的 拒绝 服务 攻击 也 是 有 可 能 的 。 最 知名 的 例子 是 当 用 户 运 行 一 个 简单 的 fork 炸弹 
(一 个 重复 执行 fork 的 程序 ， 因 此 会 消耗 系统 中 的 所 有 进程 槽 )。 但 引起 本 地 拒绝 服务 的 源 
头 更 加 容易 确定 ， 因 此 一 般 来 讲 可 以 通过 合适 的 物理 和 密码 安全 措施 来 避免 。 


服务 豆 应 该 严格 地 像 上 面 指 述 的 那样 检查 其 输入 以 如 





























处 理 错 误 的 请 求 是 比较 百 驳 的 
Aa EP DC DA o 

iE V ps SB ND EL KBPE S ET HAS 8 JG Tat EU Fi RE P s HT 29 AA TE TE CB SK B 
速 京 ， 因 此 这 样 的 攻击 几乎 无 法 防止 。( 服 务 右 甚至 无 法 确定 攻击 的 大正 源头 ， 因 为 网 络 包 的 
源 IP 地 址 是 可 以 伪造 的 。 此 外 ， 分 布 式 攻击 可 能 会 葵 集 不 知情 的 中 间 主 机 辐 目 标 系统 发 起 攻 
击 。) 不 过 ， 仍 然 可 以 采取 各 种 措施 把 超 负 和 债 攻击 的 风险 和 损失 降 到 最 小 。 
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。 服务 器 应 该 执行 负载 控制 ， 当 负载 超过 预先 设 定 的 限制 之 后 就 丢弃 请 求 。 这 可 能 会 导致 
于 弃 合法 的 请 求 ， 但 能 够 防止 服务 器 和 主机 机 器 的 负载 过 大 。 资 源 限制 和 磁盘 限额 的 使 
用 也 有 助 于 限制 过 量 的 负载 。( 更 多 有 关 厂 盘 限 额 的 信息 可 参考 http;//sourceforge.net/ 
projects/linuxquota/ 。) 

。 服务 右 应 该 为 与 客户 端的 通信 设置 超时 时 间 ， 这 样 如 果 客 户 端 不 啊 应 《可 能 是 故意 
的 )， 那 么 服务 器 也 不 会 永远 地 等 待 客户 端 。 

。 在 发 生 超 负荷 时 ， 服 务 器 应 该 记录 下 合适 的 信息 以 便 系 统管 理 员 得 知 这 个 问题 。( 但 

志 记 录 应 该 也 是 有 限制 的 ， 这 样 日 志 记 录 本 身 不 会 给 系统 增加 过 量 的 负载 。) 

o 服务 器 程序 在 碰 到 预期 之 外 的 负载 时 不 应 该 骨 涡 。 如 应 该 严格 进行 边界 检查 以 确保 过 
多 的 请 求 不 会 造成 数据 结构 溢出 。 

e 设计 的 数据 结构 应 该 能 够 避免 算法 复杂 上 度 攻 击 。 如 二 又 树 应 该 是 平衡 的 ， 并 且 在 向 规 
负载 下 应 该 能 提供 可 接受 的 性 能 。 但 攻击 者 可 能 会 构造 一 组 会 导致 树 不 平衡 〈 在 最 坏 
的 情况 下 等 价 于 一 个 链表 ) 的 输入 ， 从 而 降低 性 能 。[Crosby & Wallach, 2003] 话 细 描 
述 了 此 类 攻击 的 性 质 并 讨论 了 能 够 用 来 避免 此 类 攻击 的 数据 结构 技术 。 


38.11 检查 返回 状态 和 安全 地 人 处理 失败 情况 


特权 程序 应 该 总 是 检查 系统 调用 和 库 函 数 调 用 是 人 否 成功 以 及 它们 是 否 返 回 了 预期 的 值 。 
《当然 所 有 程序 都 应 该 这 么 做 ， 但 这 一 点 对 于 特权 程序 来 讲 特别 重要 。) 各 种 各 样 的 系统 调用 
都 可 能 会 失败 ， 即 使 程序 以 root 的 身份 运行 。 如 当 达 到 系统 的 进程 数 限制 时 forkO 调 用 就 会 失 
败 ， 对 只 该 文件 系统 调用 openO 以 获取 写 权 限时 会 失败 ， 或 者 当 目 标 目录 不 存在 时 调用 chdir() 
会 失败 。 

即使 系统 调用 成 功 了 也 有 必要 检查 其 结果 。 如 ， 在 需要 的 时 候 ， 特 权 程 序 应 该 检查 成 功 
的 openO0 调 用 没有 返回 三 个 标准 文件 描述 符 0、1 或 2 中 的 条 个 。 

最 后 ， 如 果 特 权 程 序 碰 到 了 未 知情 形 ， 那 么 恰当 的 处 理 方式 通常 是 终止 执行 或 如 果 是 服 
务 占 的 话 束 丢弃 客户 问 请 求 。 试 图 修复 未 知 的 问题 通常 要 求 满足 一 些 前 近 条 件 ， 但 并 不 古 所 
有 的 场景 部 满足 这 些 前 提 条 件 ， 妆 不 满 丰 时 束 可 能 会 产生 安全 漏洞 。 在 这 种 情况 下 ， 更 安全 
的 做 法 是 让 程序 终止 或 让 服务 占 把 信息 记录 下 来 并 丢弃 客户 剖 的 请 求 。 




















































































































38.12 i£ 


特权 程序 能 够 访问 普通 进程 无 法 访问 的 系统 资源 。 如 果 这 种 程序 被 破坏 了， 那么 系统 的 
安全 性 吏 会 受到 影响 。 本 章 给 出 了 编写 特权 程序 的 一 组 指南 ， 这 些 指 南 的 目标 包括 两 个 方面 : 
将 特权 程序 被 破坏 的 可 能 性 降 到 最 低 和 当 特 权 程 序 梓 破坏 时 所 造成 的 损失 降 到 最 小 。 


更 多 信息 

[Viega & McGraw, 2002] 介 绍 了 与 设计 和 实现 安全 软件 相关 的 各 项 课题 。[Garfinkel et al., 
2003] 介 绍 了 与 UNIX 系统 的 安全 以 及 安全 程序 设计 技术 有 关 的 信息 。[Bishop,2005] 深 入 介绍 
了 计算 机 安全 ， 同 时 该 书 的 作者 在 [Bishop, 2003] 中 更 加 深入 地 谢 析 了 计算 机 安全 。[Peikari & 
Chuvakin，2004] 也 介绍 了 计算 机 安全 ， 但 关注 点 是 攻击 系统 的 各 种 方式 。[Erickson，2008] 和 
[Anley, 2007] 详 尽 讨论 了 各 种 安全 陷阱 并 为 聪明 的 程序 员 提 供 了 详尽 的 信息 来 避免 这 些 陷阱 。 
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[Chen et al., 2002] 这 篇 论文 描述 和 分 析 了 UNIX set-user-ID 模型 [Tsafrir et al., 2008] 对 在 [Chen 
et al., 2002] 中 讨论 的 各 个 课题 进行 了 优化 和 增强 。[Drepper, 2009] 为 Linux 上 的 安全 和 防御 性 
程序 设计 提供 了 有 价值 的 建议 。 

网 上 存在 几 个 编写 安全 程序 的 信息 源 ， 如 下 所 示 。 








Matt Bishop 手写 了 很 多 与 安全 相关 的 文章 ， 读 者 可 以 在 http://nob.cs.ucdavis.edu/ 
~bishop/secprog 上 找到 这 些 文 章 。 其 中 最 有 趣 的 一 篇 是 4How to Write a Setuid Program) 
(原先 发 表 于 ; login: 12(1) Jan/Feb 1986)。 尺 管 这 篇 文章 的 年 代 有 些 久 远 , 但 其 中 包含 
了 很 多 有 价值 的 建议 。 

David Wheeler 撰写 的 Secure Programming for Linux and Unix HOWTO 可 以 在 
http://www.dwheeler.com/secure-programs/ |-1X FI]. 
http://www.homeport.org/-adam/setuid.7.html 为 编写 set-user-ID 程序 提供 了 一 个 有 用 的 
检查 清单 。 
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38-1. 


38-2. 


用 一 个 普通 的 非特 权 用 万 登录 系统 ， 创 建 一 个 可 执行 文件 《或 复制 一 个 既 有 文件 ， 
如 /bin/sleep)， 然 后 启用 该 文件 的 set-user-ID 权限 位 Cchmod u+s)。 党 试 修改 这 个 
文件 (如 cat >> file), SEH As -0 时 文件 的 权限 会 发 生 什 么 情况 呢 ? 为 何 会 发 生 
这 种 情况 ? 
编写 一 个 与 sudo(8) 程 序 类 似 的 set-user-ID-root 程序 。 这 个 程序 应 该 像 下 面 这 样 接 
收 命令 行 选 项 和 参数 : 

$ ./douser [-u user ] program-file argi arg2 .. 
douser 程序 使 用 给 定 的 参数 执行 program-file， 驶 像 是 被 user 运行 一 样 。( 如 果 省 略 
了 一 u 选项 ， 那 么 user 默认 为 root.) 在 执行 program-file 之 前 ，douser 应 该 请 求 user 
的 密码 并 将 密码 与 标准 密码 文件 进行 比较 (参见 程序 清单 8-2), 接着 将 进程 的 用 户 
和 组 ID 设置 为 与 该 用 户 对 应 的 值 。 
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本 章 描述 了 Linux 能 力 模 型 , 它 将 传统 的 all-or-nothing UNIX 权限 模型 划分 成 一 个 个 能 单 
独 启用 或 禁用 的 能 力 。 使 用 能 力 允 许 程序 在 执行 一 些 特 权 操 作 的 同时 防止 它们 执行 其 他 未 经 
允许 的 操作 。 


39.1 能 力 基本 原理 


传统 的 UNIX 权限 模型 将 进程 分 为 两 类 : 能 通过 所 有 权限 检测 的 有 效用 户 ID 为 0 (超级 
用 户 ) 的 进程 和 其 他 所 有 需要 根据 用 户 和 组 ID 进行 权限 检测 的 进程 。 

这 个 模型 的 粗 粒度 划分 是 一 个 问题 。 如 条 需要 允许 一 个 进程 执行 一 些 只 有 超级 用 户 才能 
执行 的 操作 一 一 如 修改 系统 时 间 一 一 那么 就 必须 要 让 进程 的 有 效用 户 ID 为 0。( 如 果 一 个 非特 
权 用 户 需 要 执行 这 样 的 操作 ， 那 么 通常 需要 使 用 set-user-ID-root 程序 来 完成 。) 但 这 种 做 法 同 
时 也 赋予 了 进程 执行 其 他 操作 的 权限 一 一 如 在 访问 文件 时 会 通过 所 有 的 权限 检测 一 一 从 而 为 
程序 表现 寞 常 〈 可 能 是 由 于 未 预见 的 环境 或 由 于 恶意 用 户 的 有 意 操 作 〉 时 引起 安全 性 问题 埋 
下 了 隐患 。 第 38 章 列 出 了 处 理 此 类 问题 的 传统 方法 : 删除 有 效 权 限 ( 如 将 有 效用 户 ID 改 为 
非 零 ， 同 时 将 零 保存 在 saved set-user-ID 中 ) 并 只 在 需要 的 时 候 临 时 请 求 这 些 权限 。 

Linux 能 力 模型 优化 了 对 这 个 问题 的 处 理 方式 , 即 在 内 核 中 执行 安全 性 检测 时 不 再 使 用 单 
个 权限 〈 即 有 效用 户 ID 为 0);， 超 级 用 户 权 限 被 划分 成 了 不 同 的 的 单元 ， 这 个 单元 成 为 能 
每 个 特权 操作 与 一 个 特定 的 能 力 相 关联 ， 进 程 上 只 有 在 拥有 相应 的 能 力 的 时 候 《〈 不 管 其 有 效用 
F ID 是 什么 ) 才能 执行 相应 的 操作 。 换 句 话 说 ， 本 书 中 所 讨论 的 Linux 中 的 特权 进程 其 实 是 
指 拥 有 相应 的 能 力 来 执行 特定 操作 的 进程 。 

在 大 多 数 时 候 ，Linux 能 力 模 型 对 程序 员 来 讲 是 不 可 见 的 ， 其 原因 是 当 一 个 对 能 力 一 无 所 
知 的 应 用 程序 的 有 效用 户 ID 为 0 时， 内 核 会 赋予 该 进程 所 有 能 

Linux 能 力 是 基于 POSIX 1003.1le 标准 草案 (http://wt.tuxomania.net/publications/posix.le/) 实 
现 的 。 虽 然 这 一 项 标准 化 工作 在 20 世纪 90 年 代 来 完成 乙 前 被 放 和 痉 了 ， 但 各 种 能 力 实现 仍然 
是 根据 这 个 标准 章 案 来 实施 的 。( 表 39-1 列 出 了 POSIX. le 草案 中 定义 的 一 些 能 力 ， 但 大 多 数 
能 力 是 Linux 上 的 扩展 。) 
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一 些 UNIX 实现 也 提供 的 能 力 模 型 , 如 Sun's Solaris 10 以 及 早期 的 Trusted Solaris 发 行 
li. SGIs Trusted Irix、 以 及 作为 FreeBSD 一 部 分 的 TrustedBSD 项 目 (([Watson, 2000])。 其 
他 一 些 操作 系统 中 也 存在 类 似 的 模型 ， 如 Digita's VMS 系统 中 的 特权 机 制 。 


39.2 Linux 能 


K 39-1 列 出 了 Linux 能 力 并 为 各 个 能 力 应 用 的 操作 提供 了 一 个 简短 的 《以 及 不 完整 的 ) 
TAPA o 


39.3 ”进程 和 文件 能 力 


每 个 进程 拥有 3 个 相关 能 力 集 一 一 术语 称 作 “ 许 可 的 “有 效 的 ”以 及 “可 继承 的 ” 
个 能 力 集 都 包含 表 39-1 中 列 出 的 零 个 或 多 个 能 力 。 同 样 ， 每 个 文件 也 可 以 拥有 3 个 相关 能 
集 ， 其 名 称 与 进程 的 能 力 集 名 称 一 样 。( 其 原因 是 非常 明显 的 ， 文 件 的 有 效能 力 集 其 实 束 是 一 
个 可 以 被 局 用 或 茶 用 的 位 ,〉 下 面 几 市 将 会 深入 介绍 各 个 能 力 集 的 细节 信息 。 


39.3.1 进程 能 力 


内 核 会 为 每 个 进程 都 维护 3 个 能 力 集 (实现 为 位 掩 码 ), 每 个 能 力 集中 都 包含 表 39-1 中 列 
出 的 已 经 局 用 的 去 个 或 多 个 能 力 。 这 3 个 能 力 集 如 下 所 示 。 
e 许可 的 一 一 这 些 是 一 个 进程 可 能 使 用 的 能 力 。 许 可 的 集合 是 能 够 被 添加 到 有 效 的 
和 可 继承 的 集合 中 的 能 力 的 受 限 超 集 。 如 果 一 个 进程 从 其 许可 和 集中 删除 了 一 个 能 
力 ， 那 么 将 永远 也 无 法 再 重新 获取 该 能 力 〈 除 非 它 执行 了 一 个 再 次 授予 该 能 力 的 
JET Jo 
。 有 效 的 内 核 会 使 用 这 些 能 力 来 对 进程 执行 权限 检测 。 只 有 进程 在 其 许可 集中 维护 
看 一 个 能 力 ， 那 么 进程 才能 通过 从 有 效 集中 删除 这 个 能 力 来 临时 禁用 该 能 力 ， 之 后 再 
将 该 能 力 还 原 到 这 个 集合 中 。 
e 可 继承 的 一 一 当 这 个 进程 执行 一 个 程序 时 可 以 将 这 些 权 限 带 入 许可 集中 。 
通过 Linux 特有 的 /proc/PID/status 文件 中 的 CapInh、CapPrm 以 及 CapEff 三 个 字段 能 够 查 
看 任意 进程 的 3 个 能 力 集 的 十 六 进 制 表示 。 













































































可 以 使 用 getpcap 程序 (第 39.7 市 中 介绍 的 libcap 包 的 一 部 分 ) 以 更 易 阅 读 的 格式 显示 
一 个 进程 的 能 





通过 forkO 创 建 的 子 进 程 会 继承 其 父 进程 的 能 力 集 的 副本 。 在 39.5 节 中 描述 了 在 exec( 
调用 中 能 力 集 的 处 理 方 式 。 


实际 上 ， 能 力 是 一 个 线程 级 的 特性 ， 进 程 中 的 每 个 线程 的 能 力 都 可 以 单独 进程 调整 。 
在 /proc/PID/task/TID/status 文件 中 可 以 合 看 一 个 多 线程 进程 中 菏 个 具体 线程 的 能 
/proc/PID/status 文件 显示 了 主线 程 的 能 

在 2.6.25 之 前 的 内 核 中 ，Linux 使 用 32 位 来 表示 能 力 集 ， 而 在 2.6.25 内 核 中 因为 加 入 
了 更 多 的 能 力 导 致 需要 64 位 来 表示 能 力 集 。 
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39.3.2 文件 能 
如 果 一 个 文件 拥有 相关 的 能 力 集 ， 那 么 这 些 集合 会 被 用 来 确定 赋 给 执行 这 个 文件 的 进程 
的 能 力 。 文 件 能 力 集 包括 下 面 3 个 。 
e 许可 的 : 在 execO 调 用 中 可 以 将 这 组 能 力 添加 到 进程 的 许可 人 集中， 不管 进程 的 耻 有 能 
力 是 什么 。 
e 有 效 的 : 这 个 只 有 一 位 。 如 果 被 局 用 了 ， 那 么 在 execO 调 用 中 ， 进 程 的 新 许可 集中 局 
用 的 能 力 在 进程 的 新 有 效 集 中 也 会 被 启用 。 如 果 文 件 有 效 位 被 禁用 了 ， 那 么 在 exec 
执行 完 之 后 ， 进 程 的 新 有 效 集 在 一 开始 是 空 的 。 
。 可 继承 的 ， 这 个 集合 将 与 进程 的 可 继承 集 取 掩 码 来 确定 在 执行 exec() 之 后 进程 的 许可 
集中 启用 的 能 力 集 。 
第 39.5 节 详 细 描述 了 在 exec0 调 用 中 如 何 使 用 文件 能 


许可 和 可 继承 文件 能 力 原来 称 为 强制 的 能 力 和 人 允许 的 能 力 。 现 在 那些 术语 已 经 过 时 
T, 但 它们 仍然 能 够 提供 一 些 有 用 的 信息 。 许 可 的 文件 能 力 是 那些 在 execO 调 用 中 被 强制 
添加 到 进程 的 许可 和 集中 的 能 力 , 不 管 进 程 的 既 有 能 力 是 什么 。 可 继承 的 文件 能 力 是 那些 在 
exec() 调 用 中 允许 进入 进程 的 许可 和 集中 的 能 力 ， 前 提 是 在 进程 的 可 继承 能 力 集中 也 启用 了 
那些 能 力 。 

与 文件 相关 的 能 力 是 存储 在 名 为 security.capability 的 安全 扩展 特性 (参见 16.1 节 ) 中 
的 ， 更 新 这 个 扩展 特性 需要 具备 CAP SETFCAP 能 


R 39-1: 各 个 Linux 能 力 允 许 的 操作 







































































能 —7 允许 进程 
CAP AUDIT CONTROL (E Linux 2.6.11 起 ) 局 用 和 和 茶 用 内 核 审 计 日 六、 修改 审计 的 过 涯 规则、 
读 取 审计 状态 和 过 滤 规 则 
CAP AUDIT WRITE (H Linux 2.6.11 起 ) 向 内 核 审计 日 志 写 入 记录 
CAP CHOWN 修改 文件 的 用 户 D OAR) 或 将 文件 的 组 ID 修改 为 不 包含 进程 的 


一 个 组 Cchown() 


CAP_DAC_OVERRIDE 绕 过 文件 读 取 、 写 入 和 执行 权限 检查 (DAC 是 discretionary access 
control 的 缩写 );， 读 取 /proc/PID 中 cwd, exe 和 root 符号 链接 的 内 容 


CAP DAC READ SEARCH | 绕 过 文件 读 取 权限 检查 以 及 目录 恋 取 和 执行 的 权限 检 醋 


CAP FOWNER 忽略 那些 平时 要 求 进程 的 文件 系统 用 户 ID 与 文件 的 用 户 ID 匹配 的 操 
作 〈chmod0，utimeO) 的 权限 检 栓 ;设置 任意 文件 的 inode 标记 ; 设 
置 和 修改 任意 文件 的 ACL; 在 删除 文件 (unlink(, rmdir(), rename()) 
时 忽略 目录 粘 滞 位 的 效果 ; 在 open0 和 fentl(F SETFD) 中 为 任意 文件 指 
定 O NOATIME 标记 











CAP FSETID 修改 文件 时 使 内 核 不 关闭 set-user-ID 和 set-group-ID 位 Cwrite(), 
truncate()); 为 那些 组 ID 与 进程 的 文件 系统 组 ID 或 补充 组 ID 不 匹配 
的 文件 局 用 set-group-ID 位 

CAP IPC LOCK 78 x T£ SE B d C mlockO, mlockall), shmctl(SHM LOCK), 
shmct(SHM UNLOCK)2; 使 用 shmget) SHM HUGETLB 标记 和 
mmap() MAP HUGETLB 标记 
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能 — J 
CAP IPC OWNER 
CAP KILL 
CAP LEASE 


CAP LINUX IMMUTABLE 
CAP MAC ADMIN 


CAP MAC OVERRIDE 
CAP MKNOD 
CAP NET ADMIN 


CAP NET BIND SERVICE 
CAP NET BROADCAST 
CAP NET RAW 

CAP SETGID 


CAP SETFCAP 
CAP SETPCAP 


CAP SETUID 


CAP SYS ADMIN 


CAP SYS BOOT 
CAP SYS CHROOT 
CAP SYS MODULE 


允许 进程 
绕 过 操作 System V IPC 对 象 的 权限 检查 
绕 过 发 送信 号 (kill0, sigqueueO) 的 权限 检查 
CE Linux 2.4 起 ) 在 任意 文件 上 建立 租赁 关系 (fentl(F_SETLEASE)) 
设置 附加 和 不 可 变 的 i-node 标记 


CH Linux 2.6.25 起 ) 配置 或 修改 强制 访问 控制 (MAC) 的 状态 (一些 
Linux 安全 模块 实现 了 这 个 能 力 ) 


C E Linux 2.6.25 iE. Z8 3; MAC( 一 些 Linux 安全 模块 实现 了 这 个 能 力 ) 
CH Linux 2.4 起 ) 使 用 mknodO 创 建设 备 


执行 各 种 网 络 相 关 的 操作 (如 设置 特权 socket 选项 、 局 用 组 播 、 配 管 
网 络 接口 、 修 改 路 由 表 ) 


绑 定 到 特权 socket Ym H 
(未 使 用 ) 执行 socket 广播 和 监听 组 播 
使 用 原始 和 包 socket 


随意 修改 进程 组 ID Csetgid(), setegid(), setregid(),setresgid(), setfsgid(), 
setgroups(), initgroups()?; 在 通过 UNIX domain socket (SCM - 
CREDENTIALS) 传递 验证 信息 时 伪造 组 ID 


( 自 Linux 2.6.24 起 ) 设置 文件 能 力 


在 不 文 持 文件 能 力 时 将 进程 的 许可 集中 的 能 力 授予 其 他 进程 〈 包 括 目 
eo 或 删除 其 他 进程 〈 包 括 自己 ) 许可 集中 的 能 力 ; 在 支持 文件 能 
时 将 进程 的 能 力 边 界 集中 的 所 有 能 力 都 添加 到 目 己 的 可 继承 集中 ， 删 
除 边界 集中 的 能 力 以 及 修改 securebits 标记 


随意 修改 进程 用 户 ID CsetuidQ, seteuid(, setreuid(),setresuid(), 
setfsuid0 ); 在 通过 UNIX domain socket (SCM CREDENTIALS) 传递 
验证 信息 时 伪造 用 户 ID 


在 打开 文件 的 系统 调用 中 (如 openO,shm open()，pipe()，socket()， 
accept(), exec(), acct(), epoll create()) 超出 /proc/sys/fs/file-max 限制 ; dA 
行 各 种 系统 管理 操作 ， 包 括 quotacdl (控制 磁盘 限额 )、mountO 〇 和 
umount(, swapon() 和 swapoff() pivot root(), sethostname() ”和 
setdomainname(); 执行 各 种 syslog(2) 操 作 ; % ri RLIMIT NPROC 资 
源 限制 Cfork0O; 调用 lookup dcookie(); 设置 trusted 和 security 扩展 
特性 ; 在 任意 System V IPC 对 象 上 执行 IPC_ SET 和 IPC RMID 操作 ; 
在 通过 UNIX domain socket (SCM CREDENTIALS) 传递 验证 信息 时 
伪造 进程 ID; 使 用 ioprio_set0 来 分 配 IOPRIO CLASS RT 调度 类 ; 使 
用 TIOCCONS ioctl); 在 clone0 和 unshare0 中 使 用 CLONE NEWNS 
标记 ; 执行 KEYCTL CHOWN 和 KEYCTL SETPERM keyctlO 操 作 ; 
管理 random(4) 设 备 ; 各 种 特定 于 设备 的 操作 


使 用 rebootO 重 启 系 统 ， 调 用 kexec load() 
使 用 chrootO 设 置 进程 根 目录 
加 载 和 介 载 内 核 模 块 (init module(), delete module(), create module()) 
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能 力 允许 进程 
CAP_SYS NICE 提高 nice 值 CniceQ, setpriority() ); 修改 任意 进程 的 nice 值 





(setpriority()); 设置 调用 进程 的 SCHED RR 和 SCHED FIFO 实时 调 
度 策略 ; 重 置 SCHED RESET ON FORK 标记 ; 设置 任意 进程 的 调度 
策略 和 优先 级 (sched setscheduler(), sched setparam()); 设置 任意 进程 
的 yo 调度 类 和 优先 级 (ioprio set0); 设置 任意 进程 的 CPU 亲和力 
(sched setaffinity()); 使 用 migrate pages() 将 任意 进程 迁移 到 任意 节点 
以 及 允许 进程 被 迁移 到 任意 节点 ; 对 任意 进程 应 用 move pagesO0: 在 
mbind) 和 move pages0 中 使 用 MPOL MF MOVE ALL 标记 








CAP SYS PACCT 使 用 acctO 局 用 或 禁用 进程 记 账 

CAP SYS PTRACE 使 用 ptrace0 跟 踪 任 意 进 程 ; 访问 任意 进程 的 /proc/PID/environ; 对 任意 
进程 应 用 get robust list() 

CAP SYS RAWIO 使 用 ioplO 和 iopermO£E IO 端口 上 执行 操作 ; 访问 /proc/kcore; 打开 
/dev/mem 和 /devwkmem 

CAP SYS RESOURCE 使 用 文件 系统 上 的 预 留 空 间 ; 使 用 ioctl0 调 用 控制 ext3 journaling; 4€ 








xi RO AL. bl]; 提高 硬 资源 限制 (setrlimit(); 7&2 RLIMIT NPROC 
资源 限制 〈fork0); 将 System V 消息 队列 的 /proc/sys/kernelmsgmnb 
限制 提高 msg qbytes; 绕 过 由 /proc/sys/fs/mqueue 下 各 个 文件 定义 的 各 
种 POSIX 消息 队列 限制 


CAP SYS TIME 修改 系统 时 钟 Csettimeofday(), stime(), adjtime(), adjitimexO2; 设置 硬件 
时 钟 


CAP SYS TTY CONFIG 使 用 vhangupO 3447 29m EX 12 9m HP] ji 304 TEE 


39.3.3 ”进程 许可 和 有 效能 力 集 的 目的 
进程 的 许可 集 定 义 了 进程 能 够 使 用 的 能 力 。 进 程 的 有 效能 力 集 定义 了 进程 当前 使 用 的 能 
力 一 一 即 内 核 会 使 用 这 组 能 力 来 检查 进程 是 否 拥 有 足够 的 权限 执行 某 个 特定 的 操作 。 
许可 能 力 集 为 有 效能 力 集 定义 了 一 个 上 限 。 进 程 只 能 将 其 许可 能 力 集 中 的 能 力 上 升 到 有 
效 集中 。( 上 升 有 时 候 也 被 称 为 添加 或 设置 ， 与 之 相反 的 操作 是 丢弃 或 删除 或 清除 。) 



































有 效能 力 集 和 许可 能 力 集 之 间 的 关系 与 一 个 set-user-ID-root 程序 中 的 有 效用 户 ID 和 
set-user-ID 之 间 的 关系 类 似 。 从 有 效 集中 删除 一 个 能 力 与 临时 删除 一 个 有 效用 户 ID 0 同时 
在 saved set-user-ID 中 维持 0 是 类 似 的 。 从 有 效能 力 集 和 许可 能 力 集中 删除 一 个 能 力 与 通过 
将 有 效用 户 ID 和 saved set-user-ID 设置 为 非 零 值 来 永久 删除 超级 用 户 权限 类 似 。 


39.3.4 文件 许可 和 有 效能 力 集 的 目的 
文件 许可 能 力 集 为 可 执行 文件 向 进程 赋予 能 力 提 供 了 一 种 机 制 , 它 指定 了 在 execO 调 用 中 
被 赋 给 进程 的 许可 能 力 集 的 一 组 能 
文件 有 效 文 件 集 是 一 个 可 以 被 局 用 或 共用 的 标记 位)。 要 理解 为 何 这 个 集合 只 由 一 个 位 
构成 束 需 要 考虑 在 程序 被 执行 时 会 发 生 的 两 种 情况 。 
。 程序 可 能 是 一 个 能 力 旺 元， 表示 它 对 能 力 一 无 所 知 《〈 即 传统 的 set-user-ID-root 程序 )。 
这 种 程序 不 知道 需要 在 其 有 效 集 中 提升 能 力 以 便 能 够 执行 特权 操作 。 对 于 这 样 的 程序 









































第 39 章 能 力 657 


异步 社区 会 员 flyman150(2410757683@qq.com) EF 尊重 版 权 

















来 讲 ，execO 应 该 将 进程 的 新 许可 集中 的 所 有 能 力 目 动 加 到 其 有 效 集中 ， 这 是 通过 局 
用 文件 有 效 位 来 完成 的 。 

。 程序 可 能 是 知道 能 力 的 ， 表 示 在 设计 程序 的 时 候 使 用 了 能 力 框 保 ， 并且 会 使 用 合适 的 
系统 调用 《〈 稍 后 讨论 ) 来 在 其 有 效 集 中 提升 和 删除 能 力 。 对 于 这 样 的 程序 来 讲 ， 最 小 
权限 表示 在 exec0 调 用 之 后 ， 进 程 的 有 效能 力 集中 的 所 有 能 力 一 开始 部 是 个 茶 用 的 ， 
这 是 通过 共用 文件 有 效能 力 位 来 完成 的 。 


39.3.5 ”进程 和 文件 可 继承 集 的 目的 
乍 一 看 ， 对 于 能 力 系 统 来 讲 ， 有 了 进程 和 文件 的 许可 和 集 和 有 效 集 看 起 来 已 经 是 够 了 ， 但 
还 是 存在 一 些 这 两 个 集合 无 法 满足 要 求 的 情形 。 如 当 一 个 执行 exec0) 的 进程 想 要 在 execO 调 用 
期 间 保 存 其 当前 能 力 时 该 如 何 做 昵 ? 看 起 来 , 能 力 实 现 可 以 通过 人 简单 地 在 execO 调 用 之 间 保 存 
进程 的 许可 能 力 来 实现 这 个 特性 ， 但 这 种 方式 无 法 处 理 下 列 情形 。 
e 执行 exec0 可 能 需要 特定 的 权限 (如 CAP DAC OVERRIDE)， 但 在 execO 调 用 之 间 
可 能 不 想 要 保存 这 种 权限 。 
e 假设 显 式 地 删除 了 一 些 无 需 在 execO 调 用 之 间 保 存 的 许可 能 力 ,， 但 execO 调 用 失败 了 。 
在 这 种 情况 下 ， 程 序 可 能 需要 知道 这 些 已 经 被 删除 〈 不 可 道 的 ) 的 许可 能 
ETERRA, Æ exec0 之 间 是 不 会 保持 进程 的 许可 能 力 的 。 相 反 ， 在 这 种 情况 下 会 适 
应 另 一 种 能 力 集 : 可 继承 集 。 可 继承 集 为 进程 在 execO 调 用 之 间 保 持 其 部 分 能 力 提 供 了 一 种 
机 制 。 
进程 的 可 继承 集 指定 了 一 组 在 execO 调 用 之 间 可 被 赋 给 进程 的 许可 能 力 集 的 能 力 。 相 应 文 
件 的 可 继承 集会 根据 进程 的 可 继承 集 取 掩 码 CANDO 来 确定 在 exec0 之 间 被 添加 到 进程 的 许 
可 能 力 集中 的 能 


在 exec0O 之 间 不 是 简单 保持 进程 的 许可 能 力 集 还 存在 深层 次 的 哲学 原因 ,能力 系 统 
的 主要 思想 是 赋 给 进程 的 所 有 权限 都 是 由 进程 所 执行 的 文件 来 授予 或 控制 的 。 虽然 进 
程 的 可 继承 集 指定 了 在 exec() 之 间 传 入 能 力 ， 但 这 些 能 力 会 根据 文件 的 可 继承 集 来 取 
fiho. 


39.3.6 ”在 shell FHZ& X (ECT 86 7J 7083 28 C THERE 


在 39.7 节 中 介绍 的 libcap 包 中 包含 的 setcap(8) 8I getcap(8) 命 令 可 以 用 来 操作 文件 能 力 集 。 
下 面 通过 一 个 使 用 了 标准 的 date(1) 程 序 的 简短 示例 来 演示 这 些 命 令 的 用 法 。( 根 据 39.3.4 节 中 
给 出 的 定义 , 这 个 程序 就 是 一 种 能 力 哑 元 应 用 程序 。) 当 在 具备 权限 的 情况 下 运行 这 个 程序 时 ， 
date(1) 可 以 用 来 修改 系统 时 间 。date 程序 不 是 一 个 set-user-ID-root， 因 此 通常 使 用 权限 运行 这 
个 程序 的 唯一 方式 是 变 成 超级 用 户 。 

下 和 面 首先 显示 当前 的 系统 时 间 ， 然 后 尝试 以 一 个 非特 权 用 户 的 喘 份 来 修改 时 间 。 


$ date 

Tue Dec 28 15:54:08 CET 2010 

$ date -s '2018-02-01 21:39' 

date: cannot set date: Operation not permitted 
Thu Feb 1 21:39:00 CET 2018 


从 上 面 可 以 看 出 date 命令 没有 能 够 修改 系统 时 间 ， 但 它 仍然 以 标准 格式 显示 了 传 入 的 
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BE PREMAERA, KER e 3 IHE PCR SEINE T o 


$ sudo date -s '2018-02-01 21:39' 
root's password: 

Thu Feb 1 21:39:00 CET 2018 

$ date 

Thu Feb 1 21:39:02 CET 2018 


现在 复制 一 份 date FEF HEJA AT VS As Pr H B6 

$ whereis -b date Find location of date binary 
date: /bin/date 

$ cp /bin/date . 

$ sudo setcap "cap sys time-pe" date 

root's password: 

$ getcap date 

date = cap sys time+ep 


上 面 的 setcap 命令 将 CAP SYS TIME 能 力 赋 给 了 可 执行 文件 的 许可 能 力 集 (p) 和 有 效 
能 力 集 Ceo. BEHTEH I getcap 命令 来 验证 能 力 确实 被 赋 给 了 文件 。(libcap 包 中 的 
cap from text(3) 手 册 描 述 了 setcap 和 getcap 中 用 来 表示 能 力 集 的 语法 。) 

date 程序 的 副本 的 文件 能 力 允 许 非特 权 用 户 使 用 这 个 程序 来 设置 系统 时 间 。 

$ ./date -s '2010-12-28 15:55' 

Tue Dec 28 15:55:00 CET 2010 


$ date 
Tue Dec 28 15:55:02 CET 2010 

















39.4 现代 能 力 实 现 


能 力 的 完整 实现 要 求 如 下 。 
e 对 于 每 个 特权 操作 ， 内 核 应 该 检查 进程 是 否 拥 有 相应 的 能 力 ， 而 不 是 检查 有 效 《 或 文 
FRR) 用 户 ID 是 否 为 0。 
。 内 核 必 须要 提供 允许 获取 和 修改 进程 能 力 的 系统 调用 。 
e 内 核 必须 要 文 持 将 能 力 附 加 给 可 执行 文件 的 概念 ， 这 样 当 文 件 被 执行 时 进程 会 获取 
相应 的 能 力 。 这 与 set-user-ID 位 是 类 似 的 ， 但 允许 单独 地 设置 可 执行 文件 上 的 各 个 能 
力 。 此 外 ， 系 统 必 须要 提供 一 组 编程 接口 和 命令 来 设置 和 查看 附加 给 可 执行 完 文 件 的 
能 力 。 
在 2.6.23 以 及 之 前 的 内 核 中 ，Linux 只 满足 了 前 两 条 要 求 。 目 2.624 内 核 开 始 就 可 以 将 能 
力 附加 到 文件 上 了 。 在 2.6.25 和 2.6.26 内 核 中 新 增 了 很 多 其 他 特性 以 完善 能 力 的 实现 。 
这 里 针对 有 关 能 力 的 大 多 数 讨 论 关 注 的 都 是 现代 实现 。 在 39.10 节 中 将 介绍 在 引入 文件 能 
力 之 前 实现 之 间 存 在 的 不 一 致 性 。 此 外 ， 文 件 能 力 是 现代 内 核 的 一 个 可 选 内 核 组 件 ， 但 本 次 
讨论 的 主要 部 分 假设 在 内 核 中 局 用 了 这 个 组 件 。 接 着 将 会 介绍 文件 能 力 被 局 用 与 被 禁用 之 间 
存在 的 差别 。( 从 几 个 方面 来 看 ， 其 行为 与 还 未 实现 文件 能 力 的 2.6.24 之 前 的 Linux 内 核 中 行 
为 类 似 。) 
在 下 面 几 个 小 节 中 将 深入 介绍 Linux 能 力 实现 的 细节 。 
































39.5 ”在 exec() 中 转变 进程 能 
在 exec0 执 行 期 间 , 内 核 会 根据 进程 的 当前 能 力 以 及 被 执行 的 文件 的 能 力 集 来 设置 进程 的 
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新 能 力 。 内 核 会 使 用 下 面 的 规则 来 计算 进程 的 新 能 
P'(permitted) = (P(inheritable) & F(inheritable)) | (F(permitted) 8 cap bset) 


P'(effective) = F(effective) ? P'(permitted) : 0 


P'(inheritable) - P(inheritable) 


在 上 面 的 规则 中 ，P 表示 在 调用 exec0 之 前 进程 的 能 力 集 的 取 值 ，P' 表 示 在 调用 exec() 之 
后 进程 的 能 力 集 的 取 值 ，F 表示 文件 能 力 集 。 标 识 符 cap bset 表示 能 力 边 界 集 的 取 值 。 注 意 
exec() 调 用 不 会 改变 进程 的 可 继承 能 力 集 。 


39.5.1 能 力 边界 集 


能 力 边界 集 是 一 种 用 于 限制 进程 在 execO 调 用 中 能 够 获取 的 能 力 的 安全 机 制 ， 其 用 法 
ül b. 
。 在 exec0O 调 用 中 ， 能 力 边界 集会 与 文件 许可 能 力 取 AND 来 确定 将 被 授予 新 程序 的 许 
可 能 力 。 换 名 话说 ， 当 一 个 可 执行 文件 的 某 个 许可 能 力 不 在 边界 能 力 集 中 时 残 无 法 癌 
进程 授予 该 项 能 

。 能 力 边 界 集 是 一 个 可 以 被 添加 到 进程 的 可 继承 集中 的 能 力 的 受 限 超 集 。 这 表示 除非 能 
力 位 于 边界 集中 ， 否 则 进程 就 无 法 将 其 许可 能 力 集中 的 某 个 能 力 添加 到 其 可 继承 集中 
并 一 一 通过 上 和 面 介 绍 的 第 一 条 能 力 转换 规则 一 一 在 进程 执行 一 个 可 继承 集中 包含 该 
项 能 力 的 文件 时 将 该 项 能 力 保留 在 进程 的 许可 集中 。 

能 力 边 界 集 是 一 个 进程 级 特性 ， 通 过 forkO 创 建 的 子 进程 会 继承 这 个 特性 ， 并 且 在 exec 
调用 中 会 保持 这 个 特性 。 在 文 持 文件 能 力 的 内 核 中 ，init《〈 所 有 进程 的 祖先 ) 在 局 动 时 会 使 用 
一 个 包含 了 所 有 能 力 的 能 力 边 界 集 。 

如 果 一 个 进程 具备 了 CAP SETPCAP 和 能力， 那么 它 就 可 以 使 用 preti PR CAPBSET 
DROP 操作 从 其 边界 集中 删除 能 力 〈 不 可 逆 的 )。( 从 边界 集中 删除 一 个 能 力 不 会 对 进程 的 许 
可 、 有 效 和 可 继承 能 力 集 产生 影 啊 。) 一 个 进程 使 用 pretl) PR CAPBSET. READ 操作 能 够 确 
定 一 个 能 力 是 否 位 于 其 边界 集中 。 












































更 准确 地 讲 , 能 力 边界 集 是 一 个 线程 级 的 特性 。 从 Linux 2.6.26 开始 , 这 个 特性 在 Linux 
特有 的 /proc/PID/task/TID/status 文件 中 的 CapBnd 字段 予以 显示 。/proc/PID/status 文件 显示 
了 进程 主线 程 的 边界 集 。 








39.5.2 保持 root 语义 


在 执行 一 个 文件 时 为 了 保持 root 用 户 的 传统 语义 〈 即 root 拥有 所 有 的 权限 )， 与 该 文件 相 
关联 的 所 有 能 力 集 都 会 被 忽略 。 但 为 了 满足 在 39.5 节 中 给 出 的 算法 的 要 求 ， 在 execO 期 间 文 
件 能 力 集 的 定义 如 下 。 
e 如 果 执 行 了 一 个 set-user-1D-root 程序 或 调用 execO 的 进程 的 真实 或 有 效用 户 ID 为 0， 
那么 文件 的 可 继承 和 许可 集 被 定义 为 包含 所 有 能 

e 如 果 执 行 了 一 个 set-user-ID-root 程序 或 调用 exec() 的 进程 的 有 效用 户 ID 为 0， 那 么 文 
件 有 效 位 被 定义 成 设置 状态 。 

假设 现在 正在 执行 一 个 set-user-ID-root 程序 ,那么 这 些 文件 能 力 集 的 概念 定义 表示 在 39.5 
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节 中 给 出 的 进程 的 新 许可 和 有 效能 力 集 的 计算 被 简化 成 了 : 


P'(permitted) = P(inheritable) | cap bset 
P (effective) = P'(permitted) 


39.6 KEHA ID 对 进程 能 力 的 影响 


为 了 与 用 户 ID 在 0 与 非 0 之 间 切 换 的 传统 含义 保持 羔 容 ， 在 改变 进程 的 用 户 ID. 使 用 

setuid0 等 ) 时 ， 内 核 会 完成 下 列 操作 。 

1. 如 果真 实用 户 ID, AKH ID 或 saved set-user-ID 之 前 的 值 为 0， 那么 修改 了 用 户 
ID 之 后 ， 所 有 这 三 个 ID 的 值 都 会 变 成 非 0， 并 且 进 程 的 许可 和 有 效能 力 集 会 被 清除 
《 即 所 有 的 能 力 都 被 永久 地 删除 了 )。 

2. 如 果 有 效用 户 ID 从 0 变 成 了 非 0， 那 么 有 效能 力 集会 被 清除 ( 即 有 效能 力 被 删除 了 ， 
但 那些 位 于 许可 集中 的 能 力 会 被 再 次 提升 )。 

3. 如 果 有 效用 户 ID 从 非 0 变 成 了 0， 那 么 许可 能 力 集会 被 复制 到 有 效能 力 集中 《〈 即 所 
有 的 许可 能 力 变 成 了 有 效 )。 

4. ”如 果 文 件 系 统 用 户 ID 从 0 变 成 了 非 0, 那么 会 从 有 效能 力 集中 清除 这 些 文件 相关 的 能 
CAP CHOWN, CAP DAC OVERRIDE, CAP DAC READ SEARCH, CAP FOWNER, 
CAP FSETID CAP LINUX IMMUTABLE: F1 Linux 2.6.30 £8), CAP MAC OVERRIDE 
和 CAP MKNOD CH Linux 2.6.30 起 )。 相 应 地 ， 如 果 文 件 系统 用 户 ID 从 非 0 变 成 了 0, 
那么 上 面 这 些 能 力 中 所 有 在 许可 集中 被 月 用 的 能 力 会 在 有 效 集 中 被 启用 。 完 成 这 些 操作 
之 后 ， 对 Linux 特有 的 文件 系统 用 户 ID 的 操作 的 传统 语义 将 会 得 到 保持 。 


39.7 ”用 编程 的 方式 改变 进程 能 力 


一 个 进程 可 以 使 用 capsetO 系 统 调 用 或 稍 后 介绍 的 libcap API (首选 方法 ) 在 其 能 力 集中 

提升 能 力 或 删除 能 力 。 修 改进 程 能 力 需 要 遵循 下 列 规则 。 

1. 如 果 进 程 的 有 效 集中 没有 CAP SETPCAP 能 力 ， 那 么 新 的 可 继承 集 必须 是 既 有 可 继 
承 集合 许可 和 集 组 合 的 一 个 子 集 。 

2. 新 的 可 继承 集 必 须 是 既 有 可 继承 集合 能 力 边界 集 组 合 的 一 个 子 集 。 

3. 新 许可 集 必 须 是 既 有 许可 集 的 一 个 子 集 。 换 名 话说 ， 一 个 进程 无 法 授予 自身 不 属于 其 
许可 集中 的 能 力 。 换 一 种 表述 方法 就 是 ,在 从 许可 集中 删除 了 一 个 能 力 之 后 就 无 法 再 
获取 这 个 能 力 了 。 

4. 新 的 有 效 集 只 能 包含 位 于 新 许可 集中 的 能 


































































































libcap API 


本 革 到 现在 还 不 介绍 capsetO 系 统 调 用 以 及 相应 的 获取 进程 能 力 的 capgetO 系 统 调用 的 原 
型 ， 是 因为 应 该 避免 使 用 这 两 个 系统 调用 。 相 反 ， 应 该 使 用 libcap 库 中 的 相关 函数 。 这 些 函 
数 提 供 了 一 个 与 POSIX 1003.1e 标准 章 案 一 致 的 接口 以 及 一 些 Linux 扩展 。 

限于 和 篇幅， 本章 不 会 详细 介绍 libeap API。 总 的 来 说 ， 使 用 这 些 函 数 的 程序 通常 会 执行 下 
列 步 又 。 


1. 使 用 cap get procO 函 数 从 内 核 中 获取 进程 的 当前 能 力 集 的 一 个 副本 并 将 其 放置 到 这 
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个 函数 在 用 户 空间 分 配 的 一 个 结构 中 。( 或 者 可 以 使 用 cap. initO eR 250 8] £8 — P A39 
的 空 能 力 集结 构 。) 在 libcap API 中 , cap t 数据 类 型 是 用 来 引用 此 类 结构 的 一 个 指针 。 

2. 使 用 cap set flag() 函 数 更 狐 用 户 空 间 的 结构 以 便 在 上 一 步 又 中 返回 的 存储 于 用 户 空 
间 中 的 结构 中 的 许可 、 有 效 和 可 继承 集中 提升 (CAP_SET)〉 和 删除 (CAP_CLEAR) 
能 力 。 

3. 使 用 cap set proc0O 函 数 将 用 户 空 间 的 结构 传 回 内 核 以 修改 进程 的 能 

4. 使 用 cap_freeO 函 数 释 放 在 第 一 步 中 由 libeap API 分 配 的 结构 。 


”libcap-ng 是 一 个 全 新 改良 过 的 能 力 库 AEI。 在 撰写 本 书 的 时 候 ， 有 关 libcap-ng 的 开发 
工作 仍 在 进行 中 ， 详 细 信 息 可 参考 http://freshmeat.net/projects/libcap-ng。 




















示例 程序 


程序 清单 8-2 会 根据 标准 的 口令 数据 库 来 验证 用 户 名 和 口令 。 注 意 程序 在 读 取 影像 口令 文 
件 时 需要 具备 相应 的 权限 , 而 只 有 root 和 shadow 组 中 的 成 员 才 能 够 读 取 这 个 文件 。 给 这 个 程序 
赋予 它 所 需 的 权限 的 传统 方式 是 在 root 用 户 下 运行 这 个 程序 或 将 程序 变 成 一 个 set-user-ID-root 
程序 。 下 面 将 修改 这 个 程序 使 之 使 用 能 力 和 libeap API. 

为 了 能 够 以 普通 用 户 的 喘 份 读 取 影像 口令 文件 就 需要 绕 过 标准 的 文件 权限 检查 。 从 表 
39-1 中 列 出 的 能 力 可 以 看 出 相应 的 能 力 应 该 是 CAP. DAC. READ. SEARCH。 程 序 清单 39-1 
给 出 了 修改 过 的 口令 校 验 程 序 。 这 个 程序 在 正好 需要 访问 影像 口令 文件 之 前 使 用 了 libcap API 
来 在 其 有 效能 力 集中 提升 CAP. DAC. READ. SEARCH， 然 后 在 访问 文件 之 后 立即 删除 了 这 个 
能 力 。 为 了 让 非特 权 用 户 能 够 使 用 这 个 程序 ， 必 须要 在 文件 的 许可 能 力 集 中 设置 这 个 能 力 ， 
如 下 面 的 shell 会 话 所 示 。 


$ sudo setcap "cap dac read search-p" check password caps 
root's password: 

$ getcap check password caps 

check password caps = cap dac read search+p 

$ ./check password caps 

Username: mtk 

Password: 

Successfully authenticated: UID-1000 
























































程序 清单 39-1: 使 用 能 力 来 验证 用 户 的 程序 


cap/check password caps.c 


itdefine BSD SOURCE /* Get getpass() declaration from «unistd.h» */ 
itdefine XOPEN SOURCE /* Get crypt() declaration from «unistd.h» */ 
include «sys/capability.h» 

include <unistd.h> 

include «limits.h» 

include «pwd.h» 

#include «shadow.h» 

include "tlpi hdr.h" 


/* Change setting of capability in caller's effective capabilities */ 


static int 
modifyCap(int capability, int setting) 
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cap t caps; 
cap value t caplist[1]; 


/* Retrieve caller's current capabilities */ 


caps - cap get proc(); 
if (caps -- NULL) 
return -1; 


/* Change setting of 'capability' in the effective set of 'caps'. The 
third argument, 1, is the number of items in the array 'caplist'. */ 


capList[O] = capability; 

if (cap set flag(caps, CAP EFFECTIVE, 1, caplist, setting) == -1) { 
cap free(caps); 
return -1; 


j 


/* Push modified capability sets back to kernel, to change 
caller's capabilities */ 


if (cap set proc(caps) == -1) ( 
cap free(caps); 
return -1; 

} 


/* Free the structure that was allocated by libcap */ 


if (cap free(caps) -- -1) 
return -1; 


return 0; 


j 


static int /* Raise capability in caller's effective set */ 
raiseCap(int capability) 
{ 


} 


return modifyCap(capability, CAP SET); 
/* An analogous dropCap() (unneeded in this program), could be 
defined as: modifyCap(capability, CAP CLEAR); */ 


static int /* Drop all capabilities from all sets */ 
dropAllCaps (void) 
{ 


cap t empty; 

int s; 

empty = cap init(); 
if (empty -- NULL) 


return -1; 


S - cap set proc(empty); 


if (cap free(empty) -- -1) 
return -1; 
return s; 
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j 


int 
main(int argc, char *argv[]) 
1 
char *username, *password, *encrypted, *p; 
struct passwd *pwd; 
struct spwd *spwd; 
Boolean authOk; 
size t len; 
long lnmax; 


lnmax = sysconf( SC LOGIN NAME MAX); 
if (lnmax == -1) /* If limit is indeterminate */ 
lnmax = 256; /* make a guess */ 


username - malloc(lnmax); 
if (username -- NULL) 


errExit("malloc"); 


printf("Username: "); 


fflush(stdout); 
if (fgets(username, lnmax, stdin) == NULL) 
exit(EXIT FAILURE); /* Exit on EOF */ 
len = strlen(username); 
if (username[len - 1] == '\n') 
username[len - 1] = '*0'; /* Remove trailing 'in' */ 


pwd = getpwnam(username); 
if (pwd == NULL) 
fatal("couldn't get password record"); 


/* Only raise CAP DAC READ SEARCH for as long as we need it */ 


if (raiseCap(CAP DAC READ SEARCH) -- -1) 
fatal("raiseCap() failed"); 


spwd - getspnam(username); 
if (spwd -- NULL && errno == EACCES) 
fatal("no permission to read shadow password file"); 


/* At this point, we won't need any more capabilities, 
so drop all capabilities from all sets */ 


if (dropAllCaps() == -1) 
fatal("dropAllCaps() failed"); 


if (spwd !- NULL) /* If there is a shadow password record */ 
pwd-»pw passwd - spwd-»sp pwdp; /* Use the shadow password */ 
password = getpass("Password: "); 


/* Encrypt password and erase cleartext version immediately */ 
encrypted - crypt(password, pwd-»pw passwd); 


for (p = password; *p !- '\0'; ) 
*p++ = 'NO'; 
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if (encrypted -- NULL) 

errExit("crypt"); 
authOk - strcmp(encrypted, pwd-»pw passwd) -- 0; 
if (lauthOk) ( 


printf("Incorrect password An"); 
exit(EXIT FAILURE); 


printf("Successfully authenticated: UID=%ld\n", (long) pwd-»pw uid); 
/* Now do authenticated work... */ 


exit(EXIT SUCCESS); 


cap/check password caps.c 


39.8 创建 仅 包 含 能 力 的 环境 


在 前 面 几 页 中 介绍 了 在 能 力 方面 对 用 户 ID 为 0 Croot) 的 进程 进行 特殊 处 理 的 各 种 方式 。 
e 当 一 个 或 多 个 用 户 ID 等 于 0 的 进程 将 其 所 有 的 用 户 ID 设置 为 非 0 值 时 , 进程 的 许可 
和 有 效能 力 集会 被 清除 。( 参 见 39.6 市 )。 
e 当 有 效用 户 ID 为 0 的 进程 将 用 户 ID 修改 为 非 0 值 时 会 失去 其 有 效能 力 。 当 做 方向 相 
反 的 变动 时 ， 许 可 能 力 集会 被 复制 到 有 效 集 中 。 当 进程 的 文件 系统 ID 在 0 和 非 0 fH 
之 则 切换 时 会 对 能 力 子 集 执行 一 个 类 似 的 步骤 。 
e 当真 实 或 有 效用 户 ID 为 root 的 进程 执行 了 一 个 程序 或 任意 进程 执行 了 一 个 
set-user-ID-root 程序 ， 那 么 文件 的 可 继承 和 许可 集会 被 定义 成 包含 所 有 能 力 。 如 果 
进程 的 有 效用 户 ID 为 0 或 者 它 正 在 执行 一 个 set-user-ID-root 程序 ， 那 么 文件 的 有 
效 位 被 定义 成 1。( 人 参见 39.5.2 75) 在 通常 情况 下 ( 即 真 实 和 有 效用 户 ID 都 是 root 
或 正在 执行 一 个 set-user-ID-root 程序 )， 这 表示 进程 的 许可 和 有 效 集中 包含 了 所 有 
能 力 。 
在 一 个 完全 基于 能 力 的 系统 中 ， 内 核 无 需 对 root 用 户 执行 这 些 特 殊 的 处 理 ， 因 为 不 存在 
set-user-ID-root 程序 并 且 只 会 使 用 文件 能 力 赋 给 程序 执行 所 需 的 最 小 能 
由 于 既 有 应 用 程序 不 会 使 用 文件 能 力 基 础 架构 ， 因 此 内 核 必 须要 维持 对 用 户 ID 为 0 的 进 
程 的 传统 处 理 ， 但 可 以 要 求 应 用 程序 在 一 个 完全 基于 能 力 的 环境 中 运行 ， 在 这 样 的 环境 中 ， 
不 会 对 root 做 上 述 的 特殊 处 理 。 从 2.6.26 的 内 核 开 始 ， 当 在 内 核 中 局 用 了 文件 能 力 时 ，Linux 
会 提供 securebits 机 制 ， 它 可 以 控制 一 组 进程 级 别 的 标记 ， 通 过 这 组 标记 可 以 分 别 局 用 或 禁用 
表面 针对 root 的 三 种 特殊 处 理 中 的 各 种 特殊 处 理 。( 更 准确 地 讲 ，securebits 标记 实际 上 是 一 个 
线程 级 别 的 特性 。) 
securebits 机 制 控制 厦 表 39-2 中 列 出 的 标记 ， 每 个 标记 由 一 对 相关 的 base 标记 和 相应 的 
locked 标记 表示 。 每 个 base 标记 控制 上 面 描述 的 针对 root 的 一 种 特殊 处 理 。 设 置 相 应 的 locked 
标记 是 一 个 一 次 性 操作 ， 用 于 防止 对 相关 联 的 base 标记 的 后 续 变 更 一 一 一 旦 设置 之 后 就 无 法 
重 置 locked 标记 了 。 
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表 39-2: securebits 标记 
标 id 设置 之 后 的 含义 


SECBIT_KEEP_CAPS 当 一 个 或 多 个 用 户 ID 为 0 的 进程 将 其 所 有 的 用 户 ID 设置 
为 非 0 值 时 不 要 删除 许可 权限 。 只 有 在 没有 设置 
SECBIT NO SETUID FIXUP 标记 的 情况 下 这 个 标记 才 会 
起 作用 。 在 execO 中 这 个 标记 会 被 清除 























SECBIT NO SETUID FIXUP 当 有 效 或 文件 系统 用 户 ID 在 0 和 非 0 之 间 切 换 时 不 要 改 
变 能 

SECBIT_NOROOT 在 一 个 真实 或 有 效用 户 ID 为 0 的 进程 调用 了 exec0 或 执行 
了 一 个 set-user-ID-root 程序 时 不 要 赋予 其 能 力 ( 除 非 可 执 
行文 件 拥 有 文件 能 力 》 

SECBIT KEEP CAPS LOCKED 锁 住 SECBIT KEEP CAPS 

SECBIT NO SETUID FIXUP LOCKED | 锁 住 SECBIT NO SETUID FIXUP 

SECBIT NOROOT LOCKED 锁 住 SECBIT NOROOT 


forkO 创 建 子 进程 会 继承 securebits 标记 设置 ,在 调用 exec() 期 间 , 除 SECBIT KEEP CAPS 
之 外 的 所 有 标记 设置 都 会 得 到 体 留 ， 之 所 以 清除 SECBIT KEEP CAPS 标记 是 为 了 与 下 面 描 
RHI PR SET KEEPCAPS 设置 保持 兼容 。 
进程 可 以 使 用 pret) PR_GET_SECUREBITS 操作 来 获取 securebits 标记 。 一 个 进程 如 采 
拥有 CAP SETPCAP 能 力 ， 那 么 它 就 可 以 使 用 prctl() PR SET SECUREBITS 操作 修改 
securebits 标记 。 一 个 完全 基于 能 力 的 应 用 程序 能 够 使 用 下 面 的 调用 不 可 逆 地 和 禁用 调用 进程 及 
其 所 有 子孙 进程 对 root 用 户 的 特殊 处 理 。 
if (prctl(PR SET SECUREBITS, 
/* SECBIT KEEP CAPS off */ 
SECBIT NO SETUID FIXUP | SECBIT NO SETUID FIXUP LOCKED | 
SECBIT NOROOT | SECBIT NOROOT LOCKED) 
"cs 
在 执行 完 这 个 调用 之 后 ， 这 个 进程 及 其 所 有 子孙 进程 获取 能 力 的 唯一 方式 是 执行 拥有 文 
件 能 力 的 程序 。 











SECBIT KEEP CAPS 和 prctl) PR_SET_KEEPCAPS 操作 


SECBIT KEEP CAPS 标记 能 够 防止 能 力 在 一 个 或 多 个 用 户 ID 为 0 的 进程 将 其 所 有 的 用 
P ID 值 设 置 为 非 0 值 时 被 删除 。 粗 略 地 讲 ，SECBIT KEEP CAPS 提供 了 SECBIT NO 
SETUID FIXUP 标记 的 一 半 功 能 。( 从 表 39-2 中 可 以 看 出 ， 只 有 在 SECBIT NO SETUID 
FIXUP 没有 被 设置 的 情况 下 ，SECBIT _ KEEP CAPS 才 会 起 作用 。) 这 个 标记 的 存在 是 为 了 提 
供 一 个 实现 更 古老 的 pretl0) PR SET KEEPCAPS 操作 的 securebits 标记, 它 控制 看 同样 的 特性 。 
(这 两 种 机 制 之 间 的 一 个 差别 是 进程 在 使 用 preti) PR. SET KEEPCAPS 操作 时 无 需 共 备 
CAP SETPCAP 能 力 。) 














之 前 曾经 提 过 在 execO 调 用 期 间 会 保持 除 SECBIT KEEP CAPS 之 外 的 所 有 securebits 
标记 。 对 SECBIT KEEP CAPS 位 的 设置 与 其 他 securebits 设置 相反 是 为 了 与 通过 prctl 
PR SET KEEPCAPS 操作 设置 的 对 特性 的 处 理 保 持 一 致 。 
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preti) PR. SET KEEPCAPS 操作 由 运行 于 老式 的 不 文 持 文 件 能 力 的 内 核 上 的 set-user-ID-root 
程序 使 用 。 此 类 程序 可 以 通过 在 程序 中 删除 能 力 并 在 需要 的 时 候 提 升 能 力 〈 人 参见 39.10 市 ) 来 
提高 安全 性 。 

即使 此 类 set-user-ID-root 程序 删除 了 除 所 需 的 权限 之 外 的 所 有 其 他 权限 ， 它 仍然 会 保留 
两 个 重要 的 权限 : 访问 由 root 用 户 拥 有 的 文件 的 权限 以 及 通过 执行 程序 午 狐 获取 能 力 的 权限 
(参见 39.5.2 下)。 了 永久 删除 这 些 权 限 的 唯一 方式 是 将 进程 的 所 有 用 户 ID 值 设置 为 非 0 值 , 但 
这 样 做 通常 会 导致 清除 许可 和 有 效能 力 集 (参见 39.6 节 中 有 关 用 户 ID 的 变动 对 能 力 造 成 的 四 
点 影响 )。 这 残 产 生 了 和 矛盾 ， 即 在 保持 一 些 能 力 的 同时 永久 地 删除 用 户 ID 0。 为 了 允许 这 样 的 
情况 发 生 ， 可 以 使 用 pret) PR SET KEEPCAPS 操作 来 设置 进程 特性 以 防止 在 所 有 的 用 户 ID 
变 成 非 0 值 时 许可 能 力 集 被 清除 。( 在 这 种 情况 下 总 是 会 清除 进程 的 有 效能 力 集 ， 不 管 是 否 设 
置 了 “keep capabilities” 特 性 。) 















































39.9 农 现 程序 所 需 的 能 


假设 现在 有 一 个 对 能 力 一 无 所 知 的 程序 并 且 只 有 这 个 程序 的 二 进 制 文件 ， 或 者 假设 程序 
的 代码 太 多 了 以 至 于 无 法 很 容易 地 确定 运行 这 个 程序 需要 有 具备 那些 能 力 。 如 果 这 个 程序 需要 
特权 , 但 又 不 是 一 个 set-user-ID-root 程序 ， 那么 如 何 确定 将 哪些 许可 能 力 使 用 setcap(8) 赋 给 这 
个 可 执行 文件 呢 ? 解答 这 个 问题 的 答案 有 两 个 。 
e 使 用 strace(1) (附录 AO 检查 哪个 系统 调用 的 错误 号 是 EPERM,， 因 为 这 个 错误 号 是 用 
来 标示 缺乏 所 需 的 能 力 的 。 通 过 查阅 系统 调用 的 手册 或 内 核 的 源 代 码 可 以 推 新 出 程序 
需要 哪些 能 力 。 但 这 个 方法 不 是 很 完美 ， 因 为 偶尔 会 因为 其 他 原因 而 引起 EPERM 错 
误 ， 其 中 一 些 原 因 与 程序 缺乏 相应 的 能 力 这 个 问题 训 无 关系 。 此 外 ， 程 序 可 能 会 正常 
调用 一 个 需要 权限 的 系统 调用 ， 然 后 在 确定 没有 权限 执行 某 个 特定 操作 之 后 改变 目 喘 
的 行为 。 而 有 些 时 候 在 试图 确定 一 个 可 执行 文件 实际 所 需 的 能 力 时 是 难以 区 分 这 种 
“积极 响应 错误 ”的 情况 的 。 
。 使 用 一 个 内 核 探 针 在 内 核 被 要 求 执行 能 力 检 查 时 产生 监控 输出 。[Hallyn, 2007]〈 由 其 
中 一 个 文件 能 力 模 块 的 开发 者 撰写 的 一 篇 文章 提供 了 如 何 完 成 这 个 任务 的 一 个 示 
例 。 对 于 每 个 能 力 检 查 请 求 ， 文 章 中 所 指 的 探 针 都 会 记录 被 调 用 的 内 核 水 数 、 被 请 求 
的 能 力 以 及 请 求 程 序 的 名 称 。 虽 然 这 个 方法 比 使 用 strace(1) 需 要 做 更 多 的 工作 ， 但 它 
有 助 于 更 加 精确 地 确定 一 个 程序 所 需 的 能 


39.10 不 具备 文件 能 力 的 老式 内 核 和 系统 


本 节 将 介绍 之 前 各 种 版 本 的 内 核 中 有 关 能 力 实现 方面 的 差异 以 及 碰 到 不 文 持 文件 能 力 的 
内 核 时 所 发 生 的 行为 差异 。Linux 在 下 面 两 个 场景 中 是 不 支持 文件 能 力 的 。 
e 在 Linux 2.6.24 之 前 的 版 本 中 没有 实现 文件 能 
e H Linux 2.6.24 起 ， 当 在 构建 内 核 时 不 指定 CONFIG SECURITY FILE CAPABILITIES X 
项 时 文件 能 力 将 会 被 禁用 。 
















































































里 然 从 2.2 内 核 开 始 ，Linux 束 已 经 引入 了 能 力 并 允许 将 能 力 附加 a 到 进程 中 ， 但 文件 能 
力 的 实现 则 推 后 了 好 几 年 。 之 所 以 未 实现 文件 能 力 的 原因 不 是 因为 技术 上 的 困难 ， 而 是 因 
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为 政策 的 原因 。( 第 16 章 介 绍 的 扩展 特性 被 用 来 实现 文件 能 力 ,， 但 它 直 到 2.6 内 核 才 可 用 。) 
大 部 分 内 核 开 发 人 员 要 求 系统 管理 员 为 各 个 特权 程序 分 别 设置 和 监控 能 力 集 的 意见 会 使 得 
管理 任务 变 得 复杂 和 难以 管理 一 一 虽然 有 些 意见 是 合理 的， 但 很 难 做 到 。 相 反 ， 系 统管 理 
员 对 于 现 有 的 UNIX 权限 模型 比较 熟悉 ， 他 们 知道 如 何 小 心 处 理 set-user-ID 程序 并 且 能 够 
使 用 简单 的 find 命令 找 出 系统 中 的 set-user-ID 和 set-group-ID 程序 。 不过, 文件 能 力 模块 的 
开发 人 员 使 得 文件 能 力 的 应 用 在 管理 上 变 得 可 行 ， 最 终 为 将 文件 能 力 集成 进 内 核 提供 了 足 
够 的 令 人 信服 的 论据 。 


























CAP SETPCAP 能 力 


在 不 文 持 文件 能 力 的 内 核 中 《〈 即 所 有 2.6.24 之 前 的 内 核 以 及 上 自 2.6.24 起 文件 能 力 被 禁用 
的 内 核 )，CAP_SETPCAP 能 力 的 语义 是 不 同 的 。 根 据 与 39.7 市 中 插 述 的 规则 类 似 的 规则 ， 从 
理论 上 来 讲 ， 一 个 在 有 效 集 中 包含 CAP SETPCAP 能 力 的 进程 能 够 修改 除 目 身 之 外 的 其 他 进 
程 的 能 力 。 换 句 话 说 ， 可 以 修改 为 一 个 进程 的 能 力 、 指 定 进 程 组 中 所 有 成 员 的 能 力 以 及 系统 
中 除 init 和 调用 者 本 号 之 外 的 所 有 进程 的 能 力 。 之 所 以 将 init 排除 在 外 是 因为 它 对 于 系统 的 运 
作 起 看 基础 性 的 作用 。 之 所 以 还 将 调用 者 本 映 排除 在 外 是 因为 调用 者 可 能 会 试图 删除 系统 中 
其 他 进程 的 能 力 ， 但 这 里 并 个 希望 调用 进程 能 删除 目 己 的 能 

修改 其 他 进程 的 能 力 只 是 在 理论 上 可 行 ， 在 较 早 的 内 核 以 及 鞭 用 了 文件 能 力 的 现代 内 核 
中 ， 能 力 边 界 集 〈 稍 后 讨论 ) 总 是 会 隐藏 摊 CAP SETPCAP 能 












































能 力 边界 集 

H Linux 2.6.25 起 ， 能 力 边 界 集 就 是 一 个 进程 级 的 特性 了 。 但 在 较 早 的 内 核 中 ， 能 力 边界 
集 是 一 个 系统 级 别 的 特性 ， 它 会 影响 系统 中 的 所 有 进程 。 在 初始 化 系统 级 别 的 能 力 边界 集 时 
总 是 会 隐藏 CAP SETPCAP (参见 前 面 的 介绍 )。 


在 2.6.25 之 后 的 内 核 中 ， 只 有 当 在 内 核 中 启用 了 文件 能 力 时 才 文 持 从 各 个 进程 的 边界 
集中 删除 能 力 。 在 那 种 情况 下 ， 所 有 进程 的 祖先 进程 init 在 启动 的 时 候 会 包含 所 有 的 能 
系统 中 所 有 其 他 进程 会 继承 该 边界 集 的 一 个 副本 。 如 果 文 件 能 力 被 禁用 了 ， 那 么 由 于 上 面 
描述 的 CAP SETPCAP 能 力 的 语义 存在 差别 ， 因 此 init 在 启动 的 时 候 会 包含 除 
CAP SETPCAP 之 外 的 所 有 能 


在 Linux 2.6.25 中 对 能 力 边界 集 的 语义 还 做 了 另 一 个 变更 。 在 之 前 (39.5.1 7) 曾经 提 过 ， 
在 Linux 2.6.25 以 及 之 后 的 版 本 中 , 各 个 进程 的 能 力 边 界 集 是 作为 能 够 被 添加 到 进程 的 可 继承 集 
中 的 能 力 的 一 个 受 限 超 集 来 处 理 的 。 在 Linux 2.6.24 以 及 之 前 的 版 本 中 ， 系 统 级 别 的 能 力 边 界 集 
并 没有 这 种 掩 但 效果 〈 不 需要 这 种 效 末 ， 因 为 这 些 内 核 不 文 持 文件 能 力 )。 

通过 Linux 特有 的 /proc/sys/kernel/cap-bound 文件 能 够 访问 系统 级 别 的 能 力 边 界 集 。 进 程 
必须 要 具备 CAP SYS MODULE 能 力 才 能 修改 cap-bound 文件 的 内 容 。 但 只 有 init 进程 才能 
够 开局 这 个 掩 人 码 中 的 位 ， 其 他 特权 进程 只 能 关闭 掩 人 码 中 的 位 。 这 些 限 制 的 结果 就 是 在 不 文 持 
文件 能 力 的 系统 上 永远 都 无 法 将 CAP SETPCAP 能 力 赋 给 进程 。 这 种 做 法 是 合理 的 ， 因 为 这 
个 能 力 可 以 用 来 破坏 整个 内 核 权 限 检查 系统 。( 当 需要 修改 这 个 限制 时 必须 要 加 载 一 个 修改 集 
合 中 的 值 的 内 核 模块 并 修改 init 程序 的 源 代 人 码 或 者 在 内 核 源 代码 中 修改 能 力 边界 集 的 初始 化 
过 程 并 重建 内 核 。) 
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令 人 迷惑 的 是 ， 虽 然 是 一 个 位 手 码 , 但 在 cap-bound VHP 28 Sti EN d FEL EZ 2g — 
个 带 符 号 的 十 进 制 数 字 。 如 文件 中 的 初始 值 是 -237， 它 是 除 (1 << 8) 之 外 所 有 位 都 被 开启 的 
位 手 码 的 二 的 补 码 表示 〈 即 二 进 制 格式 为 11111111 11111111 11111110 111111112; 
CAP SETPCAP 的 值 为 8。 











在 运行 于 无 文件 能 力 的 系统 上 的 程序 中 使 用 能 
即使 在 不 文 持 文件 能 力 的 系统 上 仍然 可 以 使 用 能 力 来 提升 程序 的 安全 性 。 这 是 通过 下 列 
步骤 来 完成 的 。 
1. 在 一 个 有 效用 户 D 为 0 的 进程 中 运行 这 个 程序 〈 通 音 是 一 个 set-user-ID-root 程序 )。 此 
类 进程 的 许可 和 有 效能 力 集中 包含 了 所 有 的 能 力 ( 前 面 提 过 ,除了 CAP SETPCAP 能 力 )。 
2. 在 程序 启动 的 时 候 使 用 1libcap API 删 除 有 效 集中 的 所 有 能 力 和 许可 集中 除 后 面 会 用 到 
的 能 力 之 外 的 其 他 所 有 能 
3. 设置 SECBIT KEEP CAPS 标记 (或 使 用 prctl) PR SET KEEPCAPS 操作 达到 同样 
的 效 来 )， 这 样 在 下 一 步 中 残 不 会 删除 能 力 了 。 
4. 将 所 有 用 户 ID 设 为 非 0 值 以 防止 进程 访问 由 root 拥有 的 文件 或 在 exec0 中 获取 能 





























如 果 需 要 防止 进程 在 execO 中 重新 获取 权限 但 同时 要 允许 它 访问 由 root 拥有 的 文件 的 
话 则 可 以 使 用 SECBIT NOROOT 标记 这 一 步 来 取代 前 面 的 两 步 。( 当然 ， 允 许 进 程 访 问 由 
root 拥有 的 文件 为 一 些 安 全 性 风险 打开 了 大 门 。) 























s. 在 程序 的 后 续 生 命 周期 中 根据 需要 使 用 libeap API 在 有 效 集中 提升 或 删除 剩余 的 许可 
能 力 以 便 执 行 特权 任务 。 
些 基 于 2.6.24 之 前 的 Linux 内 核 的 应 用 程序 及 用 了 这 种 方法 。 











在 所 有 上 反对 为 可 执行 文件 实现 能 力 的 内 核 开 发 者 所 提出 的 反对 理由 中 ， 反 对 使 用 正文 
中 所 描述 的 方法 的 最 充分 的 理由 之 一 是 应 用 程序 的 开发 人 员 通 常 知 道 可 执行 程序 需要 用 到 
哪些 能 力 ， 而 系统 管理 员 可 能 无 法 轻易 地 确定 此 关 信 息 。 








39.11 总结 


Linux 能 力 模 型 将 特权 操作 划分 成 不 同 的 种 类 并 允许 一 个 进程 在 被 授予 一 些 能 力 的 同时 
外 Q 蔡 止 使 用 其 他 能 力 。 这 个 模型 对 传统 的 一 个 进程 要 么 拥有 权限 执行 所 有 的 操作 CHIP ID 为 
0) 或 没有 权限 (用 户 ID 非 0) 执行 操作 的 all-or-nothing 权限 机 制 进 行 了 优化 。 自 2.6.24 内 核 
起 ，Linux 文 持 将 能 力 附加 到 文件 上 ， 这 样 进程 可 以 通过 执行 程序 来 获取 所 选中 的 能 

















39.12 >J 


39-1. 修改 程序 清单 35-2 中 的 程序 (sched_set.c) 使 它 使 用 文件 能 力 ， 这 样 非特 权 用 户 就 
也 能 使 用 这 个 程序 了 。 
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/rr 


go 





EH 


登录 记 账 











登录 记 账 关注 的 是 哪些 用 户 当 前 登录 进 了 系统 以 及 记录 过 去 的 登录 和 登 出 行为 。 本 章 将 
介绍 登录 记 账 文件 以 及 用 来 获取 和 更 新 这 些 文件 中 所 包含 的 信息 的 库 函 数 。 此外， 本 章 还 将 
介绍 提供 登录 服务 的 应 用 程序 应 该 采取 的 措施 以 便 在 用 户 登 录 和 登 出 时 更 新 这 些 文件 。 























40.1 utmp 和 wtmp 文件 概述 


UNIX 系统 维护 看 两 个 包含 与 用 户 登 录 和 登 出 系统 有 关 的 信息 的 数据 文件 。 

e utmp 文件 维护 看 当前 登录 进 系统 的 用 户 记 录 〈( 以 及 其 他 一 些 信 息 ， 各 后 将 会 介绍 )。 
每 一 个 用 户 登 录 进 系统 时 都 会 问 ump 文件 写 入 一 条 记录 。 在 这 条 记录 中 包含 一 个 
ut user 字段 ， 它 记录 看 用 户 的 登录 名 。 当 用 户 登 出 的 时 候 访 条 记录 会 被 删除 。 像 
who(1) 之 类 的 程序 会 使 用 utmp 文件 中 的 信息 来 显示 当前 登录 进 系统 的 用 户 列表 。 

e wtmp 文件 包含 看 所 有 用 户 登 录 和 登 出 行为 的 留 浪 信息 以 供 审 计 之 用 (以 及 其 他 一 些 

信息 ， 各 后 将 会 介绍 )。 每 一 个 用 户 登 录 进 系统 时 ， 写 入 utmp 文件 中 的 记录 同时 会 被 
附加 到 wtmp 文件 中 。 当 用 户 登 出 系统 的 时 候 还 会 问 这 个 文件 附加 一 条 记录 。 这 条 记 
录 包 含 的 信息 与 登录 记录 相同 ， 但 ut user 字段 会 被 置 零 。1ast(1) 命 令 可 以 用 来 显示 和 
过 小 wtmp 文件 中 的 内 容 。 

在 Linux E, utmp 文件 位 于 /varrun/utmp，wtmp 文件 位 于 /var/log/wtmp。 一 般 来 讲 ， 应 用 
程序 无 需 知道 这 些 路 径 名 ， 因 为 这 些 路 径 名 是 编译 进 glibc 的 。 需 要 引用 这 些 文件 的 存储 位 置 的 
程序 应 该 使 用 在 <*paths.h> (and <utmpx.h>) 中 定义 的 _PATH_UTMP 和 _PATH_WTM 路径 名 常量 ， 
而 不 是 在 代码 中 便 编 码 路径 名 。 


SUSv3 并 没有 为 utmp 和 wtmp 文件 的 路 径 名 提供 标准 化 的 笠 写 名 。Linux 和 BSD 使 用 
J _PATH_UTMP 和 _PAIH_WTMP 。 而 其 他 很 多 UNIX 实现 定义 了 UTMP FILE 和 
WTMP FILE 常量 来 表示 这 两 个 路 任 名 。Linux 还 在 <sutmp.h> 中 定义 了 这 些 名 词 ， 但 并 没有 
在 <utmpx.h> 和 <paths.h> 中 对 它们 进行 定义 。 
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40.2  utmpx API 


utmp 和 wtmp 文件 很 早 就 出 现在 了 UNIX 系统 上 了 ， 但 随 看 系统 的 汗 化 ， 不 同 UNIX SE 
现 之 间 的 分 芭 开 始 出 现 了 ， 特 别 是 BSD 与 System V ZAA] System V Release 4 对 API 
进行 了 大 量 的 扩展 , 包括 创建 了 一 个 全 新 的 〈 并 行 的 ) utmpx 结构 以 及 相关 的 utmpx 和 wtmpx 
文件 。 同 样 , 处理 这 些 狐 文 件 的 函数 名 以 及 相关 的 头 文 件 名 中 也 包含 了 字母 x。 很 多 其 他 UNIX 
实现 也 在 API 中 增加 了 目 己 的 扩展 。 

本 章 将 介绍 Linux utmpx API, 它 是 BSD 和 System V 实现 的 一 个 混合 体 。Linux 并 没有 像 
System V 那样 创建 并 行 的 utmpx 和 wtmpx 文件 ， 相 反 ，utmp 和 wtmp 文件 包含 了 所 有 上 所 需 的 
言 轧 。 但 为 了 与 其 他 UNIX SCHULTE AE, Linux 提供 了 传统 的 utmp 和 从 System V 演化 而 来 
的 utmpx API 来 访问 这 些 文件 的 内 容 。 在 Linux. E, 这 两 组 API 返回 的 信息 是 完全 一 样 的 。( 这 
两 组 API 之 闻 的 差别 之 一 是 utmp API 中 的 一 些 函 数 是 可 重 入 的 ， 而 utmpx 中 的 图 数 是 不 可 重 
入 的 。) 由 于 SUSv3 规定 了 utmpx API， 因 此 从 与 其 他 UNIX 实现 保持 可 移植 的 角度 出 发， 本 
章 将 介绍 utmpx 接口 。 

SUSv3 XI iG JETE 18 05$] utmpx API 的 方方面面 (如 并 没有 规定 utmp 和 wtmp 文件 的 存 
放 位 置 )。 不 同 实 现 上 的 登录 记 账 文件 中 包含 的 内 容 稍微 存 在 一 些 差 开 ， 并 且 各 种 实现 都 提供 
了 额外 的 登录 记 账 函数 ， 而 SUSv3 并 没有 对 这 些 函 数 了 予以 定义 。 















































[Frisch, 2002] 中 的 第 17 章 对 不 同 UNIX 实现 中 wtmp 和 utmp 文件 在 存放 位 置 和 使 用 方 
面 的 兰 异 进行 了 总 络 。 此 外 还 介绍 了 ac() 命 令 的 用 法 ， 这 条 命令 可 以 用 来 对 wtmp 文件 中 
的 登录 信息 进行 总 结 。 


40.3 ”utmpx 结构 


utmp 和 wtmp 文件 包含 utmpx 记录 。utmpx 结构 式 在 <utmpx.h> 中 定义 的 ， 如 程序 清单 40-1 
所 示 。 


SUSv3 规范 中 的 utmpx 结构 不 包含 ut host, ut exit, ut session 以 及 ut_addr_v6 字段 。 
在 其 他 大 多 数 实 现 中 都 存在 ut host 和 ut_exit 字段 ;一 些 实现 上 还 定义 了 ut_session 字段 ; 
ut addr v6 是 Linux 特有 的 字段 。SUSv3 规定 了 ut line 和 ut_user 字段 ， 但 并 没有 规定 它们 
IH BE» 

在 utmpx 结构 中 ut addr v6 字段 的 数据 类 型 是 int32_ t， 它 是 一 个 32 位 的 整数 。 


程序 清单 40-1: utmpx 结构 的 定义 


#define GNU SOURCE /* Without GNU SOURCE the two field 

struct exit status { names below are prepended by " ^" */ 
short e termination; /* Process termination status (signal) */ 
short e exit; /* Process exit status */ 


#define _ UT LINESIZE 32 
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#define UT NAMESIZE 32 


#define UT HOSTSIZE 256 


struct utmpx { 


short ut type; /* Type of record */ 

pid t ut pid; /* PID of login process */ 

char ut line[ UT LINESIZE]; /* Terminal device name */ 

char ut id[4]; /* Suffix from terminal name, or 
ID field from inittab(5) */ 

char ut user[ UT NAMESIZE]; /* Username */ 

char ut host[ UT HOSTSIZE]; /* Hostname for remote login, or kernel 
version for run-level messages */ 

struct exit status ut exit; /* Exit status of process marked 


as DEAD PROCESS (not filled 
in by init(8) on Linux) */ 


long ut session; /* Session ID */ 
struct timeval ut tv; /* Time when entry was made */ 
int32 t ut addr v6[4]; /* IP address of remote host (IPv4 


address uses just ut addr v6e[o], 
with other elements set to 0) */ 
char  unused[20]; /* Reserved for future use */ 


E 


utmpx 结构 中 的 所 有 字符 串 字 段 都 以 null 结尾 ， 除 非 值 完 全 盾 满 了 相应 的 数组 。 

对 于 登录 进程 来 讲 ， 存 储 在 ut_line 和 ut id 字段 中 的 信息 是 从 终端 设备 的 名 称 中 得 出 的 。 
ut line 字段 包含 了 终端 设备 的 完整 的 文件 名 。ut_id 字段 包含 了 文件 名 的 后 级 一 一 跟 在 tty. pts 
或 pty 后 面 的 学 符 串 (后 两 个 分 别 表 示 System-V 和 BSD 风格 的 伪 终 端 )。 因 此 ， 对 于 /dev/tty2 
终端 来 讨 ，ut_line 的 值 为 tty2, ut id 的 值 为 2。 

在 窗口 环境 中 ， 一 些 终端 模拟 器 使 用 ut session 字段 来 为 终端 窗口 记录 会 话 ID (有 关 会 
w ID 的 介绍 请 参考 34.3 1). 

ut type 字段 是 一 个 整数 ， 它 定义 了 写 入 文件 的 记录 类 型 ， 其 取 值 为 下 和 面 一 组 常量 中 的 一 
个 《括号 中 给 出 了 相应 的 数值 )。 




















EMPTY (0) 
这 个 记录 不 包含 有 效 的 记 账 信息 。 





RUN LVL (1) 

这 个 记录 表明 在 系统 启动 或 关闭 时 系统 运行 级 别 发 生 了 变化 。( 有 关 运 行 级 别 的 信息 可 以 在 
init(8) 手 册 中 找到 。〉 要 在 <utmpx.h> 中 取得 这 个 常量 的 定义 就 必须 要 定义 _GNU_SOURCE 特性 测 
VAS 

















BOOT TIME (2) 
这 个 记录 包含 ut tv 字段 中 的 系统 局 动 时 间 。 写 入 RUN_LVL 和 BOOT TIME 字段 的 进程 
通常 是 init。 这 些 记 录 会 同时 被 写 入 utmp 和 wtmp 文件 。 


NEW TIME (3) 
这 个 记录 包含 系统 时 钟 变 更 之 后 的 痢 时 间 ， 记 录 在 ut. tv 字段 中 。 





OLD_TIME (4) 
这 个 记录 包含 系统 时 钟 变更 之 前 的 旧时 间 , 记录 在 ut. tv 字段 中 。 当 系统 时 钟 发 生变 更 时 ， 
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NTP daemon 〈 或 类 似 的 进程 ) 会 将 类 型 为 OLD_TIME 和 NEW TIME 的 记录 写 入 到 utmp 和 
wtmp 文件 中 。 


INIT PROCESS (5) 
记录 由 init 进程 及 化 的 进程 ， 如 getty 进程 ， 细 方 信息 请 参考 initab(5) FH. 








LOGIN. PROCESS (6) 
记录 用 户 登 录 会 话 组 长 进程 ， 如 login(1) 进 程 。 








USER_PROCESS (7) 
记录 用 户 进 程 ， 通 第 是 登录 会 话 ， 用 户 名 会 出 现在 ut_user 字段 中 。 登 录 会 话 可 能 是 由 
login(1) 局 动 ， 或 者 也 可 能 是 由 像 ftp 和 ssh 之 类 的 提供 远程 登录 工具 的 应 用 程序 启动 。 


























DEAD_PROCESS (8) 

这 个 记录 标识 出 已 经 退出 的 进程 。 

这 里 之 所 以 给 出 了 这 些 常 量 的 数值 是 因为 很 多 应 用 程序 都 要 求 这 些 常 量 的 数值 顺序 与 上 
面 列 出 的 顺序 一 致 。 如 在 agetty 程序 的 源 代码 中 可 以 友 现 下 面 这 样 的 检查 。 

utp->ut type >= INIT PROCESS && utp->ut type <= DEAD PROCESS 

类 型 为 INIT PROCESS 通常 对 应 于 getty(8) 调 用 (或 类 似 的 程序 ， 如 agetty(8) 和 
mingetty(8))。 在 系统 启动 的 时 候 ，init 进程 会 为 每 个 命令 行 和 虚拟 控制 台 创 建 一 个 子 进 程 ， 
个 子 进程 会 执行 getty 程序 。getty 程序 会 打开 终端 ， 提 示 用 户 输入 用 户 名 ,然后 执行 login(1)。 
当成 功 验证 用 户 以 及 执行 了 其 他 一 些 动作 之 后 ,login 会 创建 一 个 子 进程 来 执行 用 户 登 录 shell. 
这 种 登录 会 话 的 完整 声明 周期 由 写 入 wtmp 文件 的 四 个 记录 来 表示 ， 其 顺序 如 下 所 示 。 

e 一 个 INIT_ PROCESS 记录 ， 由 init 写 入 。 

e 一 个 LOGIN_PROCES 记录 ， 由 getty 写 入 。 

e 一 个 USER_PROCESS Wx, M login 5A. 

e 一 个 DEAD PROCESS 记录 ， 当 init 进程 检测 到 login 子 进程 死亡 之 后 (发 生 在 用 记 

R Ae 

更 多 有 关 在 用 户 登 录 期 间 getty 和 login 的 操作 的 细 市 可 以 在 [Stevens & Rago, 2005] 的 第 9 

草 中 找到 。 









































一 些 版 本 的 init 会 在 更 新 wtmp 文件 之 前 孵化 出 getty 进程 ， 这 样 init 和 getty 会 在 更 新 
wtmp 文件 时 形成 竞争 ， 从 而 导致 INIT PROCESS 和 LOGIN_PROCESS 记录 的 写 入 顺序 与 
正文 中 描述 的 顺序 相反 。 





40.4 ”从 utmp 和 wtmp 文件 中 检索 信息 


本 下 介 绍 的 图 数 能 从 包含 utmpx 格式 记录 有 的 文件 中 获取 读 取 信息 。 在 页 认 情 况 下 ， 这 些 函 
数 使 用 标准 的 utmp 文件 ， 但 使 用 utmpxname0O 函 数 〔 稍 后 介绍 〉 能 够 改变 读 取 的 文件 。 

这 些 函 数 都 使 用 了 当前 位 置 〈current location〉 的 概念 ， 它 们 会 从 文件 中 的 当前 位 置 来 读 
取 记 录 ， 每 个 函数 都 会 更 新 这 个 位 置 。 

setutxent() K ZI f utmp 文件 的 当前 位 置 设 置 到 文件 的 起 始 位 置 。 

















第 40 章 ”登录 记 账 673 


异步 社区 会 员 flyman150(2410757683@qq.com) EF 尊重 版 权 





include «utmpx.h» 


void setutxent(void); 











通常 ， 在 使 用 任意 getutx*0 了 水 数 ( 稍 后 介绍 ) 之 六 应 该 调用 setutxent0， 这 样 就 能 避免 因 
程序 中 已 经 调用 到 的 第 三 方 函 数 在 之 前 用 过 这 些 函 数 而 产生 的 混淆 。 根 据 所 执行 的 任务 的 不 
同 ， 在 程序 后 面 合 适 的 地 方 可 能 需要 调用 setutxent()。 

当 utmp 文件 没有 被 打开 时 ，setutxent() 函 数 和 getutx*0 函 数 会 打开 这 个 文件 。 当 用 完 这 个 
文件 之 后 可 以 使 用 endutxent0 函 数 来 天 闭 这 个 文件 。 


#include <utmpx.h> 

















void endutxent(void); 








getuxent), getutxid( I getutxline0 函 数 从 utmp 文件 中 读 取 一 个 记录 并 返回 一 个 指向 
utmpx Z5 TJ CH SANG WIFREN 





include «utmpx.h» 


struct utmpx *getutxent(void); 
struct utmpx *getutxid(const struct utmpx *ut); 
struct utmpx *getutxline(const struct utmpx *ut); 


All return a pointer to a statically allocated utmpx structure, 
or NULL if no matching record or EOF was encountered 








getutxent() PK ZA UL Fr 3: HX utmp 文件 中 的 下 一 个 记录 。getutxid0 和 getutxline() K žre P pi 
文件 位 置 开 始 搜索 与 ut 参数 指向 的 utmpx 结构 中 指定 的 标准 匹配 的 一 个 记录 。 
getutxidO K ZOR JE ut 参数 中 ut. type 和 ut. id 字段 的 值 在 utmp 文件 中 搜索 一 个 记录 。 
e 如 果 ut type 字段 是 RUN LVL, BOOT TIME, NEW. TIME 或 OLD TIME, A 
getutxid0 会 找 出 下 一 个 ut_type 字段 与 指定 的 值 匹 配 的 记录 。( 这 种 类 型 的 记录 与 用 户 
登录 不 相关 。) 这 样 就 能 够 搜索 与 修改 系统 时 间 和 运行 级 别 相关 的 记录 了 。 
e 如 果 uttype 字段 的 取 值 是 剩余 的 有 效 值 中 的 一 个 CINIT. PROCESS 、LOGIN_ 
PROCESS, USER PROCESS 或 DEAD_PROCESS )， 那 么 getutxentO 会 找 出 下 一 个 
ut. type 字段 与 这 些 值 中 的 任意 一 个 匹配 并 且 ut. id 字段 与 ut 参数 中 指定 的 值 匹 配 的 记 
录 。 这 样 就 能 够 扫描 文件 来 找 出 对 应 于 某 个 特定 终端 的 记录 了 。 
getutxline() 函 数 会 向 前 搜索 ut. type 字段 为 LOGIN_PROCESS 或 USER_PROCESS 并 
H. ut. line 字段 与 ut 参数 指定 的 值 匹 配 的 记录 。 这 对 于 找 出 与 用 户 登 录 相 关 的 记录 是 非常 
有 用 的 。 

当 搜 索 失 败 时 《〈 即 达到 文件 尾 时 还 没有 找到 匹配 的 记录 )，getutxid0 和 getutxlineO 都 返回 
NULL. 

在 一 些 UNIX 实现 上 ，getutxlineO0 和 getutxid0 将 用 于 返回 utmpx 结构 的 静态 区 域 看 成 是 
某 种 高 速 绥 冲 存储 (cache )。 如 果 它 们 确定 上 一 个 getutx*O 调 用 放置 在 高 速 缓冲 存储 中 的 记录 
与 ut 指定 的 标准 匹配 ,那么 就 不 会 执行 文件 读 取 操作 ,而 是 简单 地 再 次 返回 同样 的 记录 (SUSv3 
允许 这 个 行为 )。 因 此 为 避免 当 在 循环 中 调用 getutxline0 和 getutxidO 时 重复 返回 同一 个 记录 ， 
必须 要 使 用 下 面 的 代码 清除 这 个 静态 数据 结构 。 
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struct utmpx *res - NULL; 
/* Other code omitted */ 


if (res !- NULL) /* If 'res' was set via a previous call */ 
memset(res, O, sizeof(struct utmpx)); 
res = getutxline(8ut); 


glibc 实现 不 会 进行 这 样 的 缓存 ， 但 从 可 移植 性 的 角度 出 发 ， 在 编写 程序 时 永远 不 要 使 用 
这 种 技术 。 


由 于 getutx*0 函 数 返回 的 古 一 个 指 问 静态 分 配 的 结构 的 指针 ， 因 此 它们 古 不 可 重 入 
的 。GNU C 库 提 供 了 传统 的 utmp RAŽI & Ais. Cgetutent rO, getutid r EL 
getutline r2, 但 并 没有 为 utmpx 函数 提供 可 昔 入 版 本 。(SUSv3 JETCH RIDE n] S AUR «) 


在 默认 情况 下 ， 上 所 有 getutx*0 函 数 痢 使 用 标准 的 utmp 文件 。 如 果 和 需要 使 用 为 一 个 文件 ， 
如 wtmp 文件 ， 那 么 必须 要 首先 调用 utmpxnameO 并 指定 目标 路 径 名 。 


#define GNU SOURCE 
include «utmpx.h» 

















int utmpxname(const char *file); 


Returns 0 on success, or -1 on error 











utmpxnameO 函 数 仪 仅 将 传 入 的 路 径 名 复制 一 份 ， 和 它 不 会 打开 文件 ， 但 会 关闭 之 前 由 其 他 
调用 打开 的 所 有 文件 。 这 表示 驳 算 指定 了 一 个 无 效 的 路 径 名 ，utmpxname(O 也 不 会 返回 错误 。 
相反 ， 当 后 面 调用 某 个 getutx#*0 函 数 上 友 现 无 法 打开 文件 时 会 返回 一 个 错误 CEE NULL. errno 
被 设 为 ENOENT )。 











里 然 SUSv3 并 没有 对 此 进行 规定 ， 但 大 多 数 UNIX 实现 提供 了 utmpxname0) 或 类 似 的 
utmpname( PK Zi . 


示例 程序 


程序 清单 40-2 中 的 程序 使 用 了 本 节 中 介绍 的 一 些 函数 来 输出 一 个 utmpx 格 式 文件 的 内 容 。 
下 面 的 shell 会 话 日 志 给 出 了 使 用 这 个 程序 输出 /Var/ruan/utmp〈 当 没有 调用 utmpxnameO 时 这 些 
KREE ZAO 的 内 容 时 得 到 的 结 

$ ./dump utmpx 

user type PID line id host date/time 


LOGIN LOGIN PR 31761 tty1 1 Sat Oct 23 09:29:37 2010 
LOGIN LOGIN PR 1762 tty2 2 Sat Oct 23 09:29:37 2010 
lynley USER PR 10482 tty3 3 Sat Oct 23 10:19:43 2010 
david USER PR 9664 tty4 4 Sat Oct 23 10:07:50 2010 
liz USER PR 1985 tty5 5 Sat Oct 23 10:50:12 2010 
mtk USER PR 10111 pts/O /0 Sat Oct 23 09:30:57 2010 


限于 篇 幅 ， 这 里 将 程序 的 很 多 输出 都 省 去 了 。 上 面 ttyl 到 tty5 是 表示 虚拟 控制 台 上 的 登 
3& (/dewtty[1-6])。 输 出 中 的 最 后 一 行 表示 伪 终 端 上 的 xterm 会 话 。 

从 下 面 输出 /var/log/wtmp 文件 时 所 产生 的 结果 可 以 看 出 当 一 个 用 户 登 录 和 登 出 时 会 问 
wtmp 文件 写 入 两 个 记录 。( 程 序 的 其 他 不 相关 的 所 有 输出 都 被 省 去 了 。) 在 顺序 搜索 wtmp X 
fF (使 用 getutxlineO0)) 时 可 以 使 用 ut. line 来 匹配 这 些 记 录 。 
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$ ./dump utmpx /var/log/wtmp 


user type PID line id host date/time 
lynley USER PR 10482 tty3 3 Sat Oct 23 10:19:43 2010 
DEAD PR 10482 tty3 3  2.4.20-4G Sat Oct 23 10:32:54 2010 


程序 清单 40-2. 显示 一 个 utmpx 格式 文件 的 内 容 


#define GNU SOURCE 


loginacct/dump utmpx.c 


#include «time.h» 
include «utmpx.h» 
include «paths.h» 
include "tlpi hdr.h" 
int 
main(int argc, char *argv[]) 
{ 
struct utmpx *ut; 
if (argc > 1 88 strcmp(argv[1], "--help") == 0) 
usageErr("Xs [utmp-pathname]Nn", argv[0]); 
if (argc » 1) /* Use alternate file if supplied */ 
if (utmpxname(argv[1]) == -1) 
E DAE E 
setutxent(); 
printf("user type PID line id host date/time\n"); 
while ((ut = getutxent()) != NULL) { /* Sequential scan to EOF */ 
printf("%-8s ", ut-»ut user); 
printf("5-9.9s ", 
(ut-»ut type -- EMPTY) ? "EMPTY" : 
(ut-»ut type == RUN LVL) ? "RUN LVL" : 
(ut-»ut type -- BOOT TIME) ? "BOOT TIME" : 
(ut-»ut type -- NEW TIME) ? "NEW TIME" : 
(ut-»ut type -- OLD TIME) ? "OLD TIME" : 
(ut-»ut type == INIT PROCESS) ? "INIT PR" : 
(ut-»ut type -- LOGIN PROCESS) ? "LOGIN PR" : 
(ut-»ut type -- USER PROCESS) ? "USER PR" : 
(ut-»ut type == DEAD PROCESS) ? "DEAD PR" : "???"); 
printf("X5ld %-6.6s *-3.5s %-9.9s ", (long) ut-»ut pid, 
ut-»ut line, ut-»ut id, ut-»ut host); 
printf("%s", ctime((time t *) &(ut-»ut tv.tv sec))); 
endutxent(); 
exit(EXIT SUCCESS); 
} 


40.5” 狼 取 登录 名 称 : getlogin() 





loginacct/dump utmpx.c 





getloginQ RA Zik [n] XE $8] 8] HH EFE RIPE ri € 
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使 用 在 utmp 文件 中 维护 的 
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dinclude <unistd.h> 


char *getlogin(void); 


Returns pointer to username string, or NULL on error 


getloginOPÉ ZI z Ui] 4] ttyname( (参见 62.10 755 来 找 出 与 调用 进程 的 标准 输入 相关 联 的 终 
Jm. 接 看 它 将 搜索 utmp 文件 以 找 出 ut. line 值 与 终端 名 匹配 的 记录 。 如 果 技 到 了 匹配 的 记录 ， 
那么 getlogin0 会 返回 记录 中 的 ut. user 字符 串 。 

如 果 没 有 找到 匹配 的 记录 或 者 发 生 了 错误 ， 那 么 getlogin0 会 返回 NULL 并 设置 errno 来 
标示 错误 。getlogin0 可 能 会 失败 的 一 个 原因 是 进程 没有 一 个 与 其 标准 输入 相关 联 的 终 闫 
(ENOTTY)， 这 可 能 是 因为 进程 本 身 是 一 个 daemon。 另 一 个 可 能 的 原因 是 终端 会 话 并 没有 记 
录 在 utmp 文件 中 ， 如 一 些 软件 终端 模拟 器 不 会 在 utmp 文件 中 创建 条 目 。 

即使 当 一 个 用 户 ID 在 /etc/passwd 文件 中 拥有 多 个 登录 名 时 (不 常见 )，getlogin0 还 是 能 
够 返回 登录 进 这 个 终 冰 的 实际 用 户 名 ， 因 为 它 依赖 的 是 utmp 文件 。 相 反 ，getpwuid(getuidO) 
总 是 会 返回 /etc/passwd 中 第 一 个 匹配 的 记录 ， 不 管 登录 名 是 什么 。 



































SUSv3 规定 了 getloginOIf] —4 n] & AJ As getlogin_rO0，glibc 提供 了 这 个 函数 。 
LOGNAME 环境 变量 也 可 以 用 来 找 出 用 户 的 登录 名 。 但 用 户 可 以 改变 这 个 变量 的 值 ， 
这 表示 无 法 使 用 这 个 变量 来 安全 地 识别 出 一 个 用 户 。 

















40.6 ”为 登录 会 话 更 新 utmp 和 wtmp 文件 


在 编写 一 个 创建 登录 会 话 的 应 用 程序 (如 像 login 或 sshd 那样 ) 时 应 该 要 按照 下 面 的 步骤 
更 新 utmp 和 wtmp 文件 。 

e 在 登录 的 时 候 应 该 同 utmp 文件 号 入 一 条 记录 表明 这 个 用 户 登 录 进 系统 了 。 应 用 程序 
必须 要 检查 在 utmp 文件 中 是 否 存 在 这 个 终 闹 的 记录 。 如 果 已 经 存在 了 一 个 记录 ， 那 
么 它 将 重 写 这 个 记录 ， 人 否则 惑 在 文件 后 面 附加 一 个 新 记录 。 通 种 调用 pututxlineü. CfH 
后 介绍 ) 束 足 以 确保 正确 执行 这 些 步 又 了 《有 具体 示例 可 参见 程序 清单 40-3)。 输 出 的 
utmpx 记录 至 少 需要 填充 ut_type、ut_user、ut_tv、ut_pid、ut_id 以 及 ut line 字段 。ut_type 
学 段 应 该 被 设置 成 USER. PROCESS. ut id 罕 段 应 该 包含 用 户 登 录 的 设备 名 《 即 终端 
RAAH) 的 后 级 ，ut_line 字段 应 该 包含 登录 设备 的 名 称 中 去 除了 开头 的 /dew/ 的 字符 
Po Ge TT FE TH P. 40-2 中 的 程序 时 产生 的 输出 会 显示 这 两 个 字段 的 内 容 。) 一 个 包含 
完全 一 样 的 信息 的 记录 会 被 附加 到 wtmp 文件 中 。 


utmp 文件 中 的 记录 以 终端 名 (ut_line 和 ut id 字段 ) 作为 唯一 键 。 












































e 在 登 出 的 时 候 应 该 删除 之 前 写 入 utmp 文件 的 记录 ， 这 是 通过 创建 一 个 记录 并 将 
ut type 设置 为 DEAD_PROCESS、 同 时 将 ut id 和 ut. line 设置 为 登录 时 写 入 的 记录 中 
相应 字段 的 值 并 将 ut user 字段 的 值 置 堆 来 完成 的 。 这 个 记录 会 敢 盖 之 前 的 记录 ， 同 
时 这 个 记录 的 一 个 副本 会 被 附加 到 wtmp 文件 中 。 


如 果 在 登 出 时 没有 成 功 清理 utmp 中 的 相关 记录 ， 可 能 因为 程序 月 泥 ， 那 么 在 下 一 次 重 
局 的 时 候 ，init 会 自动 清理 这 些 记录 并 将 记录 的 ut. type 设置 为 DEAD. PROCESS 以 及 将 记 
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Hr EE. 














H utmp 和 wtmp 文件 是 受 你 护 的 ， 只 有 特权 用 户 可 以 更 狐 这 些 文件 。getlogin() 的 精确 
程度 依赖 于 utmp 文件 的 完整 性 。 正 因为 这 个 原因 以 及 其 他 一 些 原 因 , 在 utmp 和 wtmp 文件 的 
权限 设置 中 应 该 永远 都 不 允许 非特 权 用 户 写 这 两 个 文件 。 

哪些 程序 会 产生 一 个 登录 会 话 呢 ?正如 读者 所 想 的 那样 ， 通 过 login, telnet 以 及 ssh 登录 
会 记录 在 登录 记 账 文件 中 。 大 多 数 ftp 实现 也 会 创建 登录 记 账 记录 。 但 系统 上 每 个 打开 的 终端 
窗口 或 调用 su 时 会 创建 登录 记 账 记录 吗 ? 这 个 问题 的 答案 因 UNIX 实现 的 不 同 而 不 同 。 






































在 一 些 终 剖 模拟 程序 (如 xterm) 中 ， 可 以 使 用 命令 行 选项 以 及 其 他 一 些 机 制 来 确定 程 
序 是 否 更 新 登录 记 账 文件 。 





pututxline() 函 数 会 将 ut 指 问 的 utmpx 结构 写 入 到 /varrun/utmp 文件 中 (或 者 如 果 之 前 调用 
了 utmpxname() 的 话 将 是 男 一 个 文件 )。 





#include <utmpx.h> 


struct utmpx *pututxline(const struct utmpx *ut); 


Returns pointer to copy of successfully updated record on success, 
or NULL on error 


在 号 入 记录 之 前 ，pututxlineO 首 先 会 使 用 getutxid0 回 前 搜索 一 个 可 被 重 写 的 记录 。 如 末 
找到 了 这 样 的 记录 ， 那 么 会 重 写 该 记录 ， 人 否则 就 会 在 文件 尾 附 加 一 个 新 记录 。 在 很 多 情况 下 ， 
应 用 程序 在 调用 pututxline0 之 前 会 调用 其 中 一 个 getutx*0 函 数 ,因为 这 个 冰 数 会 将 当前 文件 位 
置 设 定 到 正确 的 记录 一 一 即 与 getutxid() 系 列 函数 中 ut 指 问 的 utmpx 结构 中 的 标准 匹配 的 记 
录 。 如 果 pututxlineO 能 够 确定 已 经 重 置 过 了 当前 文件 位 置 ， 那 么 就 不 会 调用 getutxid()。 


如 果 pututxlineO 在 内 部 调用 了 getutxid0， 那 么 这 个 调用 不 会 改变 getutx *O rS Zo HRR 
[E] utmpx 结构 的 静态 区 域 。SUSv3 要 求实 现 遵循 这 种 行为 。 
4E Vr wtmp 文件 时 仅仅 是 简单 地 打开 文件 并 在 文件 尾 附 加 一 个 记录 。 由 于 这 是 一 个 标准 
操作 ， 因 此 glibc KRAHE T updwtmpxO 函 数 。 


#define GNU SOURCE 
include «utmpx.h» 












































void updwtmpx(char *wiümpx file, struct utmpx *ut); 











updwtmpxO 函 数 将 ut 指向 的 utmpx 记录 附加 到 wtmpx. file 指定 的 文件 尾 。 

SUSv3 没有 规定 updwtmpxO0， 这 个 函数 只 出 现 了 一 些 UNIX 实现 中 ， 而 其 他 实现 则 提供 
T EK EQ —— —login(3). logout(3) D] X% logwtmp(3) 一 一 这 些 函 数位 于 glibc 中 并 且 手 册 也 对 这 
些 函 数 进 行 了 描述 。 如 果 不 存在 这 样 的 函数 , 那么 号 需要 目 己 编写 实现 相同 功能 的 函数 了 。( 这 
些 函 数 的 实现 并 不 复杂 。) 




















示例 程序 


程序 清单 40-3 使 用 了 这 一 节 中 介绍 的 函数 来 更 新 utmp 和 wtmp 文件 。 这 个 程序 先 执行 
记录 由 命令 行 指定 的 用 户 的 登录 操作 所 需 的 对 utmp 和 wtmp 文件 的 更 新 ， 然 后 睡眠 的 几 秒 
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钟 之 后 再 登 出 用 户 。 3S. JESSTRTE SHP RERA mE EMER. oC EU E 
用 了 ttyname(0 来 获取 与 文件 描述 符 相 关联 的 终 中 设备 的 名 称 ，ttynameO 将 在 第 62.10 TPY 





以 介绍 。 








下 面 的 shel 会 话 日 志 演 示 了 程序 清单 40-3 中 的 程序 的 操作 。 假设 程序 已 经 拥有 了 更 新 登 


录 记 账 文件 的 权限 ， 然 后 使 用 这 个 程序 来 为 用 户 mtk 创建 一 个 记录 。 


$ su 
Password: 
# ./utmpx login mtk 
Creating login entries in utmp and wtmp 
using pid 1471, line pts/7, id /7 
Type Control-Z to suspend program 
[1]- Stopped ./utmpx login mtk 





在 utmpx login 程序 睡眠 的 过 程 中 输入 Control-Z 以 挂 起 该 程序 并 将 其 放 到 后 台 。 接 着 使 





用 程序 清单 40-2 中 的 程序 来 得 看 utmp 文件 中 的 内 容 。 


# ./dump utmpx /var/run/utmp 


user type PID line id host date/time 

cecilia USER PR 249 tty1 1 Fri Feb 1 21:39:07 2008 
mtk USER PR 1471 pts/7 /7 Fri Feb 1 22:08:06 2008 
# who 

cecilia tty1 Feb 1 21:39 

mtk pts/7 Feb 1 22:08 





上 面 使 用 了 who(D) 命 令 来 表明 who 的 输出 源 目 utmp 文件 。 
接着 使 用 程序 来 查看 wtmp 文件 中 的 内 容 。 


# ./dump utmpx /var/log/wtmp 


user type PID line id host date/time 

cecilia USER PR 249 tty1 1 Fri Feb 1 21:39:07 2008 
mtk USER PR 1471 pts/7 /7 Fri Feb 1 22:08:06 2008 
# last mtk 

mtk pts/7 Fri Feb 1 22:08 still logged in 





上 面 使 用 了 last(1) 命 令 来 表明 last 的 输出 源 日 wtmp 文件 。( 限 于 篇 幅 ， 这 里 给 出 的 shell 会 





话 日 志 中 dump_utmpx 和 last 命令 输出 已 经 删除 了 与 本 市 讨论 主题 无 关 的 内 容 。) 





RAH fg 命令 将 utmpx login 程序 恢复 到 前 台 。 程序 随后 整 会 将 登 出 记录 写 入 utmp 和 


wtmp 文件 。 


# fg 
./utmpx login mtk 
Creating logout entries in utmp and wtmp 


RAHKAA utmp 文件 中 的 内 容 ， 从 中 可 以 看 出 utmp 中 的 记录 被 重 写 了 。 


# ./dump utmpx /var/run/utmp 

















user type PID line id host date/time 

cecilia USER PR 249 tty1 1 Fri Feb 1 21:39:07 2008 
DEAD PR 1471 pts/7 /7 Fri Feb 1 22:09:09 2008 

# who 

cecilia tty1 Feb 1 21:39 





输出 中 的 最 后 一 行 表明 who Ai f DEAD. PROCESS 记录 。 
在 查看 wtmp 文件 之 后 可 以 看 出 wtmp 记录 已 经 被 附加 进去 了 。 
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# ./dump utmpx /var/log/wtmp 


user type PID line id host date/time 

cecilia USER PR 249 tty1 1 Fri Feb 1 21:39:07 2008 

mtk USER PR 1471 pts/7 /7 Fri Feb 1 22:08:06 2008 
DEAD PR 1471 pts/7 /7 Fri Feb 1 22:09:09 2008 

# last mtk 

mtk pts/7 Fri Feb 1 22:08 - 22:09 (00:01) 





上 面 输出 中 的 最 后 一 行 表明 last 匹配 了 wimp 文件 中 的 登录 和 登 出 记录 ,从 而 能 看 出 整个 
登录 会 话 的 开始 时 间 和 结束 时 间 。 


程序 清单 40-3: 更 新 utmp 和 wtmp 文件 


loginacct/utmpx login.c 


#define GNU SOURCE 
#include <time.h> 
#include <utmpx.h> 
#include «paths.h» /* Definitions of PATH UTMP and PATH WTMP */ 
include "tlpi hdr.h" 
int 
main(int argc, char *argv[]) 
i 
struct utmpx ut; 
char *devName; 


if (argc < 2 || stremp(argv[1], "--help") == 0) 
usageErr("Xs username [sleep-time]Wn", argv[0]); 


/* Initialize login record for utmp and wtmp files */ 


memset(8ut, 0, sizeof(struct utmpx)); 
ut.ut type - USER PROCESS; /* This is a user login */ 
strncpy(ut.ut user, argv[1], sizeof(ut.ut user)); 
if (time((time t *) &ut.ut tv.tv sec) == -1) 

errExit(" time"); /* Stamp with current time */ 
ut.ut pid = getpid(); 


/* Set ut line and ut id based on the terminal associated with 
'stdin'. This code assumes terminals named "/dev/[pt]t[sy]*". 
The "/dev/" dirname is 5 characters; the "[pt]t[sy]" filename 
prefix is 3 characters (making 8 characters in all). */ 


devName - ttyname(STDIN FILENO); 

if (devName -- NULL) 
errExit("ttyname"); 

if (strlen(devName) «- 8) /* Should never happen */ 
fatal("Terminal name is too short: As", devName); 


strncpy(ut.ut line, devName + 5, sizeof(ut.ut line)); 
strncpy(ut.ut id, devName + 8, sizeof(ut.ut id)); 


printf("Creating login entries in utmp and wtmp\n"); 

printf(" using pid ^ld, line $.*s, id %.*s\n", 
(long) ut.ut pid, (int) sizeof(ut.ut line), ut.ut line, 
(int) sizeof(ut.ut id), ut.ut id); 


setutxent(); /* Rewind to start of utmp file */ 
if (pututxline(&ut) == NULL) /* Write login record to utmp */ 
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errExit("pututxline"); 
updwtmpx( PATH WTMP, 8ut); /* Append login record to wtmp */ 


/* Sleep a while, so we can examine utmp and wtmp files */ 
sleep((argc » 2) ? getInt(argv[2], GN NONNEG, "sleep-time") : 15); 


/* Now do a "logout"; use values from previously initialized 'ut', 
except for changes below */ 


ut.ut type - DEAD PROCESS; /* Required for logout record */ 
time((time t *) &ut.ut tv.tv sec); /* Stamp with logout time */ 
memset(Sut.ut user, O, sizeof(ut.ut user)); 

/* Logout record has null username */ 
printf("Creating logout entries in utmp and wtmpNn"); 


setutxent(); /* Rewind to start of utmp file */ 

if (pututxline(&ut) -- NULL) /* Overwrite previous utmp record */ 
errExit("pututxline"); 

updwtmpx( PATH WTMP, &ut); /* Append logout record to wtmp */ 

endutxent(); 


exit(EXIT SUCCESS); 


loginacct/utmpx login.c 


40.7 lastlog 文件 


lastlog 文件 记录 看 每 个 用 户 最 近 一 次 登录 到 系统 的 时 间 。( 它 与 wtmp 文件 不 同 ，wtmp X: 
件 记 录 着 所 有 用 户 的 登录 和 登 出 行为 。) login 程序 通过 lastlog 文件 能 够 通知 用 户 《〈 在 新 登录 
会 话 开始 的 时 候 ) 他 们 上 次 登录 的 时 间 。 提 供 登 录 服 务 的 应 用 程序 除了 要 更 新 utmp 和 wtmp 
文件 乙 外 还 应 该 更 新 lastlog 文件 。 

与 utmp 和 wtmp 文件 一 样 ， 不 同系 统 实现 中 lastlog 文件 的 存放 位 置 和 格式 可 能 会 存在 产 
寞 。( 一 些 UNIX. 实现 并 没有 提供 这 个 文件 。) 在 Linux 上 ， 这 个 文件 位 于 /varvlog/lastlog， 
<paths.h> 文 件 中 定义 的 常量 _PATH_LASTLOG 指 问 了 这 个 位 置 。 与 utmp 和 wtmp 文件 一 样 ， 
lastlog 文件 通常 也 是 受 保护 的 ， 这 样 所 有 用 户 痢 能 读 取 这 个 文件 但 只 有 特权 进程 才能 够 更 狐 
X^ OCfE 

lastlog 文件 中 的 记录 的 格式 如 下 所 示 〈 在 <lastlog.h> 中 定义 )。 


#define UT NAMESIZE 32 
#define UT HOSTSIZE 256 



































struct lastlog { 


time t ll time; /* Time of last login */ 
char 11 line[UT NAMESIZE|; /* Terminal for remote login */ 
char 1l host[UT HOSTSIZE|; /* Hostname for remote login */ 


注意 这 些 记 录 中 并 没有 包含 用 户 名 或 用 户 ID 。lastlog 文件 中 的 记录 是 用 用 户 ID 作为 索引 
HJ, 因此 要 找 出 用 户 ID 为 1000 的 lastlog 记录 就 需要 到 文件 的 相应 位 置 处 (1000 * sizeof(struct 
lastlog)) 但 找 。 程 序 清单 40-4 对 此 进行 了 演示 ， 通 过 这 个 程序 读者 能 够 查看 在 命令 行 中 列 
出 的 用 户 的 lastlog 记录 ， 其 功能 与 lastlog(1) 命 令 的 功能 类 似 。 下 面 是 运行 这 个 程序 时 产生 的 
输出 。 
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$ ./view lastlog annie paulh 
annie tty2 Mon Jan 17 11:00:12 2011 
paulh pts/11 Sat Aug 14 09:22:14 2010 


更 新 lastlog 文件 时 会 打开 文件 ， 寻 找到 正确 的 位 置 ， 然 后 执行 一 个 与 入 操作 。 











由 于 lastlog 文件 是 以 用 户 ID 为 款 引 的 ， 因 此 无 法 区 分 拥有 同样 的 用 户 ID 的 不 同 用 户 
名 的 登录 行为 。( 在 8.1 市 中 层 指出 过 多 个 登录 名 拥有 同样 的 用 户 ID 是 可 能 的 ， 虽 然 这 种 
T DUAE ANTE DG.) 








程序 清单 40-4: 显示 lastlog 文件 中 的 信息 
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loginacct/view lastlog.c 


#include «time.h» 
#include «lastlog.h» 


include «paths.h» /* Definition of PATH LASTLOG */ 
#include «fcntl.h» 
#include "ugid functions.h" /* Declaration of userIdFromName() */ 


#include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 
1 

struct lastlog llog; 

int fd, j; 

uid t uid; 


if (argc > 1 88 strcmp(argv[1], "--help") == 0) 
usageErr("Xs [username...]Nn", argv[0]); 


fd - open( PATH LASTLOG, O RDONLY) ; 
if (fd -- -1) 
errExit("open"); 


for (j = 1; j < argc; j++) ( 
uid = userIdFromName(argv[j]); 
if (uid == -1) { 
printf("No such user: %s\n", argv[j]); 
continue; 


j 


if (lseek(fd, uid * sizeof(struct lastlog), SEEK SET) == -1) 
errExit("lseek"); 


if (read(fd, 8llog, sizeof(struct lastlog)) <= 0) { 
printf("read failed for %s\n", argv[j]); /* EOF or error */ 
continue; 


j 


printf("4-8.8s %-6.6s %-20.20s Xs", argv[j], llog.1l line, 
llog.ll host, ctime((time t *) &llog.ll time)); 
} 


close(fd); 
exit(EXIT SUCCESS); 


loginacct/view lastlog.c 
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40.8 


TY 


IU ZH 























Sirio ORC 2 BEER B HIP ELSE XE SOLA SEIEL FE «XA DRE E — P OCT 
P: utmp 文件 维护 了 所 有 当前 登录 进 系统 的 用 尸 记 录 ; wtmp 文件 维护 了 所 有 登录 和 登 出 行为 


的 审计 信 ， 














A; lastlog 文件 记录 看 每 个 用 户 最 近 一 次 登录 系统 的 时 间 。 很 多 命令 , 如 who 和 last, 


者 使 用 了 这 些 文件 中 的 信息 。 
C 库 提供 了 读 取 和 更 新 登录 记 账 文件 中 的 信息 的 函数 。 提 供 登 录 服 务 的 应 用 程序 应 该 使 
用 这 些 函 数 来 更 新 登录 记 账 文件 ， 这 样 依 赖 于 这 些 信息 的 命令 才能 够 表现 出 正确 的 行为 。 


更 多 信息 






































除了 utmp(5) 手 册 之 外 ， 找 到 更 多 有 关 登 录 记 账 函数 的 信息 的 最 有 用 的 地 方 是 各 种 使 用 这 
些 函 数 的 应 用 程序 的 源 代 码 。 如 可 以 阅读 mingetty (或 agetty), login, init, telnet, ssh 以 及 


ftp 的 源 代 码 。 
40.9 习题 
40-1. 实现 getlogin()。 在 40.5 节 中 曾 提 到 过 当 进 程 运行 在 一 些 软件 终端 模拟 器 下 时 


40-2. 


40-3. 
40-4. 





getogin0 可 能 无 法 正确 工作 ， 在 那 种 情况 下 就 在 虚拟 控制 台中 进行 测试 。 

修改 程序 清单 40-3 中 的 程序 (utmpx_login.c) 使 它 除 了 更 新 utmp 和 wtmp 文件 之 
外 还 更 新 lastlog 文件 。 

阅读 login(3)、logout(3) 以 及 logwtmp(3) 的 手册 。 实 现 这 些 函 数 。 

实现 一 个 简单 的 who(1). 
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AM. 


2t y e E fh 





共享 库 是 一 种 将 库 函 数 打 包 成 一 个 单元 使 之 能 够 在 运行 时 被 多 个 进程 共享 的 技术 。 这 种 扩 术 能 
够 节省 磁盘 空间 和 RAM。 本 半 将 介绍 共享 库 的 基础 知识 ， 下 一 章 将 介绍 共 至 库 的 儿 个 局 级 特性 。 











41.1 目标 库 


构建 程序 的 一 种 方式 是 和 傈 单 地 将 每 一 个 源 文 件 编 详 成 目标 文件 ， 然 后 将 这 些 目 标 文 件 链 
接 在 一 起 组 成 一 个 可 执行 程序 ， 如 下 所 未。 


$ cc -g -c prog.c modi.c mod2.c mod3.c 
$ cc -g -o prog nolib prog.o modi.o mod2.0 mod3.o 


链接 实际 上 是 由 一 个 单独 的 链接 器 程序 1d 来 完成 的 。 当 使 用 cc (或 gee) 命令 链接 一 
个 程序 时 ,编译 器 会 在 幕后 调用 1d。 Æ Linux 上 应 该 总 是 通过 gee 间接 地 调用 链接 器 ， 因 为 
gce 能 够 确保 使 用 正确 的 选项 来 调用 ld 并 将 程序 与 正确 的 库 文件 链接 起 来 。 


在 很 多 情况 下 ， 源 代码 文件 也 可 以 被 多 个 程序 共 译 。 因 此 要 降低 工作 量 的 第 一 步 束 是 将 
这 些 源 代 但 文件 只 编 详 一 次 ， 然 后 在 需要 的 时 候 将 它们 链接 进 不 同 的 可 执行 文件 中 。 虽 然 这 
项 技术 能 够 市 省 编 详 时间， 但 其 缺点 十 在 链接 的 时 候 仍然 需要 为 所 有 目标 文件 命名 。 此 外 ， 
大 量 的 目标 文件 会 散落 在 系统 上 的 各 个 目录 中 ， 从 而 造成 目录 中 内 容 的 混乱 。 

为 解决 这 个 问题 ， 可 以 将 一 组 目标 文件 组 织 成 一 个 被 称 为 对 象 库 的 单元 。 对 象 库 分 为 两 
Th: 静态 的 和 共 孚 的 。 共 孚 库 是 一 种 更 加 现代 化 的 对 象 库 ， 它 比 静 态 库 更 其 优 势 ，41.3 T 
会 对 此 了 予以 介绍 。 


题 外 话 : 在 编译 程序 时 包含 调试 器 信息 

在 上 面 的 cc 命令 中 使 用 了 -g 选项 以 在 编译 过 的 程序 中 包含 调试 信息 。 一 般 来 讲 ， 创 建 允 
许 调 试 的 程序 和 库 是 一 种 比较 好 的 做 法 。( 在 早期 ， 有 时 候 会 忽略 调试 信息 ， 这 样 产 生 的 可 执 
行文 件 会 占用 更 少 的 磁盘 和 RAM， 但 现在 磁盘 和 RAM 已 经 非常 便宜 了 。) 

此 外 ， 在 一 些 架构 上 ， 如 x86-32， 不 应 该 指定 -fomit-frame-pointer 选项 ， 因 为 这 会 使 得 
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无 法 调试 。( 在 一 些 架构 上 ， 如 x86-64， 这 个 选项 是 默认 局 用 的 ， 因 为 它 不 会 防止 调试 。) 出 
于 同样 的 原因 ， 可 执行 文件 和 库 不 应 该 使 用 strip() 删 除 调试 信息 。 





41.2 静态 库 


在 开始 讨论 共 译 库 之 前 首先 对 前 态 库 作 一 个 和 价 短 的 介绍 ， 这 样 读者 就 能 够 弄 清楚 共 诗 库 
Ej oe VEZ TRIS] Z5] EAR 字库 所 具备 的 优势 了 。 
静态 库 也 被 称 为 归档 文件 ， 它 是 UNIX 系统 提供 的 第 一 种 库 。 毅 态 库 能 市 来 下 列 好 处 。 
e 可 以 将 一 组 经 名 和 梓 用 到 的 目标 文件 组 织 进 单 个 库 文 件 ， 这样 束 可 以 使 用 它 来 构建 多 个 
可 执行 程序 并 且 在 构建 各 个 应 用 程序 的 时 候 无 需 重新 编 详 原来 的 源 代码 文件 。 
。 链接 命令 变 得 更 加 傈 单 了 。 在 链接 命令 行 中 只 需要 指定 静态 库 的 名 称 即 可 ， 而 无 需 一 个 个 
地 列 出 目标 文件 了 。 链 接 才 知道 如 何 搜索 毅 态 库 并 将 可 执行 程序 需要 的 对 象 抽 取出 来 。 


创建 和 维护 静态 库 

从 结束 上 来 看 ， 静 态 库 实际 上 就 是 一 个 保存 所 有 被 添加 到 其 中 的 目标 文件 的 副本 的 文件 。 
这 个 归档 文件 还 记录 看 每 个 日 标 文 件 的 各 种 特性 ， 包 括 文件 权限 、 数 学 用 户 和 组 ID 以 及 最 后 
修改 时 间 。 根 据 惯例 ， 廊 态 库 的 名 称 的 形式 为 libname.a. 

使 用 ar(D) 命 令 能 够 创建 和 维护 静态 库 ， 其 通用 形式 如 下 所 示 。 

$ ar options archive object-file... 

options 参数 由 一 系列 的 字母 构成 ， 其 中 一 个 是 操作 代码 ， 其 他 是 能 够 影响 操作 的 执行 的 
修饰 待 。 下 面 是 一 些 帝 用 的 操作 代 但 。 

e r CERO: 将 一 个 目标 文件 插入 到 归档 文件 中 并 取代 同名 的 目标 文件 。 这 个 创建 和 更 

狐 归 档 文件 的 标准 方法 ， 使 用 下 面 的 命令 可 以 构建 一 个 归档 文件 。 


$ cc -g -c modi.c mod2.c mod3.c 
$ ar r libdemo.a mod1.0 mod2.0 mod3.o 
$ rm modi.o mod2.0 mod3.o 


从 上 面 可 以 看 出 ， 在 构建 完 库 之 后 可 以 根据 需要 删除 原始 的 目标 文件 ， 因 为 已 经 不 再 需 
要 它们 了 。 
e t (HERK): 显示 归档 中 的 目录 表 。 在 默认 情况 下 只 会 列 出 归档 文件 中 目标 文件 的 名 
称 。 添 加 v Cverbose) 修饰 符 之 后 可 以 看 到 记录 在 归档 文件 中 的 各 个 目标 文件 的 其 他 
所 有 特性 ， 如 下 面 的 例子 所 示 。 


$ ar tv libdemo.a 

IW-I--r-- 1000/100 1001016 Nov 15 12:26 2009 mod1.o 
IW-I--r-- 1000/100 406668 Nov 15 12:21 2009 mod2.0 
IW-I--r-- 1000/100 46672 Nov 15 12:21 2009 mod3.o 


从 左 至 右 每 个 目标 文件 的 特性 为 被 添加 到 归档 文件 中 时 的 权限 、 用 户 D 和 组 ID、 大 小 以 
及 上 次 修改 的 日 志和 时 间 。 
e d (删除 ): 从 归档 文件 中 删除 一 个 模块 ， 如 下 面 的 例子 所 示 。 


$ ar d libdemo.a mod3.0 


使 用 静态 库 


将 程序 与 静态 库 链 接 起 来 存在 两 种 方式 。 第 一 种 是 在 链接 命令 中 指定 静态 库 的 名 称 ， 如 
FÜR. 
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$ cc -g -c prog.c 

$ cc -g -o prog prog.o libdemo.a 

BEER GS PEJRUCE REPE 18 ZR DU JC cn — EE H ore usr/lib), aE- 选项 指定 
库 名 《 即 库 的 文件 名 去 除了 lib 前 级 和 .a 后 级 )。 

$ cc -g -0 prog prog.o -ldemo 

A AR PEANDET RER RRI Hor, AA RTELARI-L. XU RAE ERARA T RU MT] H3 

$ cc -g -o prog prog.o -Lmylibdir -ldemo 

虽然 一 个 静态 库 可 以 包含 很 多 目标 模块 ， 但 链接 局 只 会 包含 那些 程序 需要 的 模块 。 

在 链接 完 程 序 之 后 可 以 按照 通 第 的 方式 运行 这 个 程序 。 

$ ./prog 


Called mod1-x1 
Called mod2-x2 




















41.3 ”共享 库 概述 


将 程序 与 静态 库 链 接 起 来 时 《或 没有 使 用 静态 库 )， 得 到 的 可 执行 文件 会 包含 所 有 被 链接 
进程 序 的 目标 文件 的 副本 。 这 样 当 几 个 不 同 的 可 执行 程序 使 用 了 同样 的 目标 模块 时 ， 每 个 可 
执行 程序 会 拥有 目 己 的 目标 模块 的 副本 。 这 种 代码 的 匈 余 存 在 儿 个 缺点 。 

。 存储 同一 个 目标 模块 的 多 个 副本 会 浪 必 磁盘 空间 ， 并 且 所 浪费 的 空间 是 比较 大 的 。 

。 如果 几 个 使 用 了 同一 模块 的 程序 在 同一 时 刻 运 行 ， 那么 每 个 程序 会 独立 地 在 虚拟 内 存 

中 保存 一 份 目标 模块 的 副本 ， 从 而 提高 系统 中 虚拟 内 存 的 整体 使 用 量 。 
。 如 果 需 要 修改 一 个 议 态 库 中 的 一 个 目标 模块 (可 能 是 因为 安全 性 或 需要 修正 bug), 那 
么 所 有 使 用 那个 模块 的 可 执行 文件 都 必须 要 重新 进行 链接 以 合并 这 个 变更 。 这 个 缺点 

还 会 导致 系统 管理 员 需 要 弄 清楚 哪些 应 用 程序 链接 了 这 个 库 。 

共 至 库 就 是 设计 用 来 解决 这 些 缺 点 的 。 共 至 库 的 关键 思想 是 目标 模块 的 单个 副本 由 所 有 
要 这 些 模 块 的 程序 共 至 。 目 标 模块 不 会 被 复制 到 链接 过 的 可 执行 文件 中 ， 相 反 ， 妆 第 一 个 
斋 要 共 诗 库 中 的 模块 的 程序 局 动 时 ， 库 的 单个 副本 整 会 在 运行 时 被 加 载 进 内 存 。 当 后 面 使 用 
同一 共享 库 的 其 他 程序 启动 时 ， 它 们 会 使 用 已 经 被 加 载 进 内 存 的 库 的 副本 。 使 用 共享 库 意 味 
看 可 执行 程序 需要 的 磁盘 空间 和 虚拟 内 存 〈“ 在 运行 的 时 候 ) 更 少 了 。 
















































































虽然 共 学 库 的 代码 是 由 多 个 进程 共享 的 ， 但 其 中 的 变量 却 不 是 的 。 每 个 使 用 库 的 进程 
会 拥有 上 自己 的 在 库 中 定义 的 全 局 和 静态 变量 的 副本 。 


共享 库 还 具备 下 列 优势 。 

。 由 于 整个 程序 的 大 小 变 得 更 小 了 , 因此 在 一 些 情况 下 , 程序 可 以 完全 被 加 载 进 内 存 中 ， 
从 而 能 够 更 快 地 局 动 程序 。 这 一 点 只 有 在 大 型 共 诗 库 正在 被 其 他 程序 使 用 的 情况 下 才 
成 立 。 第 一 个 加 载 共 享 库 的 程序 实际 上 在 局 动 时 会 花费 更 长 的 时 间 ， 因 为 必须 要 先 找 
到 共有 圣 库 并 将 其 加 载 到 内 存 中 。 

。 由 于 目标 模块 没有 被 复制 进 可 执行 文件 中 ， 而 十 在 共 至 库 中 集中 维护 的 ， 因 此 在 修改 
日 标 模块 时 〈 需 加 循 41.8 节 中 介绍 的 限制 ) 无 需 重 新 链接 程序 就 能 够 看 到 变更 ， 其 至 
在 运行 看 的 程序 正在 使 用 共 娃 库 的 现 有 版 本 的 时 候 也 能 够 进行 这 样 的 变更 。 

这 项 新 增 功能 的 主要 开销 如 下 所 述 。 

。 在 概念 上 以 及 创建 共 孚 库 和 构建 使 用 共享 库 的 程序 的 实践 上 ， 共 享 库 比 静态 库 更 复杂 。 
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。 共享 库 在 编译 时 必须 要 使 用 位 置 独立 的 代码 (在 41.4.2 节 中 了 予以 介绍 )， 这 在 大 多 数 架 构 
上 都 会 帝 来 性 能 开销 ， 因 为 它 需 要 使 用 额外 的 一 个 寄存 器 〈[Hubicka, 2003]. 
e 在 运行 时 必须 要 执行 符号 重 定位 。 在 符号 重 定位 期 间 ， 需 要 将 对 共 孚 库 中 每 个 符号 〈 变 量 
或 函数 ) 的 引用 修改 成 符号 在 虚拟 内 存 中 的 实际 运行 时 位 置 。 由 于 存在 这 个 重 定位 的 过 程 ， 
与 静态 链接 程序 相 比 ,一 个 使 用 共享 库 的 程序 或 多 或 少 需要 花费 一 些 时 间 来 执行 这 个 过 程 。 
共享 库 的 另 一 种 用 法 是 作为 Java NativeInterface (JND 中 的 一 个 构建 块 ， 它 允许 Java fX 
码 通 过 调用 共 孚 库 中 的 C. 函数 直接 访问 底层 操作 系统 的 特性 , 更 多 信息 可 参考 [Liang, 1999] 
和 [Rochkind, 2004]. 









































41.4 ”创建 和 使 用 共 圣 库 一 一 首 回合 


为 了 理解 共 圣 库 的 操作 方式 ， 下 和 面 开始 介绍 构建 和 使 用 一 个 共 圣 库 所 和 需 完 成 的 最 少 步 又 ， 
在 介绍 的 过 程 中 会 忽略 平时 使 用 的 共享 库 文件 命名 规范 。 遵 循 第 41.6 节 中 介绍 的 惯例 允许 程 
序 自动 加 载 它们 所 需 的 共享 库 的 最 新 版 本 ， 同 时 也 允许 一 个 库 的 多 个 相互 不 兼容 的 版 本 〔 所 
谓 的 主 版 本 ) 和 谐 地 共存 。 

在 本 革 中 ， 我 们 只 关心 Executable and Linking Format ELF) 共享 库 ， 因 为 现代 版 本 的 
Linux 以 及 很 多 其 他 UNIX 实现 的 可 执行 文件 和 共享 库 都 采用 了 ELF 格式 。 


ELF 取代 了 较 早 以 前 的 aout 4I COFF 格式 。 


41.4.1. 创建 一 个 共享 库 


为 构建 之 前 创建 的 脐 态 库 的 共 于 版本， 需要 执行 下 和 而 的 步 又 。 


$ gcc -g -c -fPIC -Wall modi.c mod2.c mod3.c 
$ gcc -g -shared -o libfoo.so modi.o mod2.o mod3.o 


"B7 fm E T ZENKER ER BI HERR. CER cc -fPIC 选项 进行 解 
FÉ.) cc -shared 命令 创建 了 一 个 包含 这 三 个 目标 模块 的 共享 库 。 

根据 惯例 ， 共 享 库 的 前 级 为 ib， 后 级 为 .so( 表 示 shared object). 

在 上 面 的 例子 中 使 用 了 gec 命令 ， 而 并 没有 使 用 与 之 等 价 的 cc 命令 ， 这 是 为 了 突出 用 来 
创建 共 圣 库 的 命令 行 选项 是 依赖 于 编 详 带 的， 在 故 一 个 UNIX 实现 上 使 用 一 个 不 同 的 C 编 详 
项 可 能 会 需要 使 用 不 同 的 选项 。 

注意 可 以 将 编译 源 代 码 文件 和 创建 共享 库 放 在 一 个 命令 中 执行 。 

$ gcc -g -fPIC -Wall modi.c mod2.c mod3.c -shared -0 libfoo.so 

XX HOS T ise CAT WUERUEAEEPEPSA 2E M AEREE ARRA HR] Y VAIO B a e 

与 静态 库 不 同 ， 可 以 同 之 前 构建 的 共享 库 中 添加 单个 目标 模块 ， 也 可 以 从 中 删除 单个 目 
标 模块 。 与 普通 的 可 执行 文件 一 样 ， 共 吝 库 中 的 目标 文件 不 再 维护 不 同 的 身份 。 


41.4.2 ”位 置 独立 的 代码 

cc-fPIC 选项 指定 编译 器 应 该 生成 位 置 独立 的 代码 , 这 会 改变 编译 器 生成 执行 特定 操作 的 代码 
的 方式 ， 包 括 访问 全 局 、 静 态 和 外 部 变量 ， 访 问 字符 串 常量 ， 以 及 获取 函数 的 地 址 。 这 些 变更 使 
得 代码 可 以 在 运行 时 被 放置 在 任意 一 个 虚拟 地 址 处 。 这 一 点 对 于 共享 库 来 讲 是 必需 的 ， 因 为 在 链 
接 的 时 候 是 无 法 知道 共享 库 代 码 位 于 内 存 的 何 处 的 。( 一 个 共享 库 在 运行 时 所 处 的 内 存 位 置 依赖 于 
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AR ADR. MIRAN PET" G2 v5 HA FAENA AI FEE C328 TERES] Cft 8 PE e) 
在 Linux/x86-32 上 ， 可 以 使 用 不 加 -PIC 336 HS VEIT] EEOK GU£EJE TE PE. APEI ufu 
于 失 共 至 库 的 一 些 优点 ， 因 为 包 售 依 赖 于 位 置 的 内 存 引 用 的 程序 文本 页 面 不 会 在 进程 间 共 至。 
在 一 些 架 构 上 是 无 法 在 不 加 -fPIC 选项 的 情况 下 构建 共享 库 的 。 
为 了 确定 一 个 既 有 目标 文件 在 编译 时 是 个 使 用 了 -=-fPIC 选项 , 可 以 使 用 下 面 两 个 命令 中 的 
一 个 来 检查 目标 文件 符 亏 表 中 是 否 存在 名 称 _GLOBAL_OFFSET_TABLE_。 


$ nm modi.o | grep GLOBAL OFFSET TABLE 
$ readelf -s modi.o | grep GLOBAL OFFSET TABLE 


HJ, WMR PIBIPAAT TH ELSE E iam P EA 77 7o 4E T Ef I. XE EGER 
库 中 全 少 存在 一 个 目标 模块 在 编 详 时 没有 指定 -fPIC 选项 。 


$ objdump --all-headers libfoo.so | grep TEXTREL 
$ readelf -d libfoo.so | grep TEXTREL 


FIFE TEXTREL 表示 存在 一 个 目标 模块 ， 其 文本 段 中 包含 需要 运行 时 重 定位 的 引用 。 
在 41.5 节 中 将 会 介绍 更 多 有 关 nm, readelf 以 及 objdump 命令 的 信息 。 



































41.4.3 ”使 用 一 个 共享 库 


为 了 使 用 一 个 共享 库 就 需要 做 两 件 事情 ， 而 使 用 融 态 库 的 程序 则 无 需 完成 这 两 件 事情 。 

e 由 于 可 执行 文件 不 再 包含 它 所 需 的 目标 文件 的 副本 ， 因 此 它 必 须要 通过 条 种 机 制 找 出 
在 运行 时 所 需 的 共 圣 库 。 这 是 通过 在 链接 阶段 将 共 至 库 的 名 称 散 入 可 执行 文件 中 来 完 
成 的 。( 在 ELF 中 ， 库 依赖 性 是 记录 在 可 执行 文件 的 DT. NEEDED 标签 中 的 。) 一 个 
程序 所 依赖 的 所 有 共享 库 列 表 补 称 为 程序 的 动态 依赖 列表 。 

。 在 运行 时 必须 要 存在 条 种 机 制 来 解析 舰 入 的 库 名 一 一 即 找 出 与 在 可 执行 文件 中 指定 
的 名 称 对 应 的 共 圣 库 文件 一 一 接 看 如 下 库 不 在 内 存 中 的 话 束 将 库 加 载 进 内 存 。 

将 程序 与 共 至 库 链接 起 来 时 目 动 会 将 库 的 名 凶 租 入 可 执行 文件 中 。 

$ gcc -g -Wall -o prog prog.c libfoo.so 

AU ARA EXSTTIXX REL. MARSE PTRLPI ARV be 

$ ./prog 


./prog: error in loading shared libraries: libfoo.so: cannot 
open shared object file: No such file or directory 


fife Dos RISUS ma EUR EE SIB: 动态 链接 ， 即 在 运行 时 解析 内 般 的 库 名 。 这 个 任务 是 由 
动态 链接 右 〈 也 称 为 动态 链接 加 载 堪 或 运行 时 链接 器 ) 来 完成 的 。 动 态 链 接 吉 本身 也 是 一 个 共享 
库 ， 其 名 称 为 /lib/id-linux.so.2， 所 有 使 用 共享 库 的 ELF 可 执行 文件 都 会 用 到 这 个 共享 库 。 

路 径 名 /fib/ld-linux.so.2 通 间 是 一 个 指 癌 动态 链接 需 可 执行 文件 的 符号 链接 。 这 个 文件 的 名 称 
为 ld-version.so, HLF version 表示 安装 在 系统 上 的 glibc 的 版 本 一 一 如 1d-2.11.so。 在 一 些 架 构 上 ， 
动态 链接 需 的 路 径 名 是 不 同 的 。 如 在 IA-64 上 ， 动 态 链 接 需 人 符号 链接 的 名 称 为 [ipb/ld-linux-ia64.so.2。 


动态 链接 占 会 检查 程序 所 需 的 共 至 库 清单 并 使 用 一 组 预先 定义 好 的 规则 来 在 文件 系统 上 
找 出 相关 的 库 文 件 。 其 中 一 些 规则 指定 了 一 组 存放 共 圣 库 的 标准 目录 。 如 很 多 共 圣 库 位 于 /lib 
和 /usr/ib 中 。 之 所 以 出 现 上 面 的 错误 消息 是 因为 程序 所 需 的 库 位 于 当前 工作 目录 中 ， 而 不 位 
于 动态 链接 堪 搜 索 的 标准 目录 请 单 中 。 


一 些 架 构 〈 如 zSeries、PowerPC64 以 及 x86-64) 同时 支持 执行 32 位 和 64 位 的 程序 。 
在 此 类 系统 上 ，32 位 的 库 位 于 */lib 子 目 录 中 ，64 位 的 库 位 于 ylib64 子 目 录 中 。 
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LD_LIBRARY_PATH 环境 变量 

38 EL] A BE BER — T H EE LY — 7 E E H ox P BS Bp TE Ze A B ox S D E 
LD_LIBRARY_PATH 环境 变量 中 以 分 号 分 隔 的 目录 列表 中 。( 也 可 以 使 用 分 号 来 分 隔 ， 在 使 用 
分 号 时 必须 将 列表 放 在 引号 中 以 防止 shell 将 分 号 解释 了 其 他 用 途 .。) 如 果 定 义 了 
LD_LIBRARY_PATH， 那 么 动态 链接 占 在 查找 标 准 库 目录 之 前 会 先 但 找 该 环境 和 变量 列 出 的 目录 
中 的 共享 库 。( 稍 后 会 介绍 一 个 生产 应 用 程序 永远 都 不 应 该 依赖 于 LD_LIBRARY_PATH， 但 此 
刻 通过 这 个 变量 可 以 方便 地 开始 使 用 共享 库 了 。) 因此 可 以 使 用 下 面 的 命令 来 运行 程序 。 

$ LD LIBRARY PATH-. ./prog 


Called mod1-x1 
Called mod2-x2 


上 面 的 命令 中 使 用 的 shell Cbash, Korn 以 及 Bourne? 语法 在 执行 prog 的 进程 中 创建 了 一 
个 环境 变量 定义 。 这 个 定义 告诉 动态 链接 器 在 .， 即 当前 工作 目录 中 搜索 共享 库 。 
在 LD_LIBRARY_PATH 列表 中 的 空 目录 (如 dirx::diry 中 间 的 空 目 录 ) 等 价 于 .， 即 当 
前 工作 目录 (但 注意 将 LD_LIBRARY_PATH 的 值 设 置 为 空 字 符 串 并 不 能 达到 同样 效果 )。 
需要 避免 这 种 用 法 〈SUSv3 同样 不 建议 在 PATH 环境 变量 中 使 用 这 种 方式 )。 
静态 链接 和 动态 链接 比较 
通常 ， 术 语 链 接 用 来 表示 使 用 链接 器 1d 将 一 个 或 多 个 编译 过 的 目标 文件 组 合成 一 个 可 执 
行文 件 。 有 时 候 会 使 用 术语 静态 链接 从 动态 链接 中 将 在 运行 时 加 载 可 执行 文件 所 需 的 共享 库 
这 一 步骤 给 区 分 出 来 。( 静 态 链 接 有 时 候 也 被 称 为 链接 编辑 ,， 像 ld 这样 的 静态 链接 右 有 了 时候 被 
称 为 链接 编辑 器。) 每 个 程序 一 一 包括 那些 使 用 共享 库 的 程序 一 一 都 会 经 历 一 个 静态 链接 的 阶 
段 。 在 运行 时 ， 使 用 共享 库 的 程序 会 经 历 额 外 的 动态 链接 阶段 。 
























































41.4.4 共享 库 soname 

到 目前 为 止 介绍 的 所 有 例子 中 , 艇 入 到 可 执行 文件 以 及 动态 链接 占 在 运行 时 搜索 的 名 称 
是 共 娃 库 文 件 的 实际 名 称 ， 这 被 称 为 库 的 真实 名 称 Creal name)。 但 可 以 一 一 实际 上 经 常 这 
样 做 一 一 使 用 别名 来 创建 共享 库 ， 这 种 别名 称 为 soname (ELF 中 的 DT_SONAME 标签 )。 

如 果 共 享 库 拥有 一 个 soname, 那么 在 静态 链接 阶段 会 将 soname 磐 入 到 可 执行 文件 中 , 而 
不 会 使 用 真实 名 称 ， 同 时 后 面 的 动态 链接 器 在 运行 时 也 会 使 用 这 个 soname 来 搜索 库 。 引 入 
soname 的 目的 是 为 了 提供 一 层 间 接 ， 使 得 可 执行 程序 能 够 在 运行 时 使 用 与 链接 时 使 用 的 库 不 
同 的 (但 兼容 的 〉 共享 库 。 

在 41.6 节 中 将 会 介绍 共享 库 的 真实 名 称 和 soname 的 命名 规则 。 下面 通过 一 个 简化 的 例子 
来 说 明 这 些 原则 。 

使 用 soname 的 第 一 步 是 在 创建 共 圣 库 时 指定 soname。 


$ gcc -g -c -fPIC -Wall modi.c mod2.c mod3.c 
$ gcc -g -shared -Wl,-soname,libbar.so -o libfoo.so mod1.0 mod2.0 mod3.o 


—Wl. -soname 以 及 libbar.so 选项 是 传 给 链接 器 的 指令 以 将 共享 库 libfoo.so 的 soname i 
置 为 libbar.so。 

如 果 要 确定 一 个 既 有 共享 库 的 soname， 那 么 可 以 使 用 下 面 两 个 命令 中 的 任意 一 个 。 

$ objdump -p libfoo.so | grep SONAME 
























































SONAME libbar.so 
$ readelf -d libfoo.so | grep SONAME 
0x0000000e (SONAME) Library soname: [libbar.so] 
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在 使 用 soname 8J£& T —^P Js Fg Z Jen] EARS GUEE RT AAT XT T o 

$ gcc -g -Wall -o prog prog.c libfoo.so 

但 这 次 链接 器 检查 到 库 libfoo.so 包含 了 soname libbarso， 于 是 将 这 个 soname BE | f n 
据 行 文件 中 。 

现在 当 运 行 这 个 程序 时 就 会 看 到 下 面 的 输出 。 

$ LD LIBRARY PATH-. ./prog 


prog: error in loading shared libraries: libbar.so: cannot open 
shared object file: No such file or directory 


XE HI IH BUE JE BEBE JCU RRRA A libbarso IEE. SEH soname 时 还 需要 做 一 件 
事情 : 必须 要 创建 一 个 从 与 链接 将 soname 指 癌 库 的 丰 实 名 称 ， 并 且 必 须要 将 这 个 符 写 链接 放 
在 动态 链接 器 搜索 的 其 中 一 个 目录 中 。 因 此 可 以 像 下 面 这 样 运行 这 个 程序 。 


$ ln -s libfoo.so libbar.so Create soname symbolic link in current directory 
$ LD LIBRARY PATH-. ./prog 

Called mod1-x1 

Called mod2-x2 


图 41-1 26 H3 T TET — RH soname， 将 程序 与 共 孚 库 链 接 起 来 ， 以 及 创建 运行 程序 
所 需 的 soname 符号 链接 时 所 涉及 到 的 编 详 和 链接 事项 。 























-shared -o libfoo.so ^ 
-fPIC -Wall ^ -Wl,-soname,libbar.so \ 


modi.c mod2.c mod3.c modi.o mod2.0 mod3.o 








libfoo.so 


ELF 3t 
( 其 他 信息 ) 


soname-libbar.so 


( 其 他 信息 ) 


mod 1.o 代码 


Y 


mod2.o (VK 


mod3.o 代码 


7U-—  — M E ë A M M E E M 88-E 


4 
多 J- — — — — 
G) $ gcc -o prog \ (4) $ ln -s libfoo.so \ 
prog.c libfoo.so | libbar.so 






prog libbar.so 


程序 头 
共享 目标 依赖 : 
/lib/Id-linux.so.2 
libbar.so 一 


"libfoo.so" 


de LL uel å å Luz LL LLEu Luz Lou Li S I. 


prog.o 代码 


41-1: 创建 一 个 共享 库 并 将 一 个 程序 与 该 共享 库 链 接 起 来 
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图 41-2 给 出 了 当 图 41-1 中 创建 的 程序 被 加 载 进 内 存 以 备 执行 时 发 生 的 事情 。 







libbar.so 





程序 头 
共享 目标 依赖 : 
/lb/ld-Imnux.so.2 


modl.o 代码 | libbar.so 


| mod2.o 代码 


mod3.o 代码 





"i 
F 
/ Jg "." prm 
y sillibbar.so 
/ 
[pz eem 
| | 文件 系统 


| 进程 虚拟 内 存 
$ LD LIBRARY PATH=. ./prog | 


进程 创建 ; 2 5 ALD i 


| 
(ld-linux.so) 和 (1) | 


mi i 
-= € m 
— 
= 
— = ss å- å l 


prog 载 入 到 内 存 口中 " 
I 

i 程序 头 
\ 共享 目标 依赖 ; 

\ /lib/ld-linux.so.2 

\ . 

i libbar.so 
A 


1 
b _ 
I 
libfoo.so « d (3) 


内 存 中 is peines quami mie i 共享 目标 依赖 


41-2: 加 载 共 享 库 的 程序 的 执行 


要 找 出 一 个 进程 当前 使 用 的 共享 库 则 可 以 列 出 相应 的 Linux 特有 的 /proc/PID/maps 文件 
中 的 内 容 (参见 48.5 市 )。 


41.5 ”使 用 共 圣 库 的 有 用 工具 


本 节 将 简要 介绍 对 分 析 共 


共享 库 、 可 执行 文件 以 及 编 详 过 的 目标 文件 (.o) 有 用 的 一 组 








Idd(1)《〈 列 出 动态 依赖 ) 命令 显示 了 一 个 程序 运行 捷 需 的 共享 库 ， 如 下 所 示 。 
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$ ldd prog 
libdemo.so.1 -» /usr/lib/libdemo.so.1 (0x40019000) 
libc.so.6 -» /lib/tls/libc.so.6 (0x4017b000) 
/lib/ld-linux.so.2 -» /lib/ld-linux.so.2 (0x40000000) 


ldd 命令 会 解析 出 每 个 库 引 用 《使 用 的 搜索 方式 与 动态 链接 闫 一 样 ) 并 以 下 面 的 形式 显示 











E 
Zr 





library-name => resolves-to-bath 





对 于 大 多 数 ELF 可 执行 文件 来 讲 ，ldd 至 少 会 列 出 与 1d-linux.so.2、 动 态 链 接 器 以 及 标准 
C JẸ libc.so.6 相关 的 条 目 。 











在 一 些 架 构 上 ，C 库 的 名 称 是 不 同 的 。 如 在 IA-64 和 Alpha 上 ， 这 个 库 的 名 称 是 libc.so.6.1。 


objdump 和 readelf 命令 


objdump 命令 能 够 用 来 获取 各 类 信息 一 一 包括 反 汇 编 的 二 进 制 机 器 人 码 一 一 从 一 个 可 执行 
文件 、 编 译 过 的 目标 以 及 共享 库 中 。 它 还 能 够 用 来 显示 这 些 文件 中 各 个 ELF 市 的 头 部 信息 ， 
当 这 样 使 用 objdump 时 它 束 类 似 于 readelf, readelf 能 显示 类 似 的 信息 ， 但 显示 格式 不 同 。 本 
草 结 尾 处 将 会 列 出 更 多 有 关 objdump 和 readelf 的 信息 源 。 














nm 命令 
nm 命令 会 列 出 目标 库 或 可 执行 程序 中 定义 的 一 组 符号 。 这 个 命令 的 一 种 用 途 是 找 出 哪些 
库 定义 了 一 个 符 写 。 如 要 找 出 哪个 库 定义 了 crypt0 函 数 则 可 以 像 下 面 这 样 做 。 


$ nm -A /usr/lib/lib*.so 2» /dev/null | grep ' crypt$' 
/usr/lib/libcrypt.so:00007080 W crypt 


nm 的 -A 选项 指定 了 在 显示 符号 的 每 一 行 的 开头 处 应 该 列 出 库 的 名 称 。 这 样 做 是 有 必要 
的 ， 因 为 在 默认 情况 下 ，nm 只 列 出 库 名 一 次 ， 然 后 在 后 面 会 列 出 库 中 包含 的 所 有 符号 ， 这 对 
于 像 上 面 那样 进行 某 种 过 滤 的 例子 来 讲 是 没有 用 处 的 。 此 外 ， 这 里 还 丢弃 了 标准 错误 输出 以 
便 隐藏 与 nm 命令 无 法 识别 文件 格式 有 关 的 错误 消息 。 从 上 面 的 输出 中 可 以 看 出 ，cryptO 被 定 
义 在 了 libcrypt 库 中 。 


41.6 dtzg ER KD p pA X N] 


Ff IEEE S ERRAL ER ns ERAS SUE. OR UP, — PARE PETH EXE EB VA 
个 版 本 是 相互 兼容 的 ， 这 意味 看 每 个 模块 中 的 函数 对 外 呈现 出 来 的 调用 接口 是 一 致 的 ， 并 且 
站 数 的 语义 是 等 价 的 〈 即 它们 能 取得 同样 的 结果 )。 这 种 版 本 写 不 同 但 相互 羔 容 的 版 本 被 称 为 
共有 至 库 的 次 要 有 版本。 但 有 时 候 需 要 创建 创建 一 个 库 的 新 主 版 本 一 一 即 与 上 一 个 版 本 不 兼容 的 
版 本 。( 在 41.8 市 中 将 会 更 加 明确 地 看 到 哪些 方面 会 引起 不 兼容 性 。〉 同时 ， 必 须要 确保 使 用 
老 版 本 的 库 的 程序 仍然 能 够 运行 。 

为 了 满 是 这 些 版 本 化 的 要 求 ， 共 至 库 的 真实 名 称 和 soname 必须 要 使 用 一 种 标准 的 命名 规范 。 

































































真实 名 称 、soname 以 及 链接 器 名 称 
共享 库 的 每 个 不 兼容 版 本 是 通过 一 个 唯一 的 主要 版 本 标识 符 来 区 分 的 ， 这 个 主要 版 本 标 
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识 符 是 共 圣 库 的 真实 名 称 的 一 部 分 。 根 据 惯 例 ， 主 要 版 本 标识 符 由 一 个 数字 构成 ， 这 个 数字 
随 看 库 的 每 个 不 羔 容 版 本 的 发 布 而 顺序 递增 。 除 了 主要 版 本 标识 符 之 外 ， 真 实名 称 还 包含 一 
个 次 要 厂 本 标识 待 ， 它 用 来 区 分 库 的 主要 厂 本 中 莱 容 的 次 要 了 县 本 。 真 实名 称 的 格式 规范 为 
libname.so.major-1d.minor-1d。 

与 主要 厂 本 标识 符 一 样 ， 次 要 厂 本 标识 符 可 以 是 任意 字符 串 。 但 根据 惯例 ， 它 要 么 是 一 
个 数学 ， 要 么 是 两 个 由 后 分 隅 的 数字 ， 其 中 第 一 个 数字 标识 出 了 次 要 有 版本， 第 二 个 数字 表示 
该 次 要 版 本 中 的 补丁 号 或 修订 号 。 下 面 是 一 些 共享 库 的 真实 名 称 。 

libdemo.so.1.0.1 

libdemo.so.1.0.2 Minor version, compatible with version 1.0.1 


libdemo.so.2.0.0 New major version, incompatible with version 1.* 
libreadline.so.5.0 


HEEP soname &LTRTH NY BR] EC SE Az PC ER] SEE CAS BN VIAE ELA BUE CIE UIS BNVAIST e 
因此 soname 的 形式 为 libname.so.major-id. 

通常 ， 会 将 soname 创建 为 包含 真实 名 称 的 目录 中 的 一 个 相对 符号 链接 。 下 而 是 一 些 
soname 的 例子 以 及 它们 可 能 通过 符号 链接 指 问 的 真实 名 称 。 









































libdemo.so.1 -» libdemo.so.1.0.2 
libdemo.so.2 -» libdemo.so.2.0.0 
libreadline.so.5 -» libreadline.so.5.0 








对 于 共享 库 的 某 个 特定 的 主要 版 本 来 讲 ， 可 能 存在 儿 个 库 文件 ， 这 些 库 文件 是 通过 不 同 
的 次 要 版 本 标识 符 来 区 分 的 。 通常 ， 每 个 库 的 主要 版 本 的 soname 会 指向 在 主要 版 本 中 最 新 的 
次 要 版 本 (如 上 面 的 libdemo.so 例子 所 示 )。 这 种 配置 使 得 在 共享 库 的 运行 时 操作 期 间 版 本 化 
语义 能 够 正确 工作 。 由 于 静态 链接 阶段 会 将 soname 的 副本 (独立 于 次 要 版 本 ) 嵌入 到 可 执行 
文件 中 并 且 soname 符号 链接 后 面 可 能 会 被 修改 指 问 一 个 更 狐 的 (次 要 ) 版 本 的 共享 库 ， 因 此 
可 以 确保 可 执行 文件 在 运行 时 能 够 加 载 库 的 最 狐 的 次 要 版 本 。 此 外 ， 由 于 一 个 库 的 不 同 的 主 
要 版 本 的 soname 不 同 ， 因 此 它们 能 够 和 平地 共存 并 且 被 需要 它们 的 程序 访问 。 

除了 真实 名 称 和 soname 之 外 ， 通 和 常 还 会 为 每 个 共享 库 定义 第 三 个 名 称 : 链接 嚣 名称， 将 
可 执行 文件 与 共享 库 链接 起 来 时 会 用 到 这 个 名 称 。 链 接 嚣 名称 是 一 个 只 包含 库 名 同时 不 包含 
主要 或 次 要 版 本 标识 符 的 符号 链接 ， 因 此 其 形式 为 libname.so。 有 了 链接 右 名 称 之 后 就 可 以 构 
建 能 够 目 动 使 用 共享 库 的 正确 版 本 ( 即 最 狐 版 本 ) 的 独立 于 版 本 的 链接 命令 了 。 

一 般 来 讲 ， 链 接 器 名 称 与 它 所 引用 的 文件 位 于 同一 个 目录 中 ， 它 既 可 以 链接 到 真实 名 称 ， 
也 可 以 连接 到 库 的 最 新 主要 版 本 的 soname。 通 常 ,最 好 使 用 指向 soname 的 链接 ,因此 对 soname 
所 做 的 变更 会 目 动 反应 到 链接 占 名 称 上 。( 在 41.7 市 中 会 看 到 Idconfig 程序 将 保持 soname 最 
新 的 任务 自动 化 了 ， 因 此 如 果 使 用 了 刚才 介绍 的 规范 的 话 就 是 隐 式 地 维护 链接 器 名 称 。) 


如 果 需 要 将 一 个 程序 与 共 至 库 的 一 个 较 老 的 主要 版 本 链接 起 来 ， 就 不 能 使 用 链接 器 名 
R o FHE, 在 链接 命 仿 中 需要 通过 制定 具体 的 大 实名 称 或 soname 来 标示 出 所 需要 的 版 本 ( 主 
BRA). 


PEER AART o 


libdemo.so -> libdemo.so.2 
libreadline.so -> libreadline.so.5 


K 41-1 对 共享 库 的 真实 名 称 、soname 以 及 链接 如 名 称 进行 了 总 结 ， 图 41-3 描绘 了 这 些 
名 称 之 间 的 关系 。 
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表 41-1: 共享 库 名 称 总 结 


真实 名 称 libname.so.maj.min | 保存 库 代 人 码 的 文件 ， 每 个 库 的 major-plus-minor 版 本 都 存在 一 
个 真实 名 称 


soname libname.so.maj 库 的 每 个 主要 版 本 部 存 在 一 个 soname; (fESEBZI BCUCA 3] n] 
执行 文件 中 ; 在 运行 时 用 来 找 出 指向 相应 的 (最 新 的 ) 真实 名 
称 的 同名 符 写 链接 所 引用 的 库 


链接 器 名 称 | libname.so 指向 真实 名 称 或 最 新 的 (更 常见 的 做 法 ) soname 的 符号 链接 ; 
只 存在 一 个 实例 ， 人 允许 构建 版 本 独立 的 链接 命令 


























真实 名 称 soname 链接 器 名 称 
libname.so.maj.min y libname.so.maj w libname.so 


(常规 文件 ) BENE TIT c.l (符号 链接 ) 
库 模块 的 libname.so.maj.min libname.so.ma] 





目标 代码 


41-3: 共享 库 名 称 的 命名 规范 


使 用 标准 规范 创建 一 个 共享 库 

根据 上 和 面 介绍 的 相关 知识 ， 下 面 开 始 介 绍 如 何 遵 循 标 准 规范 来 构建 一 个 演示 库 。 首 先 需 
要 创建 目标 文件 。 

$ gcc -g -c -fPIC -Wall modi.c mod2.c mod3.c 

接着 创建 共享 库 ， 其 真实 名 称 为 libdemo.so.1.0.1, soname 7j libdemo.so.1. 


$ gcc -g -shared -Wl,-soname,libdemo.so.1 -o libdemo.so.1.0.1 \ 
modi.o mod2.0 mod3.o 


接 看 为 soname 和 链接 占 名 称 创建 恰当 的 符 写 链接 。 


$ ln -s libdemo.so.1.0.1 libdemo.so.1 
$ ln -s libdemo.so.1 libdemo.so 


接 看 可 以 使 用 ls 来 验证 配置 〈 使 用 awk 来 选择 感 兴趣 的 字段 )。 
$ ls -1 libdemo.so* | awk '(print $1, $9, $10, $11)' 

lrwxrwxrwx libdemo.so -» libdemo.so.1 

lrwxrwxrwx libdemo.so.1 -» libdemo.so.1.0.1 

-rwxr-xr-x libdemo.so.1.0.1 


BH WI EH ER aA RRE AITE GE BEBO T SABEN S, HRA 
行 这 个 程序 。 

$ gcc -g -Wall -o prog prog.c -L. -ldemo 

$ LD LIBRARY PATH-. ./prog 


Called mod1-x1 
Called mod2-x2 




















41.7 ”安装 共享 库 


在 本 章 到 目前 为 止 介 绍 的 例子 中 部 是 将 共 圣 库 创建 在 用 户 私 有 的 目录 中 ， 然 后 使 用 
LD LIBRARY PATH 环 匮 变量 来 确 你 动态 链接 融会 搜 到 该 目录 。 特 权 用 户 和 非特 权 用 户 都 可 
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以 使 用 这 种 技术 ， 但 在 生产 应 用 程序 中 不 应 该 采用 这 种 技术 。 一 般 来 讲 ， 共 享 库 及 其 关联 的 
符号 链接 会 被 安 闭 在 其 中 一 个 标准 库 目 录 中 ， 标 准 库 目录 包括 : 

e /usr/lib, EERE AORERE CRISI HS. 

。 /lib, 应 该 将 系统 启动 时 用 到 的 库 安 装 在 这 个 目录 中 (因为 在 系统 局 动 时 可 能 还 没有 挂 

2X. /usr/lib). 

e /usr/locaWlib， 应 该 将 非 标 准 或 实验 性 的 库 安 疙 在 这 个 目录 中 〔 对 于 /ustlib 是 一 个 由 多 个 

系统 共享 的 网 络 挂 载 但 需要 只 在 本 机 安 疙 一 个 库 的 情况 则 可 以 将 库 放 在 这 个 目录 中 )。 

e 其 中 一 个 在 /etc/ld.so.conf〈 稍 后 介绍 ) 中 列 出 的 目录 。 

在 大 多 数 情况 下 ， 将 文件 复制 到 这 些 目录 中 需要 具备 超级 用 户 的 权限 。 

安 宅 完 之 后 束 必 须要 创建 soname 和 链接 需 名 称 的 符号 链接 了 ， 通 项 它们 是 作为 相对 符 扎 
链接 与 库 文 件 位 于 同一 个 目录 中 。 因 此 要 将 本 章 的 总 示 库 安 痛 在 /asrlib〈 上 只 人 允许 root 进行 更 
新 ) 中 则 可 以 使 用 下 面 的 命令 。 

OM 

# mv libdemo.so.1.0.1 /usr/lib 

# cd /usr/lib 


# ln -s libdemo.so.1.0.1 libdemo.so.1 
# ln -s libdemo.so.1 libdemo.so 


shell 会 话 中 的 最 后 两 行 创 建 了 soname 和 链接 器 名 称 的 符号 链接 。 






























































Idconfig 


ldconfig(8) 解 决 了 共享 库 的 两 个 潜在 问题 。 

e 共享 库 可 以 位 于 各 种 目录 中 ， 如 果 动 态 链 接 器 需要 通过 搜索 所 有 这 些 目录 来 找 出 一 个 
库 并 加 载 这 个 库 ， 那 么 整个 过 程 将 非 钊 慢 。 

o 当 安 逆 了 新版 本 的 库 或 者 删除 了 旧版 本 的 库 ， 那 么 soname 符号 链接 殉 不 是 最 新 的 。 

ldconfig 程序 通过 执行 两 个 任务 来 解决 这 些 问 题 。 

1. 它 搜索 一 组 标准 的 目录 并 创建 或 更 独 一 个 绥 存 文件 /etc/ld.so.cache 使 之 包含 在 所 有 这 些 日 
录 中 的 主要 库 版 本 (每 个 库 的 主要 版 本 的 最 狐 的 次 要 有 版本) 列表 。 动态 链 接 器 在 运行 时 解 
析 库 名 称 时 会 轮流 使 用 这 个 绥 存 文件 。 为 了 构建 这 个 缓存 , ldconfig 会 搜索 在 /etc/ld.so.conf 
中 指定 的 目录 , 然后 搜索 lib 和 /usr/lib. /etc/Id.so.conf 文件 由 一 个 目录 路 径 名 (应 该 是 绝 
对 路 径 名 ) 列表 构成 ， 其 中 路 径 名 之 间 用 换行 、 空 格 、 制 表 符 、 圳 号 或 时 号 分 隔 。 在 一 些 
发 行 版 中 ，/usr/local/lib 目录 也 位 于 这 个 列表 中 。( 如 果 不 在 这 个 列表 中 ， 那 么 束 害 要 手工 
T4 CS n 8 91) nn a) 























命令 ldconfig -p 会 显示 /etc/ld.so.cache 的 当前 内 容 。 











它 检 查 每 个 库 的 各 个 主要 版 本 的 最 独 次 要 版 本 ( 即 上 共有 最 大 的 次 要 版 本 号 的 版 本 ) 以 找 出 
区 入 的 soname， 然 后 在 同一 目录 中 为 每 个 soname 创建 (或 更 新 ) 相 对付 写 链接 。 

为 了 能 够 正确 执行 这 些 动作 ，ldconfig 要 求 库 的 名 称 要 根据 前 面 介 绍 的 规范 来 命名 《〈 即 库 
的 真实 名 称 包 含 主要 和 次 要 标识 从 ， 它 们 随 看 库 的 版 本 的 更 狐 而 恰当 的 增长 )。 

在 默认 情况 下 ，ldconfig 会 执行 上 和 面 两 个 动作 ,但 可 以 使 用 命令 行 选项 来 指定 它 执行 其 中 
一 个 动作 :-N 选项 会 防止 绥 存 的 重建 ,-X 选项 会 阻止 soname 符号 链接 的 创建 ,此 外 ,-v (verbose) 
选项 会 使 得 ldconfig 输出 描述 其 所 执行 的 动作 的 信息 。 
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每 当 安装 了 一 个 新 的 库 ， 更 新 或 删除 了 一 个 既 有 库 ， 以 及 /etc/ld.so.conf 中 的 目录 列表 被 
修改 之 后 ， 都 应 该 运行 ldconfig。 

下 面 是 一 个 使 用 ldconfig 的 例子 。 假设 需要 安装 一 个 库 的 两 个 不 同 的 主要 版 本 , 那么 需要 
做 下 面 的 事情 。 


$ su 
Password: 


4 mv libdemo.so.1.0.1 libdemo.so.2.0.0 /usr/lib 
# ldconfig -v | grep libdemo 


libdemo.so.1 -» libdemo.so.1.0.1 (changed) 
libdemo.so.2 -» libdemo.so.2.0.0 (changed) 


EHX} ldconfig 的 输出 进行 了 过 小 ， 这 样 读者 束 只 会 看 到 与 名 为 libdemo 的 库 相 关 的 信 








El ap o 

接 看 列 出 在 /usr/lib 目录 中 名 为 libdemo 的 文件 来 验证 soname 符号 链接 的 议 置 。 
# cd /usr/lib 

# ls -l libdemo* | awk '(print $1, $$9, $10, $11)' 

lrwxrwxrwx libdemo.so.1 -» libdemo.so.1.0.1 

-rwxr-xr-x libdemo.so.1.0.1 


lrwxrwxrwx libdemo.so.2 -» libdemo.so.2.0.0 
-rwxr-xr-x libdemo.so.2.0.0 


还 需要 为 链接 需 名 称 创建 符号 链接 ， 如 下 面 的 命令 所 示 。 
# ln -s libdemo.so.2 libdemo.so 
T RESET VERTS 2.x 次 要 版 本 ， 那 么 由 于 链接 器 名 称 指 问 了 最 独 的 soname, 
此 Idconfig 还 能 取得 保持 链接 器 名 称 最 新 的 效果 ， 如 下 面 的 例子 所 示 。 
# mv libdemo.so.2.0.1 /usr/lib 
# ldconfig -v | grep libdemo 
libdemo.so.1 -» libdemo.so.1.0.1 
libdemo.so.2 -» libdemo.so.2.0.1 (changed) 


如 果 创 建 和 使 用 的 是 一 个 私有 库 〈 即 没有 安装 在 上 述 标准 目录 中 的 库 )， 那 么 可 以 通过 
使 用 -n 选项 让 ldconfig 创建 soname 和 从 号 链接 。 这 个 选项 指定 了 ldconfig 只 处 理 在 命令 行 中 
列 出 的 目录 中 的 库 ， 而 无 需 更 新 缓存 文件 。 下 面 的 例子 使 用 了 ldconfig 来 处 理 当前 工作 目录 
中 的 库 。 


$ gcc -g -c -fPIC -Wall mod1.c mod2.c mod3.c 

$ gcc -g -shared -Wl,-soname,libdemo.so.1 -o libdemo.so.1.0.1 ^ 
mod1.o mod2.0 mod3.o 

$ /sbin/ldconfig -nv . 


























libdemo.so.1 -» libdemo.so.1.0.1 
$ ls -1 libdemo.so* | awk '(print $1, $9, $10, $11)' 
lrwxrwxrwx libdemo.so.1 -» libdemo.so.1.0.1 
-rwxr-xr-x libdemo.so.1.0.1 


在 上 和 面 的 例子 中 ， 当 运行 ldconfig 时 指定 了 完全 路 径 名 ， 因 为 使 用 的 是 一 个 非特 权 账 号 ， 
其 PATH 环境 变量 不 包含 /sbin HK- 








41.8 GUAE TGRUS E LLE 


随 看 时 间 的 流逝 ， 可 能 需要 修改 共 圣 库 的 代码 。 这 种 修改 会 导致 产生 一 个 新 版 本 的 库 ， 
这 个 狐 版 本 可 以 与 之 前 的 版 本 莱 容 ， 也 可 能 与 之 醒 的 版 本 个 兼容。 如 来 是 莱 容 的 话 则 童 味 春 
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只 需要 











医改 库 的 真实 名 称 的 次 要 版 本 标识 符 即 可 ， 如 果 是 不 兼容 的 话 则 意味 着 必须 要 定义 一 


个 库 的 新 主要 版 本 。 
当 满足 下 列 条 件 时 表示 修改 过 的 库 与 既 有 库 版 本 兼容 。 








库 中 所 有 公共 方法 和 变量 的 语义 保持 不 变 。 换 句 话 说 ， 每 个 函数 的 参数 列表 不 变 并 且 
对 全 局 变量 和 返回 参数 产生 的 影 啊 不 变 ， 同 时 返回 同样 的 结 东 值 。 因 此 提升 性 能 或 修 
复 Bug《〈 导 致 更 加 行为 更 加 符合 规定 ) 的 变更 可 以 认为 是 兼容 的 变更 。 

没有 删除 库 的 公共 API 中 的 函数 和 变量 , 但 向 公共 API 中 添加 新 国 数 和 变量 不 会 影响 
AR ETE e 

TE REA RAP 7) BGITI 48 ERU REA PRG [RTI] RJ DISSE Ae s DADA], EH PESE S 
共 结 构 保 持 不 变 。 这 个 规则 的 一 个 例外 情况 古 在 特定 情况 下 ， 可 能 会 癌 既 有 结构 的 结 
尾 处 添加 新 的 字段 , 但 当 调 用 程序 在 分 配 这 个 结构 类 型 的 数组 时 会 产生 问题 。 有 时 候 ， 
库 的 设计 人 员 会 通过 将 导出 结构 的 大 小 定义 为 比 库 的 首 个 发 行 版 所 需 的 大 小 大 来 解 
决 这 个 问题 ， 即 增加 一 些 填 充 子 段 以 备 将 来 之 十 。 


















































如 由 所 有 这 些 条 件 痢 得 到 了 满足 ， 那 么 在 更 新 新 库 名 时 束 只 需要 调整 妹 有 名 称 中 的 次 要 





版 本 号 了 ， 合 则 瓯 需 要 创建 库 的 一 个 新 主要 厂 本 。 


41.9 ”升级 共享 库 


共享 库 的 优点 之 一 是 当 一 个 运行 着 的 程序 正在 使 用 共享 库 的 一 个 既 有 版 本 时 也 能 够 安装 
库 的 新 主要 版 本 或 次 要 版 本 。 在 安 状 的 过 程 中 需要 做 的 事情 包括 创建 狐 的 库 版 本 、 将 其 安装 
在 恰当 的 目录 中 以 及 根据 需要 更 新 soname 和 链接 器 名称 符 亏 链接 kM LE ldconfig 来 完成 























这 部 分 工作 )。 如 要 创建 共享 库 /usr/lib/libdemo.1.0.1 的 一 个 新 次 要 版 本 ， 那 么 需要 完成 : 


$ su 

Password: 

# gcc -g -c -fPIC -Wall modi.c mod2.c mod3.c 

# gcc -g -shared -Wl,-soname,libdemo.so.1 -o libdemo.so.1.0.2 ^ 


最 后 


mod1.0 mod2.0 mod3.o 


# mv libdemo.so.1.0.2 /usr/lib 
# ldconfig -v | grep libdemo 


libdemo.so.1 -> libdemo.so.1.0.2 (changed) 





假设 已 经 正确 地 配置 了 链接 强 名 称 ( 即 指 问 库 的 soname), 那么 束 无 十 修改 链接 占 名 称 了 。 








己 经 运行 看 的 程序 会 继续 使 用 共 吾 库 的 上 一 个 次 要 有 版 本 ， 上 只 有 当 它 们 终止 或 重 局 之 后 才 
会 使 用 共 圣 库 的 新 钦 要 版 本 。 
如 果 后 面 需 要 创建 共 圣 库 的 一 个 新 主要 版 本 (2.0.0)， 那 么 束 需 要 完成 : 


# gcc -g -c -fPIC -Wall modi.c mod2.c mod3.c 
# gcc -g -shared -Wl,-soname,libdemo.so.2 -o libdemo.so.2.0.0 ^ 








modi.o mod2.0 mod3.o 


# mv libdemo.so.2.0.0 /usr/lib 
# ldconfig -v | grep libdemo 


libdemo.so.1 -» libdemo.so.1.0.2 
libdemo.so.2 -» libdemo.so.2.0.0 (changed) 


4 cd /usr/lib 
4 ln -sf libdemo.so.2 libdemo.so 


从 上 面 的 输出 可 以 看 出 ，ldconfig 自动 为 新 主要 版 本 创建 了 一 个 soname 符号 链接 ， 但 从 
一 条 命令 可 以 看 出 ， 必 须要 手工 更 新 链接 器 名 称 的 符号 链接 。 
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41.10 在 目标 文件 中 指定 库 搜 索 目 录 


到 目击 为 止 本 革 已 经 介绍 了 两 种 通知 动态 链接 此 共享 库 的 位 置 的 方式 : 使 用 
LD_LIBRARY_PATH 环境 变量 和 将 共享 库 安装 到 其 中 一 个 标准 库 目录 中 Clib, /usr/lib 或 在 
/etc/ld.so.conf 中 列 出 的 其 中 一 个 目录 )。 

还 存在 第 三 种 方式 : 在 静态 编辑 阶段 可 以 在 可 执行 文件 中 插入 一 个 在 运行 时 搜索 共 宇 库 
的 目录 列表 。 这 种 方式 对 于 库 位 于 一 个 固定 的 但 不 属于 动态 链接 器 搜索 的 标准 位 置 的 位 置 中 
时 是 非常 有 用 的 。 要 实现 这 种 方式 需要 在 创建 可 执行 文件 时 使 用 -rpath 链接 器 选项 。 

$ gcc -g -Wall -Wl,-rpath,/home/mtk/pdir -o prog prog.c libdemo.so 

上 和 面 的 命令 将 字符 串 /home/mtkypdir 复制 到 了 可 执行 文件 prog 的 运行 时 库 路 径 (rpath ) 列 
表 中 ， 因 此 当 运 行 这 个 程序 时 ， 动 态 链接 堪 在 解析 共享 库 引 用 时 还 会 搜索 这 个 目录 。 

如 朱 有 必要 的 话 ， 可 以 多 次 指定 -rpath 选项 ; 所 有 这 些 列 出 的 目录 会 被 连接 成 一 个 放 到 
可 执行 文件 中 的 有 序 rpath 列表 。 或 者 ， 在 一 个 rpath 选项 中 可 以 指定 多 个 由 分 号 分 割 开 来 
的 目录 列表 。 在 运行 时 ， 动 态 链接 堪 会 按照 在 -rpath 选项 中 指定 的 目录 顺序 来 搜索 目录 。 




































































-rpath 选项 的 一 个 人 蔡 代 方案 是 LD_RUN_PATH 环境 变量 。 可 以 将 一 个 由 分 写 分 隅 开 来 的 
目录 的 子 符 串 赋 给 该 变量 ， 当 构建 可 执行 文件 时 可 以 将 这 个 变量 作为 rpath 列表 来 使 用 。 只 有 
当 构 建 可 执行 文件 时 不 指定 -rpath 选项 时 才 会 使 用 LD_RUN_PATH 变量 。 


在 构建 共享 库 时 使 用 -rpath 链接 器 选项 

在 构建 共享 库 时 -rpath 选项 也 是 有 用 的 。 假 设 有 一 个 依赖 于 另 一 个 共享 库 libx2.so 的 共享 
JÆ libx1.so， 如 图 41-4 所 示 。 另 外 再 假设 这 些 库 分 别 位 于 非 标准 目录 dl 和 d2 中 。 下 面 介绍 构 
建 这 些 库 以 及 使 用 它们 的 程序 所 需 完 成 的 步骤 。 


ro di/libxi.so d2/libx2.so 
prog 
(prog.c) (modx1.c) (modx2.c) 


main() { x1() 1 x2() 1 
x1(); x2(); 
} } } 


图 41-4: 依赖 于 另 一 个 共享 库 的 共享 库 
首先 在 pdir/d2 目录 中 构建 libx2.so。( 为 了 使 这 个 例子 简单 一 点 ， 这 里 省 略 了 库 的 版 本 号 


和 soname. ) 














$ cd /home/mtk/pdir/d2 
$ gcc -g -c -fPIC -Wall modx2.c 
$ gcc -g -shared -o libx2.so modx2.0 


EAE pdir/dl 目录 中 构建 lbxl.so。 由 于 libxl.so 依赖 于 libx2.so, JE H. libx2.so 位 于 一 个 
非 标准 目录 中 ， 因 此 在 指定 libx2.so 的 运行 时 位 置 时 需要 使 用 -rpath 链接 器 选项 。 这 个 选项 的 
取 值 与 库 的 链接 时 位 置 ( 由 -L 选项 指定 ) 可 以 不 同 ， 尽 管 在 这 个 例子 中 这 两 个 位 置 是 相同 的 。 

$ cd /home/mtk/pdir/d1 

$ gcc -g -c -Wall -fPIC modxi.c 


$ gcc -g -shared -o libxi.so modxi.o -Wl,-rpath,/home/mtk/pdir/d2 \ 
-L/home/mtk/pdir/d2 -1x2 
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最 后 在 pdir 目录 中 构建 主 程序 。 由 于 主 程序 使 用 了 libx1.so 并 且 这 个 库 位 于 一 个 非 标准 有 目 
录 中 ， 因 此 还 需要 使 用 -rpath HERA REM 

$ cd /home/mtk/pdir 

$ gcc -g -Wall -o prog prog.c -Wl,-rpath,/home/mtk/pdir/d1i V 

-L/home/mtk/pdir/di -1x1 

注意 在 链接 主 程序 时 无 需 指定 libx2.s0。 由 于 链接 右 能 够 分 析 libx1.so 中 的 rpath 列表 ， 
此 它 能 够 找到 libx2.s0， 同 时 在 阁 态 链接 阶段 解析 出 所 有 的 符号 。 

使 用 下 面 的 命令 能 够 检查 prog 和 libx1.so 以 便 查看 它们 的 rpath 列表 的 内 容 。 

$ objdump -p prog | grep PATH 





RPATH /home/mtk/pdir/d1 libx1.so will be sought here at run time 
$ objdump -p di/libxi.so | grep PATH 
RPATH / home/mtk/pdir/d2 libx2.so will be sought here at run time 


还 可 以 通过 查找 readelf --dynamic《〈 或 等 价 的 readelf -d) 命令 的 输出 来 全 看 rpath 列表 。 





使 用 Idd 命令 能 够 列 出 prog 的 完整 的 动态 依赖 列表 。 


$ ldd prog 
libx1.so => /home/mtk/pdir/di/libx1.so (0x40017000) 
libc.so.6 -» /lib/tls/libc.so.6 (0x40024000) 
libx2.so -» /home/mtk/pdir/d2/libx2.so (0x4014c000) 
/lib/ld-linux.so.2 -» /lib/ld-linux.so.2 (0x40000000) 


ELF DT RPATH 和 DT. RUNPATH & H 


在 第 一 版 ELF 规范 中 ,只 有 一 种 rpath PR BE SEASON EIT AAT OCT BRE SEE, 它 对 应 
T ELF 文件 中 的 DT RPATH 标签 。 后 续 的 ELF 规范 舍弃 了 DT_RPATH， 同 时 引入 了 一 种 狐 
标签 DT_RUNPATH 来 表示 rpath 列表 。 这 两 种 rpath 列表 之 间 的 差别 在 于 当 动 态 链接 需 在 运 
行 时 搜索 共 至 库 时 它们 相对 于 LD_LIBRARY_PATH 环境 和 变量 的 优先 级 : DT. RPATH 的 优先 级 
更 高 ， 而 DT RUNPATH 的 优先 级 则 更 低 (参见 41.11 节 )。 

在 默认 情况 下 ， 链 接 需 会 将 rpath 列表 创建 为 DT_RPATH 标签 。 为 了 让 链接 器 将 rpath 列表 创 
建 为 DT_RUNPATH 条 目 必须 要 额外 使 用 - -enable-new-dtags( 月 用 新 动 态 标签 ) 链 接 器 选项 。 如 末 使 
用 这 个 选项 重建 程序 并 且 使 用 objdump 查看 获得 的 可 执行 文件 ， 那 么 将 会 看 到 下 和 面 这 样 的 输出 。 

$ gcc -g -Wall -o prog prog.c -Wl,--enable-new-dtags \ 

-Wl, -rpath, /home/mtk/pdir/di -L/home/mtk/pdir/d1 -1x1 
$ objdump -p prog | grep PATH 
RPATH /home/mtk/pdir/d1 
RUNPATH /home/mtk/pdir/d1 

从 上 面 可 以 看 出 ， 可 执行 文件 包含 了 DT_RPATH 和 DT RUNPATH 标签 。 链 接 器 采用 这 
种 方式 复写 了 rpath 列表 是 为 了 让 不 理解 DT RUNPATH 标签 的 老式 动态 链接 右 能 够 正常 工 
作 。(glibc 2.2 增加 了 对 DT RUNPATH 的 文 持 )。 理 解 DT RUNPATH 标签 的 链接 器 会 忽略 
DT RPATH 标签 (参见 41.11 $). 


















































在 rpath 中 使 用 $ORIGIN 

假设 需要 发 布 一 个 应 用 程序 ， 这 个 应 用 程序 使 用 了 自身 的 共享 库 ， 但 同时 不 希望 强制 要 
求 用 户 将 这 些 库 安 装 在 其 中 一 个 标准 目录 中 ， 相 反 ， 需 要 允许 用 户 将 应 用 程序 解压 到 任意 站 
目录 中 ， 然 后 能 够 立即 运行 这 个 应 用 程序 。 这 里 存在 的 问题 是 应 用 程序 无 法 确定 存放 共享 库 
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的 位 置 ， 除 非 要 求 用 户 设置 LD_LIBRARY_PATH 或 者 要 求 用 户 运 行 某 种 能 够 标识 出 所 需 的 目 
录 的 安装 脚本 ， 但 这 两 种 方法 都 不 是 令 人 满意 的 方法 。 

为 解决 这 个 问题 ， 在 构建 链接 器 的 时 候 增 加 了 对 rpath 规范 中 特殊 字符 串 $ORIGIN“〔〈 或 等 
价 的 ${ORIGIN}) 的 文 持 。 动 态 链 接 器 将 这 个 字符 串 解 释 成 “包含 应 用 程序 的 目录 ” 这 意味 
看 可 以 使 用 下 面 的 命令 来 构建 应 用 程序 。 

$ gcc -Wl,-rpath, '$ORIGIN'/lib ... 

上 面 的 命令 假设 在 运行 时 应 用 程序 的 共享 库 位 于 包含 应 用 程序 的 可 执行 文件 的 目录 的 子 
目录 lib 中。 这 样 束 能 问 用 户 提 供 一 个 简单 的 包含 应 用 程序 及 相关 的 库 的 安装 包 ， 同 时 允许 用 
户 将 这 个 包 安 装 在 任意 位 置 并 运行 这 个 应 用 程序 了 〔〈 即 所 谓 的 “turn-key 应 用 程序 ”)。 


41.11 在 运行 时 找 出 共 字 库 


在 解析 库 依 赖 时 ， 动 态 链接 器 首先 会 检查 各 个 依赖 字符 串 以 确定 它 是 否 包 含 和 斜 线 (/)， 

为 在 链接 可 执行 文件 时 如 果 指 定 了 一 个 显 式 的 库 路 径 名 的 话 就 会 发 生 这 种 情况 。 如 果 找 到 了 

一 个 和 斜 线 ， 那 么 依赖 字符 串 就 会 被 解释 成 一 个 路 径 名 (绝对 路 径 名 或 相对 路 径 名 )， 并 且 会 使 

用 该 路 径 名 加 载 库 。 否 则 动态 链接 器 会 使 用 下 和 面 的 规则 来 搜索 共享 库 。 

1. 如 果 可 执行 文件 的 DT RPATH 运行 时 库 路 径 列 表 (rpath〉 中 包含 目录 并 有 是 不 包含 
DT_RUNPATH 列表 ， 那 么 就 搜索 这 些 目录 (按照 链接 程序 时 指定 的 目录 顺序 )。 

2. WREX T LD_LIBRARY_PATH 环境 变量 ， 那 么 就 会 轮流 搜索 该 变量 值 中 以 冒号 分 隔 的 
各 个 目录 。 如 果 可 执行 文件 是 一 个 setuserID 或 set-group-ID 程序 ， 那 么 束 会 忽略 
LD_LIBRARY_PATH 变量 。 这 项 安全 措施 是 为 了 防止 用 户 欺骗 动态 链接 器 让 其 加 载 一 个 
与 可 执行 文件 所 需 的 库 的 名 称 一 样 的 私有 库 。 

3. 如果 可 执行 文件 DT_RUNPATH 运行 时 库 路 径 列 表 中 包含 目录 ， 那 么 就 会 搜索 这 些 目录 
(按照 链接 程序 时 指定 的 目录 顺序 )。 

4. 检查 /etc/ld.so.cache 文件 以 确认 它 是 否 包 含 了 与 库 相 关 的 条 目 。 

5. 搜索 /lib 和 /usr/lib 目录 (按照 这 个 顺序 )。 




































































41.12 ”运行 时 符号 解析 

假设 在 多 个 地 方 定 义 了 一 个 全 局 符号 〈 即 函数 或 变量 )， 如 在 一 个 可 执行 文件 和 一 个 共享 
库 中 或 在 多 个 共享 库 中 。 那 么 如 何 解析 指向 这 个 符号 的 引用 呢 ? 

假设 现在 有 一 个 主 程序 和 一 个 共享 库 ， 它 们 两 个 都 定义 了 一 个 全 局 函数 xyz0， 并 有 共享 
库 中 的 另 一 个 函数 调用 了 xyz0， 如 图 41-5 所 示 。 











prog libfoo.so 


xyz()1 xyz()1 
printf("main-xyzWM"); printf("foo-xyzWn"); 
} 


main() 1 func() { 
i func(); Xyz(); 





41-5: 解析 全 局 符号 引用 
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在 构建 共 孚 库 和 可 执行 程序 并 运行 这 个 程序 之 后 能 够 看 到 下 面 的 输出 。 


$ gcc -g -c -fPIC -Wall -c foo.c 

$ gcc -g -shared -o libfoo.so foo.o 
$ gcc -g -o prog prog.c libfoo.so 

$ LD_LIBRARY_PATH=. ./prog 

main-xyz 


从 上 面 输出 的 最 后 一 行 可 以 看 出 ， 主 程序 中 的 xyzOSE XS x A T dE PETRI 











定义 








尺 官 这 种 处 理 方式 在 一 开始 看 起 来 有 些 令 人 人 惊讶， 但 这 样 做 是 有 历史 原因 的 。 第 一 个 共 
孚 库 实 现在 设计 时 的 目标 是 使 符号 解析 的 默认 语义 与 那些 和 同一 库 等 价 的 静态 库 进 行 链接 的 
应 用 程序 中 的 符号 解析 的 语义 完成 一 致 。 这 意味 看 下 面 的 语义 是 正 硝 的 。 

。 主 程序 中 全 局 符号 的 定义 和 履 兰 库 中 相应 的 定义 。 

e 如 采 一 个 全 局 符号 在 多 个 库 中 进行 了 定义 ， 那 么 对 该 符号 的 引用 会 被 绑 定 到 在 扫描 库 
时 找到 的 第 一 个 定义 ， 其 中 扫描 顺序 是 按照 这 些 库 在 静态 链接 命令 行 中 列 出 时 从 左 至 
右 的 顺序 。 

虽然 这 些 语义 使 得 从 静态 库 到 共 衬 库 的 转变 变 得 相对 简单 了 ， 但 这 种 做 法 会 导致 一 些 问 

题 。 其 中 最 大 的 问题 是 这 些 语义 在 使 用 共享 库 实 现 一 个 目 包 含 的 子 系统 时 会 与 共享 库 模 型 产 
生 政 盾 。 在 默认 情况 下 ， 共 享 库 无 法 确保 一 个 指 回 其 自身 的 某 个 全 局 符号 的 引用 会 真正 被 绑 
定 到 该 符号 在 库 中 的 定义 上 ， 从 而 导致 当 该 共享 库 被 集成 到 一 个 更 大 的 系统 中 时 共享 库 的 属 
性 可 能 会 发 生 改变 。 这 会 导致 应 用 程序 出 现 令 人 意料 之 外 的 行为 ， 同 时 也 使 得 分 治 调试 的 执 
行 变 得 更 加 困难 〈 即 坚 试 使 用 更 少 或 不 同 的 共 圣 库 来 重 现 问题 )。 

在 上 和 面 的 例子 中 ， 如 果 想 要 确保 在 共 孚 库 中 对 xyz0 的 调用 确实 调用 了 库 中 定义 的 相应 画 
那么 在 构建 共 圣 库 的 时 候 就 需要 使 用 -Bsymbolic HERAV I 

$ gcc -g -c -fPIC -Wall -c foo.c 

$ gcc -g -shared -Wl,-Bsymbolic -o libfoo.so foo.o 

$ gcc -g -o prog prog.c libfoo.so 

$ LD LIBRARY PATH-. ./prog 

foo-xyz 

-Bsymbolic 链接 需 选 项 指定 了 共 衬 库 中 对 全 局 符号 的 引用 应 该 优先 被 绑 定 到 库 中 的 相应 
定义 上 《如 宋 存 在 的 话 )。( 注 意 不 管 是 否 使 用 了 这 个 选项 ， 在 主 程序 中 调用 xyzO 总 是 会 调用 
主 程序 中 定义 的 xyz0。) 


41.13 ”使 用 静态 库 取 代 共 皇 库 


虽然 在 大 多 数 情 况 下 都 应 该 使 用 共享 库 ， 但 在 茶 些 场景 中 静态 库 则 更 加 适合 。 特 别 地 ， 毅 
态 链 接 的 应 用 程序 包含 了 它 在 运行 时 所 需 的 全 局 代码 这 一 事实 是 非常 有 利 的 。 如 当 用 户 不 希望 
或 者 无 法 在 运行 程序 的 系统 上 安装 共享 库 或 者 程序 在 另 一 个 无 法 使 用 共享 库 的 环境 中 运行 时 
《如 可 能 是 一 个 chroot 监狱 〈jail))， 静 态 链 接 残 派 上 用 场 了 。 此 外 ， 即 使 是 一 个 莱 容 的 共享 库 
升级 也 可 能 会 在 无 意 中 引 入 一 个 Bug， 从 而 导致 应 用 程序 无 法 正常 工作 。 通 过 静态 链接 应 用 程 
友 束 能 确保 系统 上 共享 库 的 变动 不 会 影响 到 它 并 且 它 已 经 拥有 了 运行 所 需 的 全 局 代码 《付出 的 
代价 就 是 程序 更 大 了 ， 从 而 会 需要 更 多 的 人 磁盘 空间 和 内 存 )。 

在 默认 情况 下 ， 当 链接 器 能 够 选择 名 称 一 样 的 共 孚 库 和 静态 库 时 《〈 如 在 链接 时 使 用 
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-Lsomedir -ldemo 并 日 libdemo.so Jl libdemo.a 都 存在 ) 会 优先 使 用 共享 库 。 要 强制 使 用 库 的 
前 态 版 本 则 可 以 完成 下 列 之 一 。 
e 在 gcc 命令 行 中 指定 静态 库 的 路 径 名 〈 包 括 .a 扩 展 )。 
e 在 gcc 命令 行 中 指定 -static 选项 。 
e 使 用 -Wl,-Bstatic 和 -W1-Bdynamic gcc 选项 来 显 式 地 指定 链接 器 选择 共享 库 还 是 静态 
Æ. Æ gce 命令 行 中 可 以 使 用 -1 选项 来 混合 这 些 选 项 。 链 接 右 会 按照 选项 被 指定 时 的 
顺序 来 处 理 这 些 选 项 。 





41.14 ”总结 


目标 库 是 一 组 编译 过 的 目标 模块 的 聚合 ， 它 可 以 用 来 与 程序 进行 链接 。 与 其 他 UNIX 
现 一 样 ，Linux 提供 了 两 种 目标 库 : 一 种 是 静态 库 ， 在 早期 的 UNIX 系统 中 只 存在 这 种 库 ， 还 
有 一 种 是 更 加 现代 的 共 侍 库 。 

由 于 与 娘 态 库 相 比 ， 共 至 库存 在 很 多 优势 ， 因 此 在 当代 UNIX. 系统 上 共 圣 库 用 得 最 多 。 
共享 库 的 优势 主要 源 目 这 样 一 个 事实 ， 即 当 一 个 程序 与 库 进 行 链接 时 ， 程 序 所 需 的 目标 模块 
的 副本 不 会 被 包含 进 结果 可 执行 文件 中 。 相 反 ,〈 毅 态 ) 链接 右 将 会 在 可 执行 文件 中 添加 与 程 
序 在 运行 时 所 需 的 共享 库 相 关 的 信息 。 当 文件 被 执行 时 ， 动 态 链接 器 会 使 用 这 些 信息 来 加 载 
所 需 的 共享 库 。 在 运行 时 ， 所 有 使 用 同一 共享 库 的 程序 共享 该 库 在 内 存 中 的 单个 副本 。 由 于 
共享 库 不 会 被 复制 到 可 执行 文件 中 ， 并 且 在 运行 时 所 有 程序 都 使 用 共享 库 在 内 存 中 的 单个 副 
本 ， 因 此 共享 库 能 够 降低 系统 所 需 的 磁盘 空间 和 内 存 。 

REE soname 为 在 运行 时 接续 共 孚 库 引 用 提供 了 一 层 间 接 。 如 果 一 个 共 孚 库 拥 有 一 个 
soname， 那 么 在 由 毅 态 链接 需 产 生 的 可 执行 文件 中 将 会 记录 这 个 Soname， 而 不 是 库 的 真实 名 
称 。 根 据 共 享 库 命 名 规范 ， 其 真实 名 称 的 形式 为 libname.so.major-id.minorid， 其 soname 的 形 
式 为 libname.so.major-id。 这 种 规范 使 得 程序 能 够 目 动 使 用 共享 库 的 最 新 次 要 成 本 〈 无 需 重 新 
链接 程序 )， 同 时 也 允许 创建 库 的 新 的 不 兼容 的 主要 版 本 。 

为 了 在 运行 时 能 够 找到 共享 库 ， 动 态 链 接 咒 壮 循 了 一 组 标准 的 搜索 规则 ， 其 中 包括 搜索 
一 组 大 多 数 共 至 库 安 装 的 目录 《如 /ib 和 /usr/lib)。 


更 多 信息 

在 ar(1)、gcc(1)、1d(1)、ldconfig(8)、1d.so(8)、dlopen(3) 和 objdump(1) 手 册 以 及 1d 和 readelf 
的 info 文档 中 可 以 找到 与 静态 库 和 共 吾 库 相 关 的 各 种 信息 。[Drepper 2004 (b)] 介 绍 了 很 多 在 
Linux 上 编写 共享 库 的 细节 信息 。 在 David Wheeler 撰写 的 “Program Library HOWTO” 中 可 以 
找 出 更 多 有 用 的 信息 ， 该 书 的 在 线 版 本 位 于 PDP 网 站 http://www.tldp.org/ E> GNU 共享 库 模 
型 与 Solaris 上 的 实现 存在 很 多 相似 之 处 ， 因 此 阅读 一 下 Sun 的 “Linker and Libraries Guide”( 在 
http://docs.sun.com/ 上 可 以 找到 ) 以 获取 更 多 信息 和 例子 是 有 必要 的 。[Levine，2000] 对 静态 和 
动态 链接 器 的 操作 进行 了 介绍 。 

在 在 线 站 点 http:/www.gnu.org/software/libtool 和 [Vaughan et al.，2000] 中 可 以 找到 有 关 
GNU Libtool 的 信息 ， 它 是 一 个 用 来 癌 程 序 员 隐 藏 构建 共享 库 时 储 到 的 特定 于 实现 的 细节 的 
les 

Tools Interface Standards Zz RAJ 5 HJ “Executable and Linking Format” 文 档 提 供 了 ELF 
的 细节 ,在 http:;//refspecs.freestandards.org/elf/elf.pdf 上 能 够 找到 这 篇 文档 。[Lu, 1995] 也 提供 了 
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很 多 与 ELF 有 关 的 有 用 细 市 。 


41.15 JÆ 


41-1. 在 使 用 和 不 使 用 -static 选 项 的 情况 下 纺 详 一 个 程序 来 看 看 动态 地 与 C 库 进行 链接 的 
程序 与 静态 地 与 C 库 进 行 链接 的 程序 在 大 小 方面 的 兰 别 。 
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eB E 


共 孚 库 高 级 特性 


上 一 半 介 绍 了 共 圣 库 的 基础 知识 ， 本 革 将 介绍 共 圣 库 的 儿 个 高 级 特性 ， 如 下 所 示 : 
x 35 地 加 载 共 LIEBE: 

。 控制 共享 库 定义 的 符号 的 可 见 性 ， 

。 使 用 链接 右 脚 本 创建 版 本 化 的 从 号; 

。 使 用 初始 化 和 终止 函数 在 加 载 和 邮 载 库 时 目 动 地 执行 代码 ; 

e EEMI: 

e 使 用 LD_DEBUG 来 监控 动态 链接 左 的 操作 。 








42.1 动态 加 载 库 


当 一 个 可 执行 文件 开始 运行 之 后 ， 动 态 链接 器 会 加 载 程序 的 动态 依赖 列表 中 的 所 有 共享 
库 ， 但 有 些 时 候 延 迟 加 载 库 是 比较 有 用 的 ， 如 只 在 需要 的 时 候 再 加 载 一 个 插件 。 动 态 链接 器 
的 这 项 功能 是 通过 一 组 API 来 实现 的 。 这 组 API 通常 被 称 为 dlopen API, ‘EWA Solaris， 现 在 其 
中 大 部 分 内 容 都 在 SUSv3 中 进行 了 规定 。 

dlopen API 使 得 程序 能 够 在 运行 时 打开 一 个 共享 库 , 根据 名 字 在 库 中 搜索 一 个 函数 ， 然 后 
调用 这 个 函数 。 在 运行 时 采用 这 种 方 趟 加 载 的 共享 库 通 第 被 称 为 动态 加 载 的 库 ， 它 的 创建 方 
式 与 其 他 共享 库 的 创建 方式 完全 一 样 。 

核心 dlopen API scis (所 有 这 些 函 数 都 在 SUSv3 进行 了 规定 ) 构成 。 

e dlopen(O 函 数 打 开 一 个 共享 库 ， 返 回 一 个 供 后 续 调 用 使 用 的 句柄 。 

° Sesame die - 个 符号 〈 一 个 包含 函数 或 变量 的 字符 串 ) 并 返回 其 地 址 。 

e dlclose() KAAT H dlopenO$T2T IJ Pe» 

e dlerror0 函 数 返 回 一 个 错误 消息 字符 串 ， 在 调用 上 述 函 数 中 的 茶 个 图 数 发 生 钳 误 时 可 

以 使 用 这 个 函数 来 获取 错误 消息 。 
glibc 实现 还 包含 了 一 组 相关 的 函数 ， 其 中 一 些 将 会 在 后 面子 以 介绍 
要 在 Linux 上 使 用 dlopen API 构建 程序 必须 要 指定 -ldl 选项 以 便 与 libdl 库 链 接 起 来 。 
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42.1.1 打开 共享 库 : dlopen() 


dlopenO PR Z4 44 7 libfilename 的 共 至 库 加 载 进 调 用 进程 的 虚拟 地 址 空间 并 增加 该 库 的 打 
开 引 用 计数 。 





#include «dlfcn.h» 


void *dlopen(const char *libfilename, int flags); 








Returns library handle on success, or NULL on error 


如 果 libfilename 包含 了 一 个 斜 线 CD, 那么 dlopen0O 会 将 其 解释 成 一 个 绝对 或 相对 路 径 名 ， 
否则 动态 链接 器 会 使 用 第 41.11 节 中 介绍 的 规则 来 搜索 共享 库 。 

dlopenO 在 成 功 时 会 返回 一 个 句柄 ， 在 后 续 对 dlopen API 中 的 函数 的 调用 可 以 使 用 该 句柄 
来 引用 这 个 库 。 如 果 发 生 了 错误 〈 如 无 法 找到 库 )， 那 么 dlopen0 会 返回 NULL。 

如 果 libfilename 指定 的 共享 库 依 赖 于 其 他 共享 库 ， 那 么 dlopen0 会 自动 加 载 那些 库 。 如 果 
有 必要 的 话 ， 这 一 过 程 会 递归 进行 。 这 种 被 加 载 进来 的 库 被 称 为 这 个 库 的 依赖 树 。 

在 同一 个 库 文件 中 可 以 多 次 调用 dlopen0， 但 将 库 加 载 进 内 存 的 操作 只 会 发 生 一 次 〈 第 一 
次 调用 ), 所 有 的 调用 都 返回 同样 的 句柄 值 。 但 dlopen APT 会 为 每 个 库 句 柄 维护 一 个 引用 计数 ， 
每 次 调用 dlopen() 时 都 会 增加 引用 计数 ， 每 次 调用 dlcloseO 都 会 减 小 引用 计数 ， 只 有 当 计 数 为 
0 时 dlclose() 才 会 从 内 存 中 删除 这 个 库 。 

flags 参数 是 一 个 位 掩 码 ， 它 的 取 值 是 RTLD LAZY 和 RILD NOW 中 的 一 个 ， 这 两 个 值 
的 含义 分 别 如 下 。 


RILD LAZY 

RA SARAAT FILES ES ZI AENT E PRERE so WMR a RIT REXEI C I AND 
没有 被 执行 到 ， 那 么 永远 都 不 会 解析 该 符 号 。 延 到 解析 只 适用 于 函数 引用 ， 对 变量 的 引用 会 
被 立即 解析 。 指 定 RTLD_LAZY 标记 能 够 提供 与 在 加 载 可 执行 文件 的 动态 依赖 列表 中 的 共生 
库 时 动态 链接 占 的 第 规 操作 对 应 的 行为 。 















































RTLD_NOW 

在 dlopen0 结 束 之 前 立即 加 载 库 中 所 有 的 未 定义 人 特写， 不 党 是 奋 需 要 用 到 这 些 从 写 ， 这 种 做 法 
的 结 采 是 打开 库 变 得 更 慢 了 ， 但 能 够 立即 检测 到 任何 淤 在 的 未 定义 函数 人 符 扎 错误， 而 不 是 在 后 面 菏 
个 时 刻 才 检测 到 这 种 错误 。 在 调试 应 用 程序 时 这 种 做 法 是 比较 有 用 的 ， 因 为 它 能 够 确保 应 用 程序 在 
位 到 未 解析 的 符号 时 立即 发 生 错 误 ， 而 不 是 在 执行 了 很 长 一 段 时 间 之 后 才 发 生 错 误 。 





















































通过 将 环境 变量 LD_BIND_NOW 设置 为 一 个 非 宇 字符 串 能 够 强制 动态 链接 器 在 加 载 可 执 
行文 件 的 动态 依赖 列表 中 的 共享 库 时 立即 解析 所 有 符号 《〈 即 类 似 于 RILD NOW)。 这 个 环 
境 变 量 在 glibc 2.1.1 以 及 后 续 的 版 本 中 是 有 效 的 。 设 置 LD_BIND_NOW 3% m dlopen() 
RTLD LAZY 标记 的 效果 。 








flags 也 可 以 取 其 他 的 值 ，SUSv3 规定 了 下 列 几 种 标记 。 


RTLD_GLOBAL 
这 个 库 及 其 依赖 树 中 的 符号 在 解析 由 这 个 进程 加 载 的 其 他 库 中 的 引用 和 通过 disymQO frd 
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时 可 用 。 


RTLD_LOCAL 

与 RILD_GLOBAL 相反 ， 如 琳 不 指定 任何 和 常量 ， 那 么 就 取 这 个 默认 值 。 它 规定 在 解析 后 
续 加 载 的 库 中 的 引用 时 这 个 库 及 其 依赖 树 中 的 符号 不 可 用 。 

在 不 指定 RTLD GLOBAL 或 RTLD LOCAL 时 ，SUSv3 并 没有 规定 一 个 默认 值 。 大 多 数 
UNIX 实现 与 Linux 一 样 ， 将 RTLD LOCAL 作为 默认 值 ， 但 一 些 实现 将 RTLD GLOBAL 作为 
SAWE o 

Linux 还 文 持 几 个 并 没有 在 SUSv3 中 进行 规定 的 标记 ， 如 下 所 示 。 

RTLD_NODELETE ( 自 glibc 2.2 起 ) 

在 dlcloseO 调 用 中 不 要 番 载 库 ， 即 使 其 引用 计数 已 经 变 成 0 了 。 这 意味 着 在 后 面 重新 通过 
dlopen() 加 载 库 时 不 会 重 狐 初始 化 库 中 的 静态 变量 。( 对 于 由 动态 链接 器 目 动 加 载 的 库 来 讲 , 在 
创建 库 时 通过 指定 gcc ~WL-znodelete 选项 能 够 取得 类 似 的 效果 。) 
































RTLD NOLOAD ( 自 glibc 2.2 起 ) 

不 加 载 库 。 这 个 标记 有 两 个 目的 。 第 一 ， 可 以 使 用 这 个 标记 来 检查 某 个 特定 的 库 是 否 已 
经 被 加 载 到 了 进程 的 地 址 空间 中 。 如 果 已 经 加 载 了 ， 那 么 dlopenO0 会 返回 库 的 句柄 ， 如 果 没 有 
加 载 ， 那 么 dlopen0 会 返回 NULL。 第 二 ， 可 以 使 用 这 个 标记 来 “提升 ”已 加 载 的 库 的 标记 。 
如 在 对 之 六 使 用 RTLD LOCAL 打开 的 库 调 用 dlopen0 时 可 以 在 flags 参数 中 指定 
RTLD NOLOAD|RTLD GLOBAL. 








RTLD DEEPBIND (BI glibc 2.3.4) 

在 解析 这 个 库 中 的 符号 引用 时 先 搜索 库 中 的 定义 ， 然 后 再 搜索 已 加 载 的 库 中 的 定义 。 这 个 标 
记 使 得 一 个 库 能 够 实现 自 包 含 ， 即 优先 使 用 自己 的 符号 定义 ， 而 不 是 在 已 加 载 的 其 他 库 中 定义 的 
同名 全 局 符 写 。( 这 与 在 41.12 市 中 介绍 的 -Bsymbolic 链接 需 选 项 具有 类 似 的 效 末 。) 

RTLD NODELETE 和 RTLD NOLOAD 标记 在 Solaris dlopen API 中 也 进行 了 实现 ， 但 提 
供 这 个 两 个 标记 的 UNIX 实现 很 少 。RTLD_DEEPBIND 标记 是 Linux 特有 的 。 

当 将 libfilename 指定 为 NULL 时 dlopen0 会 返回 主 程序 的 句柄 。(SUSv3 将 这 种 句柄 称 为 
“全 局 符号 对 象 ” 的 句柄 。) 在 后 续 对 dlsymO 的 调用 中 使 用 这 个 句柄 会 导致 首先 在 主 程序 中 搜 
索 符 号 ， 然 后 在 程序 启动 时 加 载 的 共享 库 中 进行 搜索 ， 最 后 在 所 有 使 用 了 RILD_ GLOBAL 标 
记 的 动态 加 载 的 库 中 进行 搜索 。 


42.1.2 ”错误 诊断 ，dlerror() 


如 朵 在 dlopen0 〇 调用 或 dlopen API 的 其 他 函数 调用 中 得 到 了 一 个 错误 ， 那 么 可 以 使 用 
dlerror() 来 获取 一 个 指 问 表明 蚀 误 原因 的 字符 串 的 指针 。 


#include «dlfcn.h» 
























































const char *dlerror(void); 


Returns pointer to error-diagnostic string, or NULL if 
no error has occurred since previous call to dlerror() 


如 打从 上 一 次 调用 dlerror0 8JBUE TH RER, MWA dlerrorü eS ZIBGR[é] NULL, AE 
下 一 节 中 际会 看 到 这 种 处 理 方式 市 来 的 好 处 了 。 
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42.1.3 ”获取 符号 的 地 址 : disym() 


dlsym0 函 数 在 handle 指向 的 库 以 及 该 库 的 依赖 树 中 的 库 中 搜索 名 为 symbol 的 符号 (函数 
或 变量 )。 








#include «dlfcn.h» 


void *dlsym(void *handle, char *symbol); 


Returns address of symbol, or NULL if symbol is not found 








如 果 找 到 了 symbol, WWA dlsymgO 会 返回 其 地 址 ， 和 否则 就 返回 NULL. handle 参数 通常 是 
上 一 个 dlopenO 调 用 返回 的 库 句 柄 ， 或 者 它 也 可 以 是 下 面 介 绍 的 其 中 一 个 所 谓 的 伪 句 柄 。 


dlvsym(handle, symbol, version) 与 dlsym() 类 似 , 但 它 能 够 用 来 在 符 写 版 本 化 的 库 中 搜索 
版 本 与 在 字符 串 version 中 指定 的 版 本 匹配 的 符号 定义 ,( 第 42.3.2 市 将 会 介绍 符 写 版 本 化 。) 
要 从 <dlfen.h> 中 获取 这 个 函数 的 声明 必须 要 定义 _GNU_SOURCE 特性 测试 宏 。 











dlsym0 返 回 的 符号 值 可 能 会 是 NULL， 这 一 点 与 “ 找 不 到 符号 ”的 返回 是 无 法 区 分 的 。 为 了 弄 
清楚 具体 是 哪 种 情况 丈 必 须要 先 调 用 dlerror0 确保 之 前 的 错误 子 从 串 已 经 被 消除 了 )， 如 果 在 调用 
dlsym0 〇 之 后 dlerror0 返 回 了 一 个 非 NULL 值 ， 那 么 就 可 以 得 出 发 生 错误 的 结论 本 。 

如 朱 symbol 是 一 个 变量 的 名 称 ， 那 么 可 以 将 dlsym0 的 返回 值 赋 给 一 个 合适 的 指针 类 型 ， 
并 通过 反 引 用 该 指针 来 得 到 变量 的 值 。 


int *ip; 




















ip = (int *) dlsym(symbol, "myvar"); 
if (ip !- NULL) 
printf("Value is %d\n", *ip); 
如 末 symbol 是 一 个 函数 的 名 称 ， 那 么 可 以 使 用 dlsymgO 返 回 的 指针 来 调用 该 图 数 。 可 以 将 
dlsym0 返 回 的 值 存储 到 一 个 类 型 合适 的 指针 中 ， 如 下 所 示 。 


int (*funcp)(int); /* Pointer to a function taking an integer 
argument and returning an integer */ 


但 不 能 简单 地 将 dlsymgO 的 结果 赋 给 此 类 指针 ， 如 下 面 的 例子 所 示 。 

funcp = dlsym(handle, symbol); 

其 原因 是 C99 标准 禁止 函数 指针 和 void * 之 间 的 赋值 操作 。 这 个 问题 的 解决 方案 是 使 用 
下 面 这 样 的 《稍微 有 些 案 拙 ) 类 型 转换 。 

*(void **) (&funcp) = dlsym(handle, symbol); 

通过 dlsym0() 得 到 了 指 问 函数 的 指针 之 后 束 能 够 通过 常规 的 C 语 法 有 反 引 用 函数 指针 来 调用 
这 个 函数 了 。 

res = (*funcp)(somearg); 

读者 在 将 dlsym0 的 返回 值 进行 赋值 时 可 能 会 使 用 下 面 这 段 看 起 来 与 上 述 代码 等 价 的 代码 
来 取代 上 面 的 *(void **) 语 法 。 

(void *) funcp = dlsym(handle, symbol); 

但 gcc -pedantic Æ E2 F- rix Ee zz H “ANSI C forbids the use of cast expressions 
as lvalues.” 的 警告 信息 。 而 使 用 *(void **)TE e Sb zz HUBER ERES BI ZEE IR AER 
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名 中 的 左 值 指 问 的 地 址 赋值 。 

在 很 多 UNIX 实现 中 可 以 使 用 下 和 面 这 样 的 类 型 转换 类 消除 C 编 详 器 的 党 告 。 

funcp = (int (*) (int)) dlsym(handle, symbol); 

但 SUSv3 Technical Corrigendum Number 1 中 dlsymO 的 规范 指出 C99 标准 仍然 要 求 编 译 器 
对 此 关 转 换 生 成 警告 信息 并 列举 了 上 面 的 *(void **) 语 法 。 

















SUSv3 TC1 指出 由 于 需要 用 到 *(void **) 语 法 ， 因 此 标准 的 后 续 版 本 可 能 会 定义 一 个 与 
dlsym(O 类 似 的 API 来 处 理 数据 和 函数 指针 。 但 SUSv4 在 这 一 点 上 没有 发 生 任何 变化 。 





在 dlsym() 中 使 用 库 伪 句柄 
dlsymO 函 数 中 的 handle 参数 除了 能 够 取 由 dlopen0 调 用 返回 的 句柄 值 之 外 ， 还 能 够 取 下 
列 伪 人 句柄 值 。 


RTLD_DEFAULT 

从 主 程序 中 开始 得 找 symbol， 接 看 按 序 在 所 有 已 加 载 的 共享 库 中 人 查找， 包括 那些 通过 使 
用 了 RTLD_GLOBAL 标记 的 dlopenO 调 用 动态 加 载 的 库 ， 这 个 标记 对 应 于 动态 链接 器 所 采用 
的 默认 搜索 模型 。 
RTLD_NEXT 

在 调用 dlsymgO 之 后 加 载 的 共享 库 中 搜索 symbol， 这 个 标记 适用 于 需要 创建 与 在 其 他 地 
方 定义 的 函数 同名 的 包装 函数 的 情况 。 如 ， 在 主 程序 中 可 能 会 定义 一 个 malloc) CE REE 
成 内 存 分 配 的 夭 记 工作 )， 而 这 个 函数 在 调用 实际 的 malloc0 之 前 自 先 会 通过 调用 func = 
dlsym(RTLD NEXT, “malloc”) 来 获取 其 地 址 。 

SUSv3 并 没有 要 求实 现 上 述 列 出 的 伪 句 柄 《〈 甚 全 没有 保留 这 两 个 值 以 供 后 续 之 用 )， 并 且 
所 有 UNIX 实现 也 没有 定义 上 述 伪 句 顶 。 为 了 从 <dlfen.h> 中 获取 这 些 常量 的 定义 必须 要 定义 
_GNU SOURCE 特性 测试 宏 。 






































示例 程序 


程序 清单 42-1 演示 了 dlopen API 的 使 用 。 这 个 程序 接收 两 个 命令 行 参 数 ， 需 加 载 的 共享 
库 名 称 和 需 执 行 的 库 中 函数 的 名 称 。 下 面 的 例子 演示 了 这 个 程序 的 使 用 。 

$ ./dynload ./libdemo.so.1 x1 

Called mod1-x1 

$ LD LIBRARY PATH-. ./dynload libdemo.so.1 x1 

Called mod1-x1 

TE EX ig H2 —" fg TH. dopen REKE Y ARR, KARERE Ju — 
个 相对 路 径 名 (表示 一 个 位 于 当前 工作 目录 中 的 库 )。 在 第 二 个 命令 中 指定 了 库 搜索 路 径 
LD_LIBRARY_PATH， 动 态 链 接 右 会 根据 正常 的 规则 来 解释 这 个 搜索 路 径 〈 同 样 表 示 在 当前 
工作 目录 中 和 查找 库 )。 


程序 清单 42-1: 使 用 dlopen API 




















shlibs/dynload.c 
include «dlfcn.h» 


include "tlpi hdr.h" 
int 
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main(int argc, char *argv[]) 


void *libHandle; /* Handle for shared library */ 
void (*funcp)(void); /* Pointer to function with no arguments */ 
const char *err; 


if (argc != 3 || strcemp(argv[1], "--help") == 0) 
usageErr("Xs lib-path func-nameWNn", argv[0]); 


/* Load the shared library and get a handle for later use */ 


libHandle - dlopen(argv[1], RTLD LAZY); 
if (libHandle -- NULL) 
fatal("dlopen: %s", dlerror()); 


/* Search library for symbol named in argv[2] */ 


(void) dlerror(); /* Clear dlerror() */ 
*(void **) (&funcp) = dlsym(libHandle, argv[2]); 
err - dlerror(); 
if (err !- NULL) 
fatal("dlsym: Xs", err); 


/* If the address returned by dlsym() is non-NULL, try calling it 
as a function that takes no arguments */ 


if (funcp == NULL) 


printf("Xs is NULLWn", argv[2]); 
else 


(*funcp)(); 


dlclose(libHandle); /* Close the library */ 


exit(EXIT SUCCESS); 


shlibs/dynload.c 


42.1.4 关闭 共享 库 ， diclose() 
dicloseO PR Zi X B] — ^h PE 





#include «dlfcn.h» 


int dlclose(void *Aandle); 


Returns 0 on success, or - 1 on error 








dlclose() 函 数 会 减 小 handle 所 引用 的 库 的 打开 引用 的 系统 计数 。 如 条 这 个 引用 计数 变 
成 了 0 并且 其 他 库 已 经 不 需要 用 到 该 库 中 的 从 号 了 ， 那 么 束 会 凶 载 这 个 库 。 系 统 也 会 在 这 
个 库 的 依赖 树 中 的 库 执行 (化 归 地 〉 同样 的 过 程 。 当 进程 终止 时 会 隐 式 地 对 所 有 库 执行 
dlclose()。 














从 glibc 2.2.3 开始 ， 共 享 库 中 的 函数 可 以 使 用 atexit() (或 on_exitO ) 来 设置 一 个 在 库 被 
印 载 时 自动 调用 的 函数 。 
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42.1.5 —— HÀ dladdr() 
dladdr() 返 回 一 个 包含 地 址 addr (通常 通过 前 面 的 dlsymO 调 用 获得 ) 的 相关 信息 的 结构 。 


#define GNU SOURCE 
#include «dlfcn.h» 








int dladdr(const void *addr, Dl info *info); 








Returns nonzero value if addr was found in a shared library, otherwise 0 


info 参数 旦 一 个 指 回 由 调用 者 分 配 的 结构 的 指针 ， 其 结构 形式 如 下 。 
typedef struct { 





const char *dli fname; /* Pathname of shared library 
containing 'addr' */ 

void *dli fbase; /* Base address at which shared 
library is loaded */ 

const char *dli sname; /* Name of nearest run-time symbol 
with an address «- 'addr' */ 

void *dli saddr; /* Actual value of the symbol 


returned in 'dli sname' */ 
j Dl info; 


Dl info 结构 中 的 前 两 个 学 段 指 定 了 包含 地 址 addr 的 共享 库 的 路 径 名 和 运行 时 基地 址 。 最 
后 两 个 学 段 返 回 地 址 相关 的 信息 。 假 设 addr 指 问 共 至 库 中 一 个 符号 的 确切 地 址 , 那么 dli saddr 
返回 的 值 与 传 入 的 addr 值 一 样 。 

SUSv3 并 没有 规定 dladdr0， 上 所 有 UNIX 实现 也 都 没有 提供 这 个 函数 。 


42.1.6 在 主 程序 中 访问 符号 

假设 使 用 dlopen0 动 态 加 载 了 一 个 共 孚 库 ， 然 后 使 用 dlsymO 获 取 了 共 孚 库 中 xO ZI 
Hb. BETA x0。 如 采 在 x0 中 调用 了 函数 Y0， 那 么 通 币 会 在 程序 加 载 的 其 中 一 个 共 孚 库 中 
搜索 yO- 

有 些 时候 需 要 让 xO 调 用 主 程序 中 的 y0 实 现 《类 似 于 回调 机 制 )。 为 了 达到 这 个 目的 就 必须 
要 使 主 程序 中 的 符号 〈 全 局 作用 域 ) 对 动态 链接 器 可 用 ,， 即 在 链接 程序 时 使 用 --export-dynamic 
BERAT KEIN o 

$ gcc -Wl,--export-dynamic main.c (plus further options and arguments) 


或 者 可 以 编写 下 面 这 个 等 价 的 命令 。 


$ gcc -export-dynamic main.c 


使 用 这 些 选项 中 的 一 个 就 能 够 允许 动态 加 载 的 库 访问 主 程序 中 的 全 局 符号 。 
































gcc -rdynamic 选项 和 gec Wl, -E 选项 的 含义 ， 以 及 -Wl、 一 export-dynamic 是 一 样 的 。 


42.2 ”控制 侍 号 的 可 见 性 


设计 民 好 的 共 孚 库 应 该 只 公开 那些 构成 其 声明 的 应 用 程序 二 进 制 接口 (ABI) JA CER 

数 和 变量 )， Miam 
。 如 采 共 至 库 的 设计 人 员 不 小 必 导 出 了 未 详细 说 明 的 接口 ， 那 么 使 用 这 个 库 的 应 用 程 
序 的 作者 可 能 会 选择 使 用 这 些 接 口 。 这 样 在 将 来 升级 共 译 库 时 可 能 会 之 来 阅 容 性 问 
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题 。 库 的 开发 人 员 认 为 可 以 修改 或 删除 那些 不 属于 文档 中 记录 的 ABI 中 的 接口 ， 而 
库 的 用 户 则 希望 继续 使 用 名 称 与 他 们 当前 正在 使 用 的 接口 名 称 一 样 的 接口 (同时 语 
义 保持 不 变 )。 

e 在 运行 时 符号 解析 阶段 ， 由 共享 库 导 出 的 所 有 符号 可 能 会 优先 于 其 他 共享 库 提 供 的 相 
Xx X, (AH 41.12 节 )。 

e 导出 非 必需 的 符号 会 增加 在 运行 时 需 加 载 的 动态 符号 表 的 大 小 。 

当 库 的 设计 人 员 确 保 只 导出 那些 库 的 声明 的 ABI 所 需 的 符号 就 能 使 上 述 问 题 发 生 的 可 能 

性 降 到 最 低 或 避免 上 述 问 题 的 发 生 。 下 列 搁 术 可 以 用 来 控制 符号 的 导出 。 

。 在 C 程序 中 可 以 使 用 static 关键 词 使 得 一 个 符号 私有 于 一 个 源 代码 模块 ， 从 而 使 得 它 

无 法 被 其 他 目标 文件 绑 定 。 




















除了 使 一 个 符号 私有 于 源 代码 模块 之 外 ，static 关键 词 还 能 达到 一 个 相反 的 效果 。 如 果 
个 符号 被 标记 为 static， 那 么 在 同一 源 文件 中 对 该 符号 的 所 有 引用 会 被 绑 定 到 该 符号 的 定 
X b, 其 缩 打 是 这 些 引 用 在 运行 时 不 会 被 关联 刘 基 他 蕉 洗 库 中 的 相应 定义 下 《以 4 12 T HB 
HRT). statice 关键 词 的 这 种 效 来 类 似 于 41.12 区 中 介绍 的 链接 规 选 项 ， 但 送别 在 于 


IN IE, E 


static KPE R p RC JS Sc ERR IR] RAISES e 




















。 GNU C fikar gce 提供 了 一 个 特有 的 特性 声明 ， 它 执行 与 static 关键 词类 似 有 的 任务 。 
void 
| attribute  ((visibility("hidden"))) 
func(void) { 
/* Code */ 
J 
static KEK — 1 19 ^ BJ n] RT BR e P USERS ER, mfi hidden 特性 使 得 一 个 和 从 号 


对 构成 共 至 库 的 所 有 源 代码 文件 都 可 见 ， 但 对 库 之 外 的 文件 不 可 见 。 











太太 Ed 


与 static 关键 词 一 样 ，hidden 特性 也 能 达到 一 个 相反 的 效果 ， 即 防止 在 运行 时 发 生 符 号 
插入 。 
e 版 本 脚本 (参见 42.3 节 ) 可 以 用 来 精确 控制 符号 的 可 见 性 以 及 选择 将 一 个 引用 绑 定 到 


从 号 的 哪个 版 本 。 

当 动 态 加 载 一 个 共享 库 时 (参见 42.1.1 155, dlopenOfZU& I] RTLD GLOBAL 标记 可 以 
用 来 指定 这 个 库 中 定义 的 符号 应 该 用 于 后 续 加 载 的 库 中 的 绑 定 操作 ，- —export-dynamic 
链接 器 选项 (参见 42.1.6 节 ) 可 以 用 来 使 主 程序 的 全 局 符号 对 动态 加 载 的 库 可 用 。 
更 多 有 关 符 写 可 见 性 方面 的 细 市 信息 可 以 参见 [Drepper, 2004 (b)]。 























42.3 ”链接 器 版 本 脚本 


版 本 脚本 是 一 个 包 合 链接 天 ld 执行 的 指令 的 文本 文件 。 要 使 用 版 本 脚本 必须 要 指定 
— —version-script 链接 器 选项 。 

$ gcc -Wl,--version-script,myscriptfile.map ... 

版 本 脚本 的 后 级 通常 (但 不 统一 ) 是 .map。 

下 和 面 儿 市 将 介绍 版 本 脚本 的 儿 个 用 途 。 
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42.3.1 使 用 版 本 脚本 控制 符号 的 可 见 性 

版 本 脚本 的 一 个 用 途 是 控制 那些 可 能 会 在 无 意 中 变 成 全 局 可 见 〈 即 对 与 该 库 进 行 链接 的 
应 用 程序 可 见 ) 的 符号 的 可 见 性 。 举 一 个 简单 的 例子 ， 假 设 需要 从 三 个 源 文件 vis_comm.c、 
vis fl.c 以 及 vis f£2.c 中 构建 一 个 共享 亩 ， 这 三 个 源 文 件 分别 定 义 了 函数 vis comm(. vis f10 
以 及 vis f20. vis comm Kt vis fl) 和 vis 亿 0 调 用 ， 但 不 想 被 与 该 库 进行 链接 的 应 用 
程序 直接 使 用 。 再 假设 使 用 常规 的 方式 来 构建 共享 库 。 


$ gcc -g -c -fPIC -Wall vis comm.c vis f1.c vis f2.c 
$ gcc -g -shared -o vis.so vis comm.o vis f1.0 vis f2.0 


如 果 使 用 下 面 的 readelf 命令 来 列 出 该 库 导 出 动态 符号 ， 那 么 就 会 看 到 下 面 的 输出 。 


$ readelf --syms --use-dynamic vis.so | grep vis - 
30 12: 00000790 59 FUNC GLOBAL DEFAULT 10 vis f1 
25 13: 00000700 13 FUNC GLOBAL DEFAULT 10 vis f2 
27 16: 00000770 20 FUNC GLOBAL DEFAULT 10 vis comm 


这 个 共享 库 导 出 了 三 个 符号 : vis comm). vis IOLA vis £20, (Hax Hg EB RT Ee 
只 导出 vis AOM vis 人 0O 符 号。 这 种 效果 可 以 通过 下 面 的 版 本 脚本 来 实现 。 


$ cat vis.map 
VER 1 { 
global: 
vis f1; 
vis f2; 
local: 
* 






































H 

标识 符 VER, 1 是 一 种 版 本 标签 。 在 42.3.2 节 对 符号 版 本 化 的 讨论 中 将 会 看 到 一 个 版 本 脚 
Ak nf Eee e BOIS A ARAETA EAR COO 组 织 起 来 并 且 在 括号 前 面 设 置 一 个 唯 
一 的 版 本 标签 。 如 果 使 用 版 本 脚本 只 是 为 了 控制 符 写 的 可 见 性 ， 那 么 版 本 标签 是 多 余 的 ， 但 
AE CANI] ld 仍然 需要 用 到 这 个 标签 。ld 的 现代 厂 本 允许 答 略 版 本 标签 ， 如 采 省 略 了 版 本 标签 
的 话 就 认为 版 本 节点 拥有 一 个 匿名 版 本 标签 并 且 在 这 个 脚本 中 不 能 存在 其 他 版 本 节 点 。 

在 版 本 市 点 中 ,关键 词 global 标记 出 了 以 分 号 分 隅 的 对 库 之 外 的 程序 可 见 的 符号 列表 的 起 始 位 
Ho 关键 词 local 标记 出 了 以 分 号 分 隔 的 对 库 乙 外 的 程序 隐藏 的 符号 列表 的 起 始 位 置 。 上 面 的 星 号 () 
说 明 在 符号 规范 中 可 以 使 用 掩 码 模式 , 所 使 用 的 掩 码 学 符 与 shell 文件 名 匹配 中 使 用 的 掩 码 字 符 是 一 
样 的 一 一 如 * 和 ?。 (更 多 细 下 请 参考 glob(7) 手 册 。 ) 在 本 例 中 ，local 规范 中 的 性 写 表示 除了 在 global 
段 中 显 式 声明 的 符号 之 外 的 所 有 符号 都 对 外 隐藏 。 如 果 不 这 样 声 明 , 那么 vis_comm0 仍 然 是 可 见 的 ， 
因为 在 款 认 情况 下 C 全 局 符号 对 共享 库 之 外 的 程序 是 可 见 的 。 

接 看 可 以 像 下 和 面 这 样 使 用 版 本 脚本 来 构建 共 诗 库 。 

$ gcc -g -c -fPIC -Wall vis comm.c vis f1.c vis f2.c 


$ gcc -g -shared -o vis.so vis comm.o vis f1.0 vis f2.0 \ 
-Wl,--version-script,vis.map 


再 次 使 用 readelf 可 以 看 出 vis_comm(O 不 再 对 外 可 见 了 。 


$ readelf --syms --use-dynamic vis.so | grep vis - 
25 0: 00000730 73 FUNC GLOBAL DEFAULT 11 vis f2 
29 16: 000006fO0 59 FUNC GLOBAL DEFAULT 11 vis f1 
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42.3.2 ”符号 版 本 化 


符号 版 本 化 允许 一 个 共享 库 提 供 同 一 个 函数 的 多 个 版 本 。 每 个 程序 会 使 用 它 与 共享 库 进 
IT FER) 链接 时 函数 的 当前 版 本 。 这 种 处 理 方式 的 结果 是 可 以 对 共享 库 进 行 不 兼容 的 改动 
而 无 需 提 升 库 的 主要 有 版 本 号 。 从 极端 的 角度 来 讲 ， 符 号 版 本 化 可 以 取代 传统 的 共享 库 主要 和 
次 要 版 本 化 模型 。glibc 从 2.1 开始 使 用 了 这 种 符号 版 本 化 技术 ， 因 此 glibe 2.0 以 及 之 前 的 所 
有 了 版 本 都 是 通过 单个 主要 库 版 本 Clibe.so.6) 来 文 持 的 。 

下 面 通 过 一 个 简单 的 例子 来 展示 符号 版 本 化 的 用 途 。 首 先 使 用 一 个 版 本 脚本 来 创建 共享 
库 的 第 一 个 版 本 。 


$ cat sv lib v1.c 
&include <stdio.h> 


























void xyz(void) { printf("vi xyzW"); } 
$ cat sv v1.map 
VER 1 { 
global: xyz; 
local: *; # Hide all other symbols 
$ gcc -g -c -fPIC -Wall sv lib vi.c 
$ gcc -g -shared -o libsv.so sv lib v1.0 -Wl,--version-script,sv_v1.map 





在 版 本 脚本 中 ，# 开 局 了 一 上 段 注 释 。 


(为 了 使 例子 尽量 人 徐 单 点 ， 这 里 没有 使 用 显 式 的 库 soname 和 库 主 要 版 本 号 。) 

在 这 个 阶段 ， 版 本 脚本 sv vl.map 只 用 来 控制 共享 库 的 符号 的 可 见 性 ， 即 只 导出 xyz0, 
同时 隐藏 其 他 所 有 符 写 (在 这 个 简短 的 例子 中 没有 其 他 符号 了 )。 接着 创建 一 个 程序 pl 来 使 用 
这 个 库 。 


$ cat sv prog.c 
include <stdlib.h> 











int 
main(int argc, char *argv[]) 


void xyz(void); 


xyz(); 
exit(EXIT SUCCESS); 


gcc -g -0 p1 sv prog.c libsv.so 

运行 这 个 程序 之 后 束 能 看 到 预期 的 结 

$ LD LIBRARY PATH-. ./p1 

V1 Xyz 

St SCC TAE SUPE TP xyzO B xe XC s fH. T] STU RA s 28408 DEF pl SESS H E BUS BP] RZ o 
为 完成 这 个 任务 ， 必 须要 在 库 中 定义 两 个 版 本 的 xyzO 


$ cat sv lib v2.c 
&include <stdio.h> 








| asm (".symver xyz old,xyzQVER 1"); 
| asm (".symver xyz new,xyzQQVER 2"); 
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void xyz old(void) { printf("vi xyzWn"); | 
void xyz new(void) { printf("v2 xyzWM"); } 
void pqr(void) { printf("v2 pqrin"); } 


这 里 两 个 版 本 的 xyzO E38 SE ERA. xyz_old0 和 xyz_new0O 来 实现 的 。xyz_oldO 函 数 对 应 于 
原来 的 xyz0 定 义 ，pl EFE NCURSIEBSE BE HIA PRG. xyz. newO PERDERE Y 55 PETRUS RBS ETT B 
接 的 程序 所 使 用 的 xyzO 的 定义 。 

修改 过 的 版 本 脚本 《〈 稍 后 给 出 ) 中 的 两 个 .symver 汇编 器 指令 将 这 两 个 函数 绑 定 到 了 两 个 
不 同 的 版 本 标签 上 ， 下 面 将 使 用 这 个 脚本 来 创建 共 孚 库 的 新 版 本 。 第 一 个 指令 指示 与 版 本 标 
4x VER 1 进行 链接 的 应 用 程序 《“ 即 程序 pD 所 使 用 的 xyzO 的 实现 是 xyz_old0， 与 版 本 标签 
VER 2 进行 链接 的 应 用 程序 所 使 用 的 xyz0 的 实现 是 xyz newO. 

第 二 个 .symver 指令 使 用 @@ DEA) 来 指示 当 应 用 程序 与 这 个 共 至 库 进行 硕 态 链接 时 应 
该 使 用 的 xyz0 的 默认 定义 。 一 个 符号 的 .symver 指令 中 应 该 只 有 一 个 指令 使 用 @@ 标 记 。 

下 和 面 是 与 修改 过 之 后 的 库 对 应 的 版 本 脚本 ，。 


$ cat sv v2.map 
VER 1 { 
global: xyz; 
local: *; # Hide all other symbols 























jr 


VER 2 { 
global: pqr; 

) VER 1; 

这 个 版 本 脚本 提供 了 一 个 新 版 本 标签 VER_2， 它 依赖 于 标签 VER_1。 这 种 依赖 关系 是 通 
过 下 面 这 行进 行 标 记 的 。 

} VER 1; 

hb Abs i fece H TARANEE IRI] AR S MN XC ESK UP, Linux 上 的 版 本 标签 依 
赖 的 唯一 效果 是 版 本 节点 可 以 从 它 所 依赖 的 版 本 市 点 中 继承 global 和 local 规范 。 

依赖 可 以 串联 起 来 ， 这 样 束 可 以 定义 为 一 个 依赖 于 VER_2 WJRCAS S k& VER_3 并 以 此 关 
HERE SE X HABRA TIR o 

版 本 标签 名 本 吴 是 没有 任何 意义 的 ， 它 们 相互 乙 间 的 关系 是 通过 制定 的 版 本 依赖 来 确定 
的 ， 因 此 这 里 选择 名 称 VER_1 和 VER 2 仅仅 为 了 暗示 它们 之 间 的 关系 。 为 了 便于 维护 ， 建 
议 在 版 本 标签 名 中 包含 包 名 和 一 个 版 本 号 。 如 glibc 会 使 用 名 为 GLIBC 2.0 和 GLIBC 2.1 之 
类 的 版 本 标签 名 。 

VER 2 版 本 标签 还 指定 了 将 库 中 的 pqr0 函 数 导 出 并 绑 定 到 VER_2 版 本 标签 。 如 末 没 有 
通过 这 种 方式 来 声明 pqrO, 那么 VER. 2 版 本 标签 从 VER_1 版 本 标签 继承 而 来 的 local 规范 将 
会 使 pqr0 对 外 不 可 见 。 还 需 注意 的 是 如 果 省 略 了 local 规范 ,那么 库 中 的 xyz_old0 和 xyz_new( 
从 号 也 会 人 锯 叶 出 (这 通 第 不 是 期 望 发 生 的 事情 )。 

现在 按照 以 往 方 式 构 建 库 的 新 版 本 。 

$ gcc -g -c -fPIC -Wall sv lib v2.c 


$ gcc -g -shared -o libsv.so sv lib v2.0 -Wl,--version-script,sv v2.map 


现在 创建 一 个 新 程序 p2， 它 使 用 了 xyzO 的 新 定义 ， 同 时 程序 pl 使 用 了 旧版 的 xyzO- 


















































714 Linux/UNIX 系统 编程 手册 ( 下 册 ) 
异步 社区 会 员 flyman150(2410757683 (9 qq.com) EF 尊重 版 权 


$ gcc -g -o p2 sv prog.c libsv.so 
$ LD LIBRARY PATH=. ./p2 


v2 Xyz Uses xyz( VER. 2 
$ LD LIBRARY PATH-. ./pi 
V1 XyZ Uses xyzQ@ VER 1 





可 执行 文件 的 版 本 标签 依赖 是 在 静态 链接 时 进行 记录 的 。 使 用 objdump —t 可 以 打印 出 
个 可 执行 文件 的 符号 表 ， 从 而 能 够 显示 出 两 个 程序 中 不 同 的 版 本 标签 依赖 。 
$ objdump -t p1 | grep xyz 





08048380 F *UND* 0000002e XyzQGVER 1 
$ objdump -t p2 | grep xyz 
08048320 F *UND* 0000002e XyzQQVER 2 


还 可 以 使 用 readelf -s 获取 类 似 的 信息 。 





更 多 有 关 符 写 版 本 化 的 信息 可 以 通过 使 用 命令 info ld scripts version. 以 及 访问 http:/ 
people.redhat.com/drepper/symbol-versioning 来 获得 。 


42.4 初始 化 和 终止 函数 


可 以 定义 一 个 或 多 个 在 共享 库 被 加 载 和 御 载 时 自动 执行 的 函数 ， 这 样 在 使 用 共享 库 时 就 
能 够 完成 一 些 初 始 化 和 终止 工作 了 。 不 管 库 是 目 动 被 加 载 还 是 使 用 dlopen 接口 (参见 42.1 751) 
显 式 加 载 的 ， 初 始 化 函数 和 终止 函数 都 会 被 执行 。 

初始 化 和 终止 函数 是 使 用 gee 的 constructor 和 destructor 特性 来 定义 的 。 在 库 被 加 载 时 需 
要 执行 的 所 有 函数 都 应 该 定义 成 下 面 的 形式 。 


void attribute — ((constructor)) some name load(void) 








/* Initialization code */ 


} 
RAAE, ENER PRAJE IA F o 


void attribute — ((destructor)) some name unload(void) 


/* Finalization code */ 


) 
读者 可 以 根据 需要 使 用 其 他 名 字 替 换 函 数 名 some_name load0 和 some name unload(. 











使 用 gcc 的 constructor 和 destructor 特性 还 能 创建 主 程序 的 初始 化 图 数 和 终止 函数 。 


 init()4H. fini) E £X 


用 来 完成 共 圣 库 的 初始 化 和 终止 工作 的 一 项 较 早 的 技术 是 在 库 中 创建 两 个 函数 _init0 和 
_fini()。 当 库 首 次 被 进程 加 载 时 会 执行 void _init(void) 中 的 代码 ， 当 库 被 凶 载 时 会 执行 void 
fini(void) 函 数 中 的 代码 。 

如 果 创 建 了 _init0) 和 _fini0 函 数 ， 那 么 在 构建 共享 库 时 必须 要 指定 gee -nostartfiles 选项 以 
防止 链接 器 加 入 这 些 函 数 的 默认 实现 。( 如 采 需 要 的 话 可 以 使 用 -WL-init 和 -WL-fini 链接 器 选 
项 来 指定 函数 的 名 称 。) 

有 了 gcc 的 constructor 和 destructor 特性 之 后 已 经 不 建议 使 用 _init0 和 _fini0 函 数 了 ， 因 为 
gcc 的 constructor 和 destructor 特性 允许 定义 多 个 初始 化 和 终止 函数 。 
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42.5” 预 加 载 共 享 库 


出 于 测试 的 目的 ， 有 些 时 候 可 以 有 选择 地 禾 新 一 些 正常 情况 下 会 税 动 态 链 接 器 按照 41.11 区 
中 介绍 的 规则 找 出 的 函数 《以 及 其 他 符号 )。 要 完成 这 个 任务 可 以 定义 一 个 环境 变量 
LD PRELOAD, 其 值 由 在 加 载 其 他 共 至 库 之 前 需 加 载 的 共 圣 库 名 称 构成 ,其 中 共有 至 库 名 称 之 间 用 
空格 或 冒号 分 隔 。 由 于 首先 会 加 载 这 些 共 蛙 库 , 因此 可 执行 文件 目 动 会 使 用 这 些 库 中 定义 的 函数 ， 
从 而 乾 兰 那 些 动态 链 接 器 在 其 他 情况 下 会 搜索 的 同名 函数 。 如 假设 有 一 个 程序 调用 了 函数 x10 和 
x20， 并 且 这 两 个 函数 在 libdemo 库 中 进行 了 定义 。 这 样 当 运行 这 个 程序 时 会 看 到 下 面 这 样 的 输出 。 

$ ./prog 

Called modi-x1 DEMO 

Called mod2-x2 DEMO 

(在 本 例 中 假设 共享 库 位 于 其 中 一 个 标准 目录 中 ， 因 此 无 需 使 用 LD. LIBRARY. PATH 3f 
境 变 量 。) 

接 看 二 要 禾 荔 函数 x10， 这 可 以 通过 创建 为 一 个 包含 了 不 同 的 x10 定 义 的 共 于 库 libalt.so 
来 完成 。 在 运行 这 个 程序 时 预 加 载 这 个 库 会 得 到 下 面 的 输出 。 

$ LD PRELOAD-libalt.so ./prog 


Called modi1-x1 ALT 
Called mod2-x2 DEMO 


从 上 面 的 输出 可 以 看 出 程序 调用 了 libalt.so 中 定义 的 x10， 但 libalt.so 并 没有 定义 x20; 
因此 对 x20 的 调用 仍然 会 调用 libdemo.so 中 定义 的 x20 函 数 。 

LD PRELOAD 环境 和 变量 控制 看 进程 级 别 的 预 加 载 行为 。 或 者 可 以 使 用 /etc/ld.so.preload 
文件 来 在 系统 层面 完成 同样 的 任务 ， 该 文件 列 出 了 以 空格 分 阳 的 库 列表 。(LD_PRELOAD 指 
定 的 库 将 在 加 载 /etc/ld.so.preload 483E If] FE Z Tu JH « ) 

出 于 安全 原因 ，set-user-ID 和 set-group-ID 程序 忽略 了 LD PRELOAD. 
















































































42.6 ”监控 动态 链接 器 : LD DEBUG 


有 些 时 候 知 要 监控 动态 链接 帮 的 操作 以 弄 消 楚 它 在 搜索 哪些 库 ， 这 可 以 通过 LD_DEBUG 
环境 变量 来 完成 。 通 过 将 这 个 变量 设置 为 一 个 (或 多 个 ) 标准 关键 词 可 以 从 动态 链接 兹 中 得 
到 各 种 跟踪 信息 。 

如 果 将 help IS LD_DEBUG， 那 么 动态 链接 器 会 输出 有 关 LD_DEBUG 的 帮助 信息 ， 而 
指定 的 命令 不 会 被 执行 。 

$ LD DEBUG-help date 

Valid options for the LD DEBUG environment variable are: 




















libs display library search paths 
reloc display relocation processing 
files display progress for input file 


symbols display symbol table processing 

bindings display information about symbol binding 
versions display version dependencies 

all all previous options combined 

statistics display relocation statistics 
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unused determine unused DSOs 
help display this help message and exit 








要 将 调试 信息 输出 到 一 个 文件 中 而 不 是 标准 输出 中 ， 则 可 以 使 用 LD DEBUG OUTPUT 
环境 变量 指定 一 个 文件 名 。 


当 请 求 与 跟踪 库 搜索 相关 的 信息 时 会 产生 很 多 输出 ， 下 面 的 例子 对 输出 进行 了 删 减 


$ LD DEBUG-libs date 




















10687: find library-librt.so.1 [0]; searching 
10687: search cache-/etc/l1d.so.cache 
10687: trying file-/lib/librt.so.1 
10687: find library-libc.so.6 [0]; searching 
10687: search cache-/etc/l1d.so.cache 
10687: trying file-/lib/libc.so.6 
10687: find library-libpthread.so.O0 [0]; searching 
10687: search cache-/etc/l1d.so.cache 
10687: trying file-/lib/libpthread.so.O 
10687: calling init: /lib/libpthread.so.O 
10687: calling init: /lib/libc.so.6 
10687: calling init: /lib/librt.so.1 
10687: initialize program: date 
10687: transferring control: date 

Tue Dec 28 17:26:56 CEST 2010 
10687: calling fini: date [0] 
10687: calling fini: /lib/librt.so.1 [0] 
10687: calling fini: /lib/libpthread.so.O [0] 
10687: calling fini: /lib/libc.so.6 [o0] 


每 一 行 开头 处 的 10687 是 指 所 跟踪 的 进程 的 进程 D， 当 监控 多 个 进程 (如 父 进 程 和 子 进 
程 ) 时 会 用 到 这 个 值 。 

在 默认 情况 下 ，LD_DEBUG 的 输出 会 被 写 到 标准 错误 上 ， 但 可 以 将 一 个 路 径 名 赋 给 环境 
变量 LD_DEBUG_OUTPUT 来 将 输出 重 定 同 到 其 他 地 方 。 

如 有 果 需 要 的 话 可 以 给 LD_ DEBUG 赋 多 个 选项 ， 各 个 选项 之 间 用 逗号 分 隔 ( 不 能 出 现 空 
格 )。symbols 选项 《跟踪 动 态 链接 堪 的 符 亏 解析 ) 的 输出 特别 多 。 

LD DEBUG 对 于 由 动态 链接 器 隐 陈 加 载 的 库 和 使 用 dlopen0 动 态 加 载 的 库 都 有 效 。 

出 于 安全 的 原因 ， 在 set-user-ID 和 set-setgroup-ID 程序 中 将 会 忽略 LD DEBUG CH glibc 
DISE 














42.7 At 


动态 链接 器 提供 了 dlopen API, 它 允 许 程序 在 运行 时 显 式 地 加 载 其 他 共享 库 ， AAEE SL 
能 够 实现 插件 功能 

共享 库 设计 的 一 个 重要 方面 是 控制 符号 的 可 见 性 ， 这 样 库 就 能 够 只 导出 那些 与 该 库 进 行 
链接 的 程序 需要 用 到 的 符号 了 。 本 章 介 绍 了 几 项 用 来 控制 符号 可 见 性 的 技术 。 在 这 些 技术 中 ， 
版 本 脚本 对 符号 可 见 性 控制 的 粒度 最 细 。 

本 章 还 介绍 了 如 何 使 用 版 本 脚本 来 实现 一 个 共享 库 导 出 同一 符号 的 多 个 定义 以 供与 该 库 
进行 链接 的 不 同 应 用 程序 使 用 的 模型 。( 各 个 应 用 程序 使 用 它 与 库 进 行 链 接 链 接 时 符号 的 当前 
定义 。) 这 项 技术 为 传统 的 在 共享 库 真实 名 称 中 使 用 主要 和 次 要 版 本 号 来 继续 版 本 化 管理 的 方 
式 提供 了 一 个 蔡 代 方案 。 
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TE Heg pe vp x SU] RISE MEER BC VETE JIUSURUSEUARLPEST HL 34T — BUNT 

使 用 LD PRELOAD RER E BÉ US WRR m PE. EH APALEN RE S 1 226 PEILTE cH 
坚 动态 链接 需 在 正 汕 情况 下 会 在 其 他 共享 库 中 找到 的 函数 和 符号 。 

可 以 将 各 种 值 赋 给 LD_DEBUG 环境 变量 以 监控 动态 链接 占 的 操作 。 


更 多 信息 
更 多 信息 请 参考 在 41.14 节 中 列 出 的 信息 源 。 





42.8 ”习题 


42-l. 编写 一 个 程序 来 验证 当 使 用 dlcloseO 关 闭 一 个 库 时 如 下 其 中 的 符号 还 在 被 其 他 库 使 
HI CEA RERO FE e 

42-2. 在 程序 清单 42-1 中 的 程序 (dynload.c) 中 添加 一 个 dladdrO 调 用 以 获取 与 disym(Q) 
返回 的 地 址 有 关 的 信息 。 打 印 出 返回 的 Dl info 结构 中 各 个 字段 的 值 并 验证 这 些 值 
征 售 与 预期 的 值 一 样 。 
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本 章 将 对 进程 和 线程 之 间 用 来 相互 通信 和 同步 操作 的 工具 进行 一 个 简要 的 介绍 ， 下 和 面 的 
章节 将 会 深入 介绍 这 些 工 具 的 细节 信息 。 





43.1 IPC 工具 分 类 


图 43-1 总 结 了 UNIX 系统 上 各 种 通信 和 同步 工具 ， 并 根据 功能 将 它们 分 成 了 三 类 。 

。 通信 : 这 些 工 具 关 注 进程 之 间 的 数据 交换 。 

e 同步 : 这 些 进 程 关 注 进程 和 线程 操作 之 间 的 同步 。 

e 信和 号: 尽管 信号 的 主要 作用 并 不 在 此 ， 但 在 特定 场景 下 仍然 可 以 将 它 作为 一 种 同步 技 
术 。 更 罕见 的 是 信号 还 可 以 作为 一 种 通信 技术 : 信号 编号 本 吴 是 一 种 形式 的 信息 ， 并 
有 可 以 在 实时 信号 上 绑 定 数据 (一 个 整数 或 指针 )。 第 20 章 到 第 22 章 对 信和 号 进行 了 


















































尽管 其 中 一 些 工具 关注 的 是 同步 ， 但 通用 术语 进程 间 通 信 CPC) 通常 指 代 所 有 这 些 
TA. 
从 图 43-1 中 可 以 看 出 ， 通 常 儿 个 工具 会 提供 类 似 的 IPC 功能 ， 之 所 以 会 这 样 是 出 于 下 列 
e 不 同 的 工具 在 不 同 的 UNIX 实现 上 各 自 进 行 演化 ,随后 被 移植 到 了 其 他 UNIX 系统 
E. W FIFO 首先 是 在 System V ESMAI, m CA) socket 是 首先 是 在 BSD EK 
现 的 。 
e 新 工具 被 开发 出 来 用 于 弥补 之 前 类 似 的 工具 存在 的 不 足 。 如 POSIX IPC TH OK AIA 
列 、 信 号 量 以 及 共享 内 存 ) 是 对 较 早 的 System V IPC 工具 的 改进 。 
图 43-1 中 被 分 成 一 组 的 工具 在 一 些 场景 中 会 提供 完全 不 同 的 功能 。 如 流 socket 可 以 用 来 
在 网 络 上 通信 ， 而 FIFO 则 只 能 用 来 在 同一 机 器 上 的 进程 间 进 行 通信 。 






































719 


异步 社区 会 员 flyman150(2410757683@qq.com) EF 尊重 版 权 


[zx 





流 Socket 
pore 
System V 消息 队列 
消息 POSIX 消 息 队 列 
数据 报 Socket 
System V 共享 内 存 
共享 "Uum 
内 存 POSIX 共享 内 存 - 
映射 
内 存 映射 
映射 文件 
实时 信号 
System V 信和 号 量 
命名 信号 量 
POSIX 信和 号 量 
"ju" Bi (fentl()) 
XR (ck) 
Hk (线程) 
条 件 变量 (线程 ) 


43-1: UNIX IPC 工具 分 类 


43.2 ”通信 工具 


图 43-1 中 列 出 的 各 种 通信 工具 允许 进程 间 相互 交换 数据 。( 这 些 工具 还 可 以 用 来 在 同一 个 进程 

中 不 同 线程 之 间 交 换 数 据 ， 但 很 少 知 要 这 样 做 ， 因 为 线程 之 间 可 以 通过 共计 全 局 变量 来 交换 信息 。) 
可 以 将 通信 工具 分 成 两 类 。 

。 数据 传输 工具 : 区 分 这 些 工 具 的 关键 因素 

是 写 入 和 读 取 的 概 仿 。 为 了 进行 通信 ， 一 

个 进程 将 数据 号 入 到 IPC 工具 中 ， 另 一 个 

进程 从 中 读 取 数 据 。 这 些 工具 要 求 在 用 户 

内 存 和 内 核 内 存 之 间 进 行 丙 次 数据 传输 : 

一 次 传输 是 在 号 入 的 时 候 从 用 户 内 存 到 内 


核 内 存 ， 另 一 次 传输 是 在 谈 取 的 时 候 从 内 
核 内 存 到 用 户 内 存 。( 图 43-2 展示 了 管道 ”图 43-2: 使 用 管道 在 两 个 进程 间 交 换 数据 
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在 这 一 场景 中 的 用 法 ,) 

e 共计 内 存 : 共 圣 内 存 允 许 进程 通过 将 数据 放 a 到 由 进程 间 共 至 的 一 块 内 存 中 以 完成 信息 
的 交换 。( 内核 通 过 将 每 个 进程 中 的 页 表 条 目 指 问 同 一 个 RAM 分 页 来 实现 这 一 功能 ， 
如 图 49-2 所 示 。) 一 个 进程 可 以 通过 将 数据 放 到 共 于 内 存 块 中 使 得 其 他 进程 读 取 这 些 
数据 。 由 于 通信 无 需 系 统 调 用 以 及 用 户 内 存 和 内 核 内 存 之 间 的 数据 传输 ， 因 此 共 孚 内 
存 的 速度 非常 快 。 


数据 传输 


可 以 进一步 将 数据 传输 工具 分 成 下 列 关 列 。 

e 字 节 流 : 通过 管道 、FIFO 以 及 数据 报 socket 交换 的 数据 是 一 个 无 分 隔 符 的 字 节 流 。 
每 个 谈 取 操作 可 能 会 从 IPC 工具 中 读 取 任意 数量 的 字 人 ， 不 管 写 者 写 入 的 块 的 大 小 是 
什么 。 这 个 模型 参考 了 传统 的 UNIX“ 文 件 是 一 个 字 节 序 列 ” 模 型 。 

。 消息 : 通过 System V 消息 队列 、POSIX 消息 队列 以 及 数据 报 socket 交换 的 数据 是 以 
分 阳 从 分 隐 的 消 忌 。 每 个 读 取 操作 读 取 由 写 者 写 入 的 一 整 条 消 恩 ， 无 法 只 读 取 部 分 
消息 ， 而 把 剩余 部 分 留 在 IPC 工具 中 ， 也 无 法 在 一 个 读 取 操作 中 读 取 多 条 消 忆 。 

e 伪 终 端 : 伪 终 端 是 一 种 在 特殊 情况 下 使 用 的 通信 工具 ， 在 64 革 将 会 介绍 有 关 伪 终端 
的 详细 信息 。 

数据 传输 工 共 和 共 圣 内 存 之 间 的 差别 包括 以 下 儿 个 方面 。 

。 尽管 一 个 数据 传输 工具 可 能 会 有 多 个 读 取 者 ， 但 读 取 操作 是 共有 破坏 性 的 。 谈 取 操 作 
会 消耗 数据 ， 其 他 进程 将 无 法 获取 所 清 耗 的 数据 。 

在 socket 中 可 以 使 用 MSG_PEEK 标记 来 执行 非 破 坏 性 读 取 ( 参 见 61.3 节 )。UDP(Intermet 

domain datagram) socket 允许 将 一 条 消息 广播 或 组 播 到 多 个 接收 者 处 《参见 61.12 10. 
















































































e 读 取 者 和 写 者 进程 之 间 的 同步 是 原子 的 。 如 果 一 个 读 取 者 试图 从 一 个 当前 不 包含 数据 
的 数据 传输 工具 中 读 取 数据 ， 那 么 在 默认 情况 下 读 取 操作 会 被 阻 罕 直人 到 一 些 进程 向 该 
工具 写 入 了 数据 。 

At AE 
大 多 数 现代 UNIX 系统 提供 了 三 种 形 陈 的 共 孚 内 存 : System V JE Aff. POSIX HENTA 
及 内 存 上 映射 。 在 后 和 面 介 绍 这 些 工 具 的 章节 中 将 会 描述 它们 之 间 的 送别 《特别 是 在 54.5 市 中 )。 

下 面 是 使 用 共 孚 内 存 时 的 注意 点 。 

e 尽管 共 孚 内 存 的 通信 速度 更 快 ， 但 速度 上 的 优势 是 用 来 弥补 需要 对 在 共有 这 内 和 存 上 友 生 的 
操作 进行 同步 的 不 足 的。 如 当 一 个 进程 正在 更 新 共 圣 内 存 中 的 一 个 数据 结构 时 ， 为 一 个 
进程 束 不 应 该 试图 读 取 这 个 数据 结构 。 在 共 至 内 存 中 ， 信 号 量 通 党 用 来 作为 同步 方法 。 

。 放 入 共 圣 内 存 中 的 数据 对 所 有 共 于 这 块 内 存 的 进程 可 见 。( 这 与 上 和 耐 数 据 传 输 工 上 其 中 
介绍 的 破坏 性 谈 取 语义 不 同 。) 




































































43.3 同步 工具 


通过 图 43-1 中 的 同步 工具 可 以 协调 进程 的 操作 。 通 过 同步 可 以 防止 进程 执行 诸如 同时 更 
狐 一 块 共 圣 内 存 或 同时 更 狐 文 件 的 同一 个 数据 块 之 类 的 操作 。 如 琳 没 有 同步 ， 那 么 这 种 同时 
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更 新 的 操作 可 能 会 导致 应 用 程序 产生 错误 的 结果 。 

UNIX 系统 提供 了 下 列 同 步 工 具 。 

e 信号 量 : 一 个 信和 与 量 是 一 个 由 内 核 维护 的 整数 ， 其 值 永远 不 会 小 于 0。 一 个 进程 可 以 
增加 或 减 小 一 个 信号 量 的 值 。 如 果 一 个 进程 试图 将 信号 量 的 值 减 小 到 小 于 0 MAA 
核 会 阻塞 该 操作 直人 至 信和 与 量 的 值 增长 到 允许 执行 该 操作 的 程度 。( 或 者 进程 可 以 要 求 
执行 一 个 非 阻 塞 操 作 ， 那 么 就 不 会 发 生 阻 塞 ， 内 核 会 让 该 操作 立即 返回 并 返回 一 个 标 
示 无 法 立即 执行 该 操作 的 错误 。) 信号 量 的 含义 是 由 应 用 程序 来 确定 的 。 一 个 进程 减 
小 一 个 信和 号 量 〈《 如 从 1 工 到 0) 是 为 了 预约 对 某 些 共享 资源 的 独占 访问 ， 在 完成 了 资源 
的 使 用 之 后 可 以 增加 信号 量 来 释放 共 孚 资源 以 供 其 他 进程 使 用 。 最 第 用 的 信号 量 是 二 
元 信号 量 一 一 一 个 值 只 能 是 0 或 1 工 的 信号 量 ， 但 处 理 一 类 共享 资源 拥有 多 个 实例 的 应 
用 程序 需要 使 用 最 大 值 等 于 共享 资源 数量 的 信号 量 。Linux 既 提 供 了 System V 信号 量 ， 
又 提供 了 POSIX 信号 量 ， 它 们 的 功能 是 闫 似 的 。 

e 文件 锁 : 文件 锁 是 设计 用 来 协调 操作 同一 文件 的 多 个 进程 的 动作 的 一 种 同步 方法 。 它 
也 可 以 用 来 协调 对 其 他 共享 资源 的 访问 。 文 件 锐 分 为 两 类 :; 该 共享) BONS CHR 
锁 。 任 意 进 程 都 可 以 持 有 同一 文件 《或 一 个 文件 的 茶 段 区 域 ) 的 谈 锁 ， 但 当 一 个 进程 
挂 有 了 一 个 文件 (或 文件 区 域 〉 的 写 锁 之 后 ， 其 他 进程 将 无 法 获取 该 文件 (或 文件 区 
域 ) 上 的 读 锁 和 写 锁 。Linux 通过 flockO0 和 fcnt10 系 统 调用 来 提供 文件 加 锁 工 具 s flock 
系统 调用 提供 了 一 种 人 徐 单 的 加 锁 机 制 ， 人 允许 进程 将 一 个 共享 或 互 斥 锁 加 到 整个 文件 
上 。 由 于 功能 有 限 ， 现 在 已 经 很 少 使 用 flockO 这 个 加 锁 工 具 了 。fcntO 系 统 调 用 提供 
了 记录 加 锁 ， 人 允许 进程 在 同一 文件 的 不 同 区 域 上 加 上 多 个 谈 锁 和 写 锁 。 

e 互 奈 体 和 条 件 变 量 : 这 些 同 步 工具 通常 用 于 POSIX 线程 ， 第 30 章 对 此 进行 了 介绍 。 








































































































一 些 UNIX 实现 ， 包 括 安装 了 能 提供 NPTL 线程 实现 的 glibc 的 Linux 系统 ， 人 允许 
在 进程 间 共 享 互 斥 体 和 条 件 变 量 。SUSv3 人 允许 但 并 不 要 求实 现 文 持 进 程 间 共享 的 互 斥 
体 和 条 件 变量 。 所 有 UNIX 系统 都 没有 提供 这 个 功能 ， 因 此 很 少 使 用 它们 来 进行 进程 


同步 。 














在 执行 进程 间 同 步 时 通 币 需要 根据 功能 需求 来 选择 工具 。 当 协调 对 文件 的 访问 时 文件 
记录 加 锁 通 党 是 最 住 的 选择 ,而 对 于 协调 对 其 他 共 圣 资源 的 访问 来 讲 , 信号 量 通 津 是 更 住 的 
选择 。 

通信 工具 也 可 以 用 来 进行 同步 。 如 在 44.3 节 中 使 用 了 一 个 管道 来 同步 父 进程 与 子 进程 的 
动作 。 一 上 般 来 讲 ， 所 有 数据 传输 工具 部 可 以 用 来 同步 ， 只 是 同步 操作 是 通过 在 工具 中 交换 清 
县 来 完成 的 。 





























自 内 核 2.6.22 起 ，Linux 通过 eventfd0 系 统 调 用 额外 提供 了 一 种 非 标准 的 同步 机 制 。 这 
个 系统 调用 创建 了 一 个 eventfd 对 象 ， 该 对象 拥 有 一 个 相关 的 由 内 核 维护 的 8 字 节 无 符 扎 整 
数 ， 它 返回 一 个 指 加 该 对 象 的 文件 描述 待 。 回 这 个 文件 描述 符 中 写 入 一 个 整数 将 会 把 该 整 
数 加 到 对 象 值 上 。 当 对 象 值 为 0 时 对 该 文件 描述 符 的 read0 操 作 将 会 被 阻 蹇 。 如 果 对 象 的 值 
JEF, IA read0 会 返回 该 值 并 将 对 象 值 重 置 为 0。 此 外 ,可 以 使 用 pollO、selectO 以 及 epoll 
来 测试 对 象 值 是 个 为 非 零 ， 如 果 是 非 堆 的 话 惑 表示 文件 描述 符 可 该 。 使 用 eventfd 对 象 进行 
司 步 的 应 用 程序 必须 要 首先 使 用 eventtdO 创 建 该 对 象 ， 然 后 调用 forkO 创 建 继 承 指 加 该 对 象 
的 文件 搬 述 符 的 相关 进程 。 更 多 细 广 信息 可 参考 eventfd(2) 手 册 。 
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43.4 IPC 工具 比较 


在 需要 使 用 IPC 时 会 发 现 有 很 多 选择 ， 读 者 在 一 开始 可 能 会 对 这 些 选择 感到 迷惑 。 在 后 
面 介绍 各 个 IPC 工具 的 章节 中 将 会 把 每 个 工具 与 其 他 类 似 的 工具 进行 比较 。 下 面 介 绍 在 确定 
选择 何 种 IPC 工具 时 通常 需要 考虑 的 事项 。 


IPC 对 象 标 识 和 打开 对 象 的 句柄 
要 访问 一 个 IPC 对 象 ， 进 程 必须 要 通过 某 种 方式 来 标识 出 该 对 象 ， 一 旦 将 对 象 “打开 ” 


之 后 ， 进 程 必须 要 使 用 东 种 句 顶 来 引用 该 打开 看 的 对 象 。 表 43-1 对 各 种 类 型 的 IPC 工具 的 属 
性 进行 了 忌 结 。 


R 43-1: 各 种 IPC 工具 的 标识 符 和 句柄 





























工具 类 型 用 于 识别 对 象 的 名 称 用 于 在 程序 中 引用 对 象 的 句柄 

管道 没有 名 称 文件 描述 符 
FIFO 路 径 名 文件 描述 符 
UNIX domain socket 路 径 名 文件 描述 符 
Internet domain socket IP 地 址 + 端口 号 文件 描述 符 
System V 消息 队列 System V IPC 键 System V IPC 标识 符 
System V 信号 量 System V IPC 键 System V IPC 标识 符 
System V 共享 内 存 System V IPC 键 System V IPC 标识 符 
POSIX 消息 队列 POSIX IPC 路 径 名 mqd t (消息 队列 描述 符 ) 
POSIX 命名 信号 量 POSIX IPC 路 径 名 sem t * (信和 号 量 指针 ) 
POSIX 无 名 信号 量 没有 名 称 sem t * (信号 量 指针 >) 
POSIX 共享 内 存 POSIX IPC 路 径 名 文件 描述 符 
匿名 映射 没有 名 称 JB 
内 存 映 射 文件 路 径 名 文件 描述 符 
flockO 文 件 锁 路 径 名 文件 描述 符 
fcnt10 文 件 锁 路 径 名 文件 描述 符 

功能 














各 种 PC 工具 在 功能 上 是 存在 差异 的 ， 因 此 在 硝 定 使 用 何 种 工具 时 需要 考虑 这 些 关 并。 
下 面 衣 先 对 数据 传输 工具 盒 共 孚 内 存 之 间 的 兰 异 进行 总 结 。 

。 数据 传输 工具 提供 了 读 取 和 写 入 操作 ， 传 输 的 数据 只 供 一 个 读者 进程 消耗 。 内 核 会 日 
动 处 理 读 者 和 写 者 之 间 的 流 控 以 及 同步 (这 样 当 读 者 试图 从 当前 为 空 的 工具 中 读 取 数 
据 时 将 会 阻塞 )。 在 很 多 应 用 程序 设计 中 ， 这 个 模型 都 表现 得 很 好 。 

。 其 他 应 用 程序 设计 则 更 适合 采用 共 孚 内 存 的 方式 。 一 个 进程 通过 共 亨 内 存 能 够 使 数据 
对 共 至 同一 内 存 区 域 的 所 有 进程 可 见 。 通 信 “ 操 作 ” 是 比较 简单 的 一 一 进程 可 以 像 访 
问 目 己 的 虚拟 地 址 空间 中 的 内 存 屠 样 访问 共 圣 内 存 中 的 数据 。 力 一 个 方面 ， 同 步 处 理 
(可 能 还 会 有 流 控 ) 会 增加 共 孚 内 存 设计 的 复杂 性 。 在 需要 维护 共 孚 状态 〈 如 共享 数 
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所 结构 ) 的 应 用 程序 中 ， 这 个 模型 表现 得 很 好 。 


天 于 各 种 数据 传输 工具 ， 下 面 几 点 是 值得 注意 的 。 








一 些 数 据 传输 工具 以 学 市 流 的 形式 传输 数据 (管道 、FIFO 以 及 流 socket)， 男 一 些 则 
是 面向 消息 的 (消息 队列 和 数据 报 socket)。 到 底 选 择 何 种 方法 则 需要 依赖 于 应 用 程 
序 。( 应 用 程序 也 可 以 在 一 个 字 节 流 工 具 上 应 用 面向 消息 的 模型 ， 这 可 以 通过 使 用 分 
隔 字 待 、 固 定 长 度 的 消息 ， 或 对 整 条 消息 长 度 进 行 编 但 的 消息 头 来 实现 ， 有 共 体 可 参 
d d4s 

与 其 他 数据 传输 工具 相 比 , System V 和 POSIX 消息 队列 特有 的 一 个 特性 是 它们 能 够 
给 消息 赋 一 个 数值 类 型 或 优先 级 ， 这 样 递 送 消 息 的 顺序 就 可 以 与 发 送 消息 的 顺序 不 
同 了 。 

EIE, FIFO 以 及 socket 是 使 用 文件 描述 和 从 来 实现 的 。 这 些 IPC 工具 都 文 持 第 63 xp 
介绍 的 一 组 IO 模型 : IO 多 路 复 用 《〈select0) 和 pollO 系 统 调用 )、 信 和 号 驱动 的 IO、 以 
及 Linux 特有 的 epoll API。 这 些 技术 的 主要 优势 在 于 它们 允许 应 用 程序 同时 监控 多 个 
文件 描述 符 以 判断 是 否 可 以 在 某 些 文件 描述 符 上 执行 VO 操作 。 与 之 相 比 ，System V 
消 县 队列 没有 使 用 文件 描述 符 ， 因 此 并 不 文 持 这 些 技术 。 




















在 Linux F, POSIX 消 恩 队列 也 是 使 用 文件 插 述 竺 来 实现 的 ， 因 此 也 支持 上 和 面 介绍 的 
各 种 VO 技术 。 但 SUSv3 并 没有 规定 这 种 行为 ， 因 此 在 大 多 数 实现 上 并 不 文 持 这 些 技术 。 





POSIX 消息 队列 提供 了 一 个 通知 工具 , 当 一 条 消息 进入 了 一 个 之 前 为 空 的 队列 中 时 可 
以 使 用 它 来 回 进 程 发 送信 号 或 实例 化 一 个 新 线程 。 

UNIX domain socket 提供 了 一 个 特性 允许 在 进程 间 传 吉文 件 接 述 付 。 这 样 一 个 进程 就 
能 够 打开 一 个 文件 并 使 之 对 男 一 个 本 来 无 法 访问 该 文件 的 进程 可 用 ， 在 61.13.3 P 
将 会 对 此 特性 进行 和 测 要 介绍 。 

UDP (Internet domain datagram) socket 允许 一 个 发 送 者 癌 多 个 接收 者 广播 或 组 播 一 条 
消息 ， 在 61.12 节 中 将 会 对 此 特性 进行 徐 要 介绍 。 




















天 于 进程 同步 工具 ， 下 面 几 点 是 值得 注意 的 。 








使 用 fcntO 加 上 的 记录 锁 由 加 锁 的 进程 拥有 。 内 核 使 用 这 种 所 有 权 属 性 来 检测 死 锁 (两 
个 或 多 个 进程 持 有 的 锁 会 阻塞 对 方 后 续 的 加 锁 请 求 的 场景 )。 如 果 发 生 了 和 死 锁 ， 那 么 
内 核 会 拒绝 其 中 一 个 进程 的 加 锁 请 求 ， 因 此 会 在 fcntO 调 用 中 返回 一 个 错误 标示 出 死 
锁 的 发 生 。System V 和 POSIX 信和 号 量 并 没有 所 有 权 属 性 ， 因 此 内 核 不 会 为 信号 量 ; 
行 死 锁 检 测 。 

当 使 用 fcntO 获 得 记录 锁 的 进程 终止 之 后 会 自动 释放 该 记录 锁 。System V 信号 量 提供 
了 一 个 类 似 的 特性 , 即 “ 撤 销 ” 特 性 , 但 这 个 特性 仅 在 部 分 场景 中 可 靠 ( 参 见 47.8 节 )。 
POSIX 信号 量 并 没有 提供 类 似 的 特性 。 

















网 络 通信 


在 图 43-1 中 给 出 所 有 IPC 方法 中 ， 只 有 socket 允许 进程 通过 网 络 来 通信 。socket 一 般 用 
于 两 个 域 中 : 一 个 是 UNIX domain, 它 允 许 位 于 同一 系统 上 的 进程 进行 通信 ; 另 一 个 是 Internet 
domain， 它 允许 位 于 通过 TCP/IP 网 络 进 行 连接 的 不 同 主机 上 的 进程 进行 通信 。 通 常 ， 将 一 个 
使 用 UNIX domain socket 进行 通信 的 程序 转换 成 一 个 使 用 Internet domain socket 进行 通信 的 程 
序 只 需要 做 出 微小 的 改动 ， 这 样 只 需要 对 使 用 UNIX domain socket 的 应 用 程序 做 较 小 的 改动 
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gb n] AURE E MH IER Y o 


可 移植 性 

现代 UNIX 实现 支持 图 43-1 中 的 大 部 分 IPC CH, fH POSIX IPC 工具 (消息 队列 、 信 号 量 
以 及 共享 内 存 ) 的 普及 程度 远 远 不 如 System V IPC, 特别 是 在 较 早 的 UNIX 系统 上 。( 只 有 版 本 
为 2.6.x 的 Linux 内 核 系 列 才 提 供 了 一 个 POSIX 消息 队列 的 实现 以 及 对 POSIX 信号 量 的 完全 文 
REO 因此 ， 从 可 移植 性 的 角度 来 看 ，System V IPC 要 优 于 POSIX IPC, 











System V IPC 设计 问题 


System V IPC 工具 被 设计 成 独立 于 传统 的 UNIX LO 模型 ， 其 结果 是 其 中 一 些 特 性 使 得 它 
的 编程 接口 的 用 法 更 加 复杂 。 相 应 的 POSIX IPC 工具 被 设计 用 来 解决 这 些 问 题 ， 特 别 是 下 面 
几 点 需要 注意 。 
e System V IPC 工具 是 无 连接 的 ， 它 们 没有 提供 引用 一 个 打开 的 IPC 对 象 的 句柄 (类 似 
于 文件 摘 述 符 ) 的 概念 。 在 后 面 的 章节 中 有 时 候 会 将 “打开 ”一 个 System V IPC 对 象 ， 
但 这 仅仅 是 描述 进程 获取 一 个 引用 该 对 象 的 句柄 的 简便 方式 。 内 核 不 会 记录 进程 已 经 
“打开 ”了 该 对 象 ( 与 其 他 IPC 对 象 不 同 )。 这 意味 着 内 核 无 法 维护 当前 使 用 该 对 象 的 
进程 的 引用 计数 ， 其 结果 是 应 用 程序 需要 使 用 额外 的 代码 来 知道 何 时 可 以 安全 地 删除 
= 
e System V IPC 工具 的 编程 接口 与 传统 的 UNIX UO 模型 是 不 一 致 的 〈 它 们 使 用 整数 键 
值 和 IPC 标识 符 ， 而 不 是 路 径 名 和 文件 描述 符 )， 并 且 这 个 编程 接口 也 过 于 复杂 了 。 
这 一 点 在 System V 信和 号 量 上 表现 得 特别 明显 《参见 47.11 市 和 53.5 市 )。 
相反 ， 内 核 会 为 POSIX IPC 对 象 记 录 打 开 的 引用 数 ， 这 样 孢 徐 化 了 何 时 删除 对 象 的 决策 。 
此 外 ，POSIX IPC 提供 的 接口 更 加 简单 并 且 与 传统 的 UNIX 模型 也 更 加 一 致 。 


















































可 访问 性 
X 43-2 中 的 第 二 列 总 结 了 各 种 IPC 工具 的 一 个 重要 特性 : 权限 模型 控制 看 哪些 进程 能 够 
访问 对 象 。 下 面 介 绍 各 种 模型 的 细节 信息 。 
e 对 于 一 些 IPC LH Cli FIFO 和 socket)， 对 象 名 位 于 文件 系统 中 ， 可 访问 性 是 根据 相 
关 的 文件 权限 撼 码 (指定 了 所 有 者 、 组 和 其 他 用 户 的 权限 ) 来 确定 的 (参见 15.4 市 )。 
虽然 System V IPC 对 和 象 并 不 位 于 文件 系统 中 ， 但 每 个 对 象 拥 有 一 个 相关 的 权限 掩 人 码 ， 
其 语义 与 文件 的 权限 掩 码 类 似 。 
e 一 些 IPC 工具 (管道 、 匿 名 内 存 上 映射) 被 标记 成 只 允许 相关 进程 访问 。 这 里 “相关 ” 
指 通过 forkO 关 联 的 。 为 了 使 两 个 进程 能 够 访问 同一 个 对 象 ， 其 中 一 个 必须 要 创建 该 
对 象 , 然后 调用 forkO. 而 forkO 调 用 的 结果 区 是 子 进程 会 继承 引用 该 对 象 的 一 个 句柄 ， 
这 样 两 个 进程 束 能 够 共享 对 象 了 。 
。 POSIX 的 未 命名 信号 量 的 可 访问 性 是 通过 包含 该 信号 量 的 共享 内 存 区 域 的 可 访问 性 
来 确定 的 。 
e 为 了 给 一 个 文件 加 锁 ， 进 程 必须 要 拥有 一 个 引用 该 文件 的 文件 摘 述 符 《〈 即 在 实践 中 它 
必须 要 拥有 打开 文件 的 权限 )。 
e 对 Internet domain socket 的 访问 ( 即 连接 或 发 送 数 据 报 ) 没有 限制 。 如 果 有 需要 的 话 ， 
必须 要 在 应 用 程序 中 实现 访问 控制 。 
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表 43-2: 各 种 IPC 工具 的 可 访问 性 和 持久 性 


工具 类 型 可 访问 性 持 久 性 














管道 仅 允 许 相关 进程 进程 
FIFO DELE 进程 
UNIX domain socket 权限 掩 人 码 进程 
Internet domain socket 任意 进程 进程 
System V 消息 队列 TUR fich 内 核 
System V 信和 号 量 权限 掩 人 码 内 核 
System V 共享 内 存 JU FEI 内 核 
POSIX 消息 队列 BUB FEAE 内 核 
POSIX 命名 信和 号 量 权限 掩 码 内 核 
POSIX 无 名 信号 量 相应 内 存 的 权限 依 情况 而 定 
POSIX 共享 内 存 权限 掩 人 码 内 核 
匿名 映射 ILIITA ARAE 进程 

内 存 映 射 文件 JUR fn 文件 系统 
flockO 文 件 锁 文件 的 open0 操 作 进程 
fcnt10 文 件 锁 文件 的 openO TTE 进程 

持久 性 


术语 持久 性 是 指 一 个 IPC 工具 的 生命 周期 。( 参 见 表 43-2 中 的 第 三 列 。) 持久 性 有 三 种 。 

e 进程 持久 性 : 只 要 存在 一 个 进程 持 有 进程 持久 的 IPC 对 象 ， 那么 该 对 象 的 生命 周期 就 
不 会 终止 。 如 有 果 所 有 进程 都 关闭 了 对 象 ， 那 么 与 该 对 象 的 所 有 内 核资 源 都 会 被 释放 ， 上 所 
有 未 读 取 的 数据 会 被 销毁 。 管 道 、FIFO 以 及 socket 是 进程 持久 的 IPC 工具 。 


FIFO 的 数据 持久 性 与 其 名 称 的 持久 性 是 不 同 的 。FIFO 在 文件 系统 中 拥有 一 个 名 称 ， 
当 所 有 引用 FIFO 的 文件 搬 述 和 侍 部 被 关闭 之 后 该 名 称 也 是 持久 的 。 


。 内 核 持 久 性 : 只 有 当 显 式 地 删除 内 核 持久 的 IPC 对 象 或 系统 关闭 时 , 该 对 象 才 会 销毁 。 
这 种 对 象 的 生命 周期 与 是 否 有 进程 打开 该 对 象 无 关 。 这 意味 着 一 个 进程 可 以 创建 一 个 
对 象 ， 疝 其 中 号 入 数据 ， 然 后 关闭 访 对象 (或 终止 )。 在 后 面条 个 时 刻 ， 丸 一 个 进程 
可 以 打开 该 对 象 ， 然 后 从 中 读 取 数 据 。 其 备 内 核 持 久 性 的 工具 包括 System V IPC 和 
POSIX IPC。 在 后 面 章节 中 用 来 描述 这 些 工具 的 示例 程序 中 将 会 使 用 这 个 属性 : 对 于 
每 种 工具 都 实现 一 个 单独 的 程序 ， 在 程序 中 创建 一 个 对 象 ， 然 后 删除 该 对 象 ， 并 执行 
通信 或 同步 操作 。 

。 文件 系统 持久 性 : 具备 文件 系统 持久 性 的 IPC 对 象 会 在 系统 重启 的 时 候 保持 其 中 的 信 
恩 ， 这 种 对 象 一 下 存在 下 全 被 显 式 地 删除 。 唯 一 一 种 具备 文件 系统 持久 性 的 IPC 对 和 象 
征 基于 内 存 映射 文件 的 共 孚 内 存 。 












































在 一 些 场景 中 ， 不 同 IPC 工具 的 性 能 可 能 存在 显著 的 差异 。 但 在 后 面 的 章节 中 一 般 不 会 
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对 它们 的 性 能 进行 比较 ， 其 原因 如 下 。 








在 应 用 程序 的 整体 性 能 中 ，IPC 工具 的 性 能 的 影响 因素 可 能 不 是 很 大 ， 并 且 确 定 选 择 
何 种 IPC 工具 可 能 并 不 仪 仪 需要 考虑 其 性 能 因素 。 

各 种 IPC 工具 在 不 同 UNIX 实现 或 Linux 的 不 同 内 核 中 的 性 能 可 能 是 不 同 的 。 

最 重要 的 是 ， 了 PC 工具 的 性 能 可 能 会 受到 使 用 方式 和 环境 的 影响 。 相 关 的 因素 包括 每 
个 IPC 操作 交换 的 数据 单元 的 大 小 、IPC 工具 中 未 读数 据 量 可 能 很 大 、 每 个 数据 单元 
的 交换 是 个 需要 进行 进程 上 下 文 切 换 、 以 及 系统 上 的 其 他 负载 。 
































aA IPC 性 能 是 至 关 紧 要 的 ， 并 且 不 存在 应 用 程序 在 与 目标 系统 匹配 的 环境 中 运行 的 性 


能 基准 ， 











那么 最 好 编写 一 个 抽象 软件 层 来 癌 应 用 程序 隐藏 IPC. 工具 的 细 市 ， 然 后 在 抽象 层 下 


使 用 不 同 的 IPC. 工具 来 测试 性 能 。 


43.5 


Y 


IU ZH 


本 章 概述 了 进程 〈 以 及 线程 ) 可 用 来 相互 通信 和 同步 动作 的 各 种 工具 。 
Linux 提供 的 通信 工具 包括 管道 、FIFO、socket、 消 息 队 列 以 及 共享 内 存 。Linux 提供 的 

















同步 工具 包括 信号 量 和 文件 锁 。 
在 很 多 情况 下 在 执行 一 个 给 定 的 任务 时 存在 多 种 技术 可 用 于 通信 和 同步 。 本 章 以 多 种 方 
式 对 不 同 的 技术 进行 了 比较 ， 其 目标 是 突出 可 能 对 技术 选择 产生 影 啊 的 一 些 兰 异 。 











在 后 面 的 章节 中 将 会 深入 介绍 各 种 通信 和 同步 工具 。 


43.6 


43-1. 


43-2. 


2] gi 


2j 53 — ^ FEFFOR AU SE TEEXR BR 3o 在 命令 行 参数 中 ,程序 应 该 接收 需 发 送 的 数据 块 
数目 以 及 每 个 数据 块 的 大 小 。 在 创建 一 个 管道 之 后 ， 程 序 将 分 成 两 个 进程 : 一 个 子 
进程 以 尽 可 能 快 的 速度 问 管 道 号 入 数据 块 ， 父 进程 恋 取 数 据 块 。 在 所 有 数据 都 被 读 
取 之 后 ， 父 进程 应 该 打印 出 所 消耗 的 时 间 和 帝 宽 《每 秒 传输 的 字 季 数 )。 为 不 同 的 
数据 块 大 小 测量 市 宽 。 

使 用 System V 消息 队列 、POSIX 消息 队列 、UNIX domain 流 socket 以 及 UNIX 
domain 数据 报 socket 来 重 做 上 面 的 练习 。 使 用 这 些 程序 来 比较 各 种 IPC 工具 在 
Linux 上 的 相对 性 能 。 读 者 如 果 能 够 使 用 其 他 UNIX 实现 ， 那 么 在 那些 系统 上 执行 
同样 的 比较 。 























第 43 章 ”进程 间 通 信 简 介 727 


异步 社区 会 员 flyman150(2410757683@qq.com) EF 尊重 版 权 


EH 


管道 和 FIFO 








本 章 介 绍 管道 和 FIFO。 管 道 是 UNIX 系统 上 最 古老 的 IPC 方法 ， 它 在 20 世纪 70 年 代 早 
期 UNIX 的 第 三 个 版 本 上 融 出 现 了 。 管 道 为 一 个 利 见 需求 捉 供 了 一 个 优雅 的 解决 方案 : 给 定 
两 个 运行 不 同 程序 《命令 ) 的 进程 ， 在 shell 中 如 何 让 一 个 进程 的 输出 作为 为 一 个 进程 的 输入 
呢 ? 管道 可 以 用 来 在 相关 进程 之 间 传 递 数据 《〈 读 者 阅读 完 后 面 的 几 页 之 后 隐 能 够 理解 “相关 ” 
的 含义 了 )。FIFO 是 管道 概念 的 一 个 变 体 ， 它 们 之 间 的 一 个 重要 兰 别 在 于 FIFO 可 以 用 于 任意 
进程 间 的 通信 。 





























44.1 概述 


每 个 shell 用 户 都 对 在 命令 中 使 用 管道 比较 辑 悉 ， 如 下 面 这 个 统计 一 个 目 孙 中 文件 的 数目 
的 命令 所 示 。 

$ ls | wc -1 

为 执行 上 和 面 的 命令 ，shell 创建 了 两 个 进程 来 分 别 执行 ls 和 wc。( 这 是 通过 使 用 forkO I 
exec(0 来 完成 的 ， 第 24 EMR 27 半分 别 对 这 两 个 函数 进行 了 介绍 〉 图 44-1 展示 了 这 两 个 进 
程 是 如 何 使 用 管道 的 。 














管道 
stdout 字 节 流 ; stdin 
IS — (fd1) = 单 向 (fao) "S 
管道 写 管道 读 
入 端 取 端 


44-1: 使 用 管道 连接 两 个 进程 


除了 说 明 官 道 的 用 法 之 外 ， 图 44-1 的 万 外 一 个 目的 是 前 明 管 道 这 个 名 称 的 由 来 。 可 以 将 
党 嘎 看 成 是 一 组 铬 管 ， 它 允许 数据 从 一 个 进程 流 癌 尺 一 个 进程 。 

在 图 44-1 中 有 一 点 值得 注意 的 是 两 个 进程 都 连接 到 了 管道 上 ， 这 样 写 入 进程 CIO gU 
其 标准 输出 《文件 摘 述 符 为 1) 连接 到 了 管道 的 与 入 端 ， 该 取 进 程 wc) 束 将 其 标准 输入 〈 文 
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件 描述 符 为 0) 连接 到 管道 的 读 取 端 。 实 际 上 ， 这 两 个 进程 并 不 知道 管道 的 存在 ， 它 们 只 是 从 
丢 准 文件 描述 符 车 读 取 数据 和 号 六 数据 ，shell 必须 要 完成 相关 的 工作 ， 在 44.4 节 中 将 会 介 
shell 是 如 何 完 成 这 些 工 作 的 。 

下 面 几 个 段落 将 会 介绍 管道 的 几 个 重要 特征 。 


给 





一 个 管道 是 一 个 字 节 流 

当 讲 到 管道 是 一 个 学 下 流 时 意味 看 在 使 用 管道 时 是 不 存在 消 县 或 消 县 边界 的 概念 的 。 从 
管道 中 该 取 数 据 的 进程 可 以 谈 取 任意 大 小 的 数据 块 ， 而 不 管 号 入 进程 号 入 管道 的 数据 块 的 大 
小 是 什么 。 此 外 ， 通 过 管道 传递 的 数据 是 顺序 的 一 一 从 管道 中 读 取 出 来 的 字 节 的 顺序 与 它们 
被 写 入 管道 的 顺序 是 完全 一 样 的 。 在 管道 中 无 法 使 用 lseek0 来 随机 地 访问 数据 。 

如 果 需 要 在 管道 中 实现 离散 消息 的 概念 ， 那 么 承 必 须要 在 应 用 程序 中 完成 这 些 工 作 。 虽 
然 这 是 可 行 的 (参见 44.8 F), 但 如 果 碰 到 这 种 需求 的 话 最 好 使 用 其 他 IPC 机 制 ， 如 消息 队列 
和 数据 报 socket， 本 书 在 后 面 几 个 草 和 中 融会 介绍 它们 。 


从 管道 中 读 取 数据 

试图 从 一 个 当前 为 衬 的 管道 中 读 取 数据 将 会 被 阻 杜 直到 至 少 有 一 个 字 节 被 写 入 到 管道 中 
为 止 。 如 果 和 管道 的 写 入 山 被 关 团 了 ， 那 么 从 管道 中 读 取 数据 的 进程 在 谈 完 党 道中 剩余 的 所 有 
数据 之 后 将 会 看 到 文件 结束 〈( 即 lread0 返 回 0)。 
管道 是 单 向 的 

在 管道 中 数据 的 传递 方向 是 单 册 的。 管道 的 一 段 用 于 写 入 ， 另 一 端 则 用 于 读 取 。 

在 其 他 一 些 UNIX 实现 上 特别 是 那些 从 System V Release 4 演化 而 来 的 系统 er B 
是 双 同 的 〈 所 谓 的 流 管道 )。 双 同 管 道 并 没有 在 任何 UNIX 标准 中 进行 规定 ， 因 此 即使 在 提供 
了 双 回 管道 的 实现 上 最 好 也 避免 依赖 这 种 语义 。 作 为 符 代 方案 ， 可 以 使 用 UNIX domain ii 
socket 对 (通过 使 用 57.5 市 中 介绍 的 socketpairO 系 统 调 用 来 创建 )， 它 提供 了 一 种 标准 的 双 回 
通信 机 制 ， 并 且 其 语义 与 流 管 道 是 等 价 的 。 













































































可 以 确保 写 入 不 超过 PIPE_BUF 字 节 的 操作 是 原子 的 

如 果 多 个 进程 写 入 同一 个 管道 , 那么 如 果 它 们 在 一 个 时 刻写 入 的 数据 量 不 超过 PIPE_ BUF 
学 市 ， 那 么 就 可 以 确保 写 入 的 数据 不 会 发 生 相互 混合 的 情况 。 

SUSv3 要 求 PIPE BUF 至 少 为 POSIX PIPE BUF (512)。 一 个 实现 应 该 定义 PIPE BUF 
(在 <limits.h> 中 ) 并 /或 允许 调用 fpathconf(fd，PC PIPE BUF) 来 返回 原子 写 入 操作 的 实际 上 限 。 
不 同 UNIX 实现 上 的 PIPE BUF 不 同 ， 如 在 FreeBSD 6.0 其 值 为 512 字 节 ， 在 Tru64 5.1 上 其 
值 为 4096 £77, Æ Solaris 8 上 其 值 为 5120 Fi. Œ Linux E, PIPE BUF 的 值 为 4096。 

当 写 入 管道 的 数据 块 的 大 小 超过 了 PIPE BUF 字 节 ， 那 么 内 核 可 能 会 将 数据 分 割 成 几 个 
较 小 的 片段 来 传输 ， 在 读者 从 管道 中 消耗 数据 时 再 附加 上 后 续 的 数据 。(writeO 调 用 会 阻塞 直 
到 所 有 数据 被 写 入 到 管道 为 止 。) 当 只 有 一 个 进程 回 管 道 写 入 数据 时 ( 通 间 的 情况 ), PIPE BUF 
的 取 值 就 没有 关系 了 。 但 如 果 有 多 个 写 入 进程 ， 那 么 大 数据 块 的 写 入 可 能 会 被 分 解 成 任意 大 
小 的 段 《可 能 会 小 于 PIPE BUF 字 节 )， 并 且 可 能 会 出 现 与 其 他 进程 写 入 的 数据 交叉 的 现象 。 

只 有 在 数据 被 传输 到 管道 的 时 候 PIPE BUF 限制 才 会 起 作用 。 当 写 入 的 数据 达到 
PIPE BUF 字 节 时 ，write0 会 在 必要 的 时 候 阻 塞 直到 管道 中 的 可 用 空间 足以 原子 地 完成 操作 。 
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如 果 写 入 的 数据 大 于 PIPE BUF Fi, WA write0 会 尽 可 能 地 多 传输 数据 以 充满 整个 管道 ， 
然后 阻 赛 直 到 一 坚 读 取 进 程 从 管 赴 中 移 除 了 数据 。 如 朱 此 关 阻 豆 的 writeO 衫 一 个 信和 号 处 理 需 
中 断 了 ， 那 么 这 个 调用 会 被 解除 阻 玫 并 返回 成 功 传输 到 管道 中 的 字 节 数 ， 这 个 子 布 数 会 少 于 
请 求 写 入 的 字 节 数 〈 所 谓 的 部 分 写 入 )。 














在 Linux 2.2 上 ， 问 管道 写 入 任意 数量 的 数据 都 是 原子 的 ， 除 非 号 入 操作 和 被 一 个 信号 处 
理 器 中 断 了 。 在 Linux 2.4 以 及 后 续 的 版 本 上 ， 写 入 数据 量 大 于 PIPE BUF FERIA RE 
都 可 能 会 与 其 他 进程 的 写 入 操作 发 生 交 又 。( 在 版 本 写 为 2.2 和 2.4 的 内 核 中 ， 实 现 管道 的 
内 核 代码 存在 很 大 的 磊 寞 。) 





管道 的 容量 是 有 限 的 

管道 其 实 是 个 在 内 核 内 存 盾 维护 的 缓冲 器 ， 这 个 缓冲 器 的 存储 能 力 是 有 限 的 。 一 旦 管 
道 被 填 满 之 后 ， 后 续 向 该 管道 的 写 入 操作 就 会 被 阻塞 直到 读者 从 管道 中 移 除了 一 些 数 据 为 止 。 

SUSv3 并 没有 规定 管道 的 存储 能 力 。 在 早 于 2.6.11 的 Linux 内 核 中 ， 管 道 的 存储 能 
力 与 系统 页 面 的 大 小 是 一 致 的 (如 在 x86-32 上 是 4096 ZW), mA Linux 2.6.11 E, 4E 
道 的 看 舍 能 浪 十 63536 字 3 和。 其 他 UNIX 实现 上 的 管道 的 存储 能 力 可 能 是 不 同 的 。 

一 般 来 讲 ， 一 个 应 用 程序 无 需 知 道 管道 的 实际 存储 能 力 。 如 果 需 要 防止 写 者 进程 阻塞 ， 
那么 从 管道 中 读 取 数 据 的 进程 应 该 被 设计 成 以 尽 可 能 快 的 速度 从 管道 中 读 取 数据 。 









































从 理论 上 来 讲 ， 没 有 任何 理由 可 以 支持 存储 能 力 较 小 的 管道 无 法 正常 工作 这 个 结论 ， 
哪怕 管道 的 存储 能 力 只 有 一 个 他 节 。 使 用 较 大 的 绥 冲 器 的 原因 是 效率 ， 每 当 写 者 充满 管道 
时 ， 内 核 必须 要 执行 一 个 上 下 文 切换 以 允许 读者 被 调度 来 消耗 管道 中 的 一 些 数据 。 使 用 较 
大 的 缓冲 需 意 味 看 需 执 行 的 上 下 文 切换 次 数 更 少 。 

从 Linux 2.6.35 开始 就 可 以 修改 一 个 管道 的 存储 能 力 了 。Linux 特有 的 fcnt(fd， 
F SETPIPE SZ, size) 调 用 会 将 fd 引用 的 管道 的 存储 能 力 修 改 为 至 少 size 字 节 。 非 特权 进程 可 
以 将 管道 的 存储 能 力 修改 为 范围 在 系统 的 页 面 大 小 到 /proc/sys/fs/pipe-max-size 中 规定 的 值 之 
内 的 任何 一 个 值 。pipe-max-size 的 默认 值 是 1048576 字 节 。 特 权 (CAP. SYS RESOURCE) 
进程 可 以 窗 盖 这 个 限制 。 在 为 管道 分 配 空间 时 ， 内 核 可 能 会 将 size 提升 为 对 实现 来 讲 更 加 便 
捷 的 某 个 值 。fcntl(fd, F_GETPIPE_SZ) 调 用 返回 为 管道 分 配 的 实际 大 小 。 
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dinclude <unistd.h> 


int pipe(int fZedes[2]); 


Returns 0 on success, or -1 on error 














成 功 的 pipeO 调 用 会 在 数组 filedes 中 返回 两 个 打开 的 文件 描述 符 : 一 个 表示 管道 的 读 取 端 
(filedes[OD, 53 — ^ XR EB) AX (filedes[1])。 
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与 所 有 文件 描述 符 一 样 ， 可 以 使 用 read0 和 write0 系 统 调用 来 在 管道 上 执行 IJO。 一 旦 向 管道 
的 写 入 端 写 入 数据 之 后 立即 束 能 从 管道 的 读 取 端 读 取 数 据 。 管 道上 的 read0 调 用 会 读 取 的 数据 量 
为 所 请 求 的 字 节 数 与 管道 中 当前 存在 的 字 节 数 两 者 之 间 较 小 的 那个 〈 但 当 管道 为 空 时 阳 矮 )。 

也 可 以 在 管道 上 使 用 stdio R% Cprintfü. scanf0S5), Hir E HE ZG EH] fdopen0 获 取 一 个 
与 filedes 中 的 某 个 描述 符 对 应 的 文件 流 即 可 《参见 13.7 节 )。 但 在 这 样 做 的 时 候 需 要 清楚 在 
44.6 节 中 介绍 的 stdio 绥 冲 问题 。 

















ioctl(fd, FIONREAD, &cnb 调 用 返回 文件 描述 符 fd 所 引用 的 管 息 或 FIFO 中 未 读 取 的 子 
节 数 。 其 他 一 些 实现 也 提供 了 这 个 特性 ， 但 SUSv3 并 没有 对 此 进行 规定 。 


图 44-2 给 出 了 使 用 pipe0 创 建 完 管道 之 后 的 情况 ， 其 中 调用 进程 通过 文件 描述 符 引 用 了 
管道 的 两 端 。 

在 单个 进程 中 管道 的 用 途 不 多 (在 63.5.2 市 
中 将 会 介绍 一 种 用 途 )。 一 般 来 讲 都 是 使 用 管道 让 
两 个 进程 进行 通信 。 为 了 让 两 个 进程 通过 管道 进 
行 连接 ， 在 调用 完 pipe0 之 后 可 以 调用 fork). dE 
fork() 期 间 ， 子 进程 会 继承 父 进程 的 文件 描述 符 的 
副本 《参见 242.1 节 )， 这 样 束 会 出 现 图 44-3 中 图 44-2: 在 创建 完 管道 之 后 处 理 文件 描述 符 
左边 那样 的 情形 。 





调用 进程 
filedes[1] | füedes[O] 


数据 流 的 
方向 








———— 
H 





父 进程 
edes I] 


父 进程 
filedes[ I] — filedes[0] 


filedes[ 0] 
于 进程 
a) 调用 fork0) 之 后 b) 关闭 未 使 用 的 描述 符 之 后 


filedes[1] — filedes[O] 
子 进 程 





44-3: 设置 管道 来 将 数据 从 父 进程 传输 到 子 进 程 
虽然 父 进程 和 子 进程 都 可 以 从 管道 中 读 取 和 写 入 数据 ， 但 这 种 做 法 并 不 常见 。 因 此 ， 在 
forkO 调 用 之 后 ， 其 中 一 个 进程 应 诠 立 即 关 财 管道 的 写 入 端的 摘 述 符 ， 另 一 个 则 应 该 关闭 谈 取 
并 的 描述 符 。 如 ， 如 果 父 进程 需要 问 子 进程 传输 数据 ， 那 么 它 就 会 关闭 管道 的 读 取 端的 描述 
fF filedes[0]， 而 子 进程 就 会 关闭 管道 的 写 入 靖 的 摘 述 从 fledes[1]， 这 样 束 出 现 了 图 44-3 nu 
边 那 样 的 情形 。 程 序 清单 44-1 给 出 了 创建 这 个 管道 的 代码 。 
程序 清单 44-1: 使 用 管道 将 数据 从 父 进 程 传输 到 子 进 程 所 需 的 步骤 


























int filedes[2]; 
if (pipe(filedes) -- -1) /* Create the pipe */ 
errExit("pipe"); 
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switch (fork()) ( /* Create a child process */ 
case -1: 
errExit(" fork"); 


case 0: /* Child */ 
if (close(filedes[1]) == -1) /* Close unused write end */ 
errExit("close"); 


/* Child now reads from pipe */ 
break; 


default: /* Parent */ 
if (close(filedes[0]) == -1) /* Close unused read end */ 
errExit("close"); 


/* Parent now writes to pipe */ 
break; 


j 
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末 需 要 双 同 通信 和 则 可 以 使 用 一 种 更 加 人 简单 的 方法 : 创建 两 个 管道 ， 在 两 个 进程 乙 间 发 送 数 
据 的 两 个 方 加 上 各 使 用 一 个 。( 如 果 使 用 这 种 搁 术 ， 那 么 束 需 要 考虑 死 锁 的 问题 了 ， 因 为 
如 果 两 个 进程 部 试 图 从 空 管 近 中 读 取 数据 或 坚 试 回 已 满 的 管 这 中 写 入 数据 束 可 能 会 及 生 
JE B s) 

虽然 可 以 有 多 个 进程 向 单个 管道 中 写 入 数据 , 但 通常 只 存在 一 个 写 者 (在 443 节 中 将 会 
给 出 一 个 使 用 多 个 与 者 问 一 个 官 道 号 入 数据 的 例子 。〉 相反 ， 在 有 些 情况 下 让 FFO 拥有 多 个 
写 者 是 比较 有 用 的 ， 在 44.8 市 中 将 会 给 出 一 个 这 样 的 例子 。 









































从 2.6.27 内 核 开 始 ，Linux 文 持 一 个 全 新 的 非 标准 系统 调用 pipe20。 这 个 系统 调用 执行 
的 任务 与 pipe0 一 样 ， 但 支持 额外 的 参数 flags， 这 个 参数 可 以 用 来 修改 系统 调用 的 行为 。 
这 个 系统 调用 支持 两 个 标记 ， 一 个 是 O_CLOEXEC， 它 会 导致 内 核 为 两 个 新 的 文件 描述 符 
局 用 close-on-exec 标记 (FD_CLOEXEC)。 这 个 标记 之 所 以 有 用 的 原因 与 在 4.3.1 市 中 介绍 
的 openü O_CLOEXEC 标记 有 用 的 原因 一 样 。 男 一 个 是 O_NONBLOCK fid, zs SU 
核 将 帮 层 的 打开 的 文件 描述 符 标 记 为 非 阻塞 ， 这 样 后 续 的 UO 操作 会 是 非 阻 塞 的 。 这 样 就 
能 够 在 不 调用 fcnt10 的 情况 下 达到 同样 的 效果 了 。 
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目前 为 止 本 章 已 经 介绍 了 如 何 使 用 管道 来 让 父 进 程 和 子 进 程 之 间 进 行 通信 ， 其 实 管道 
可 以 用 于 任意 两 个 (或 更 多 ) 相关 进程 之 间 的 通信 ， 只 要 在 创建 子 进程 的 系列 forkO 调 用 
之 前 通过 一 个 共同 的 祖先 进程 创建 管道 即 可 。( 这 就 是 本 半 开 头 部 分 所 讲 的 “相关 进程 ” 
的 含义 。) 如 管道 可 用 于 一 个 进程 和 其 孙子 进程 之 间 的 通信 。 第 一 个 进程 创建 塌 道 ， 然 后 
创建 子 进 程 ， 接 看 子 进 程 再 创建 第 一 个 进程 的 孙子 进程 。 管 道 通 香 用 于 两 个 兄 腊 进程 之 间 
的 通信 一 一 它们 的 父 进程 创建 了 管道 ， 然 后 创建 两 个 子 进 程 。 这 束 是 在 构建 管道 线 时 shell 
所 做 的 工作 。 
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管道 只 能 用 于 相关 进程 之 间 的 通信 这 个 说 法 存在 一 种 例外 情况 。 通 过 UNIX domain 
socket (YE 61.13.3 市 中 将 会 简要 介绍 的 一 项 技术 ) 传递 一 个 文件 描述 符 使 得 将 管道 的 一 个 
文件 描述 符 传 递 给 一 个 非 相 关 进 程 成 为 可 能 。 











天 闭 未 使 用 管道 文件 描述 符 











关闭 未 使 用 害 道 文件 接 述 符 不 仅仅 是 为 了 确 你 进程 不 会 耗 尽 其 文件 插 述 符 的 限制 一 一 这 
对 于 正确 使 用 过 道 是 非常 重要 的 。 下 面 介 绍 为 何必 须要 天 财 管 道 的 该 取 中 和 与 入 端的 未 使 用 


文件 描述 符 。 

从 管道 中 谈 取 数据 的 进程 会 关闭 其 特有 的 管道 的 号 入 描述 符 ， 这 样 当 其 他 进程 完成 输出 
并 关闭 其 写 入 插 述 符 之 后 ， 读 者 就 能 够 看 到 文件 结束 在 读 完 管道 中 的 数据 之 后 )。 

如 果 读 取 进 程 没有 关闭 管道 的 写 入 端 ， 那 么 在 其 他 进程 关闭 了 写 入 描述 符 之 后 ， 读 者 也 
不 会 看 到 文件 结束 ， 即 使 它 读 完 了 管道 中 的 所 有 数据 。 相 反 ，read() 将 会 阻 窒 以 等 得 数据 ， 这 
是 因为 内 核 知道 至 少 还 存在 一 个 管道 的 写 入 描述 符 打 开 着 ， 即 读 取 进程 自己 打开 了 这 个 描述 
符 。 从 理论 上 来 讲 ， 这 个 进程 仍然 可 以 同 管 道 号 入 数据 ， 即 使 它 已 经 被 读 取 操 作 阻 塞 了 。 如 
read() 可 能 hiu 被 一 个 向 管道 写 入 数据 的 信号 处 理 器 中 断 。( 这 是 现实 世界 中 的 一 种 场景 ， 读 者 
在 63.5.2 市 中 将 会 看 到 。) 

写 入 进程 关闭 其 持 有 的 管道 的 读 取 搬 述 符 是 出 于 不 同 的 原因 。 当 一 个 进程 试图 同一 个 管 
道中 与 入 数据 但 没有 任何 进程 拥有 该 管道 的 打开 痢 的 谈 取 摘 述 符 时 ， 内 核 会 问 写 入 进程 发 送 
一 个 SIGPIPE 信和 号。 在 默认 情况 下 ， 这 个 信和 号 会 杀 死 一 个 进程 。 但 进程 可 以 捕获 或 忽略 该 信 
号 ， 这 样 就 会 导致 管道 上 的 write0 操 作 因 EPIPE 错误 (已 损坏 的 管道 ) 而 失败 。 收 到 SIGPIPE 
信和 号 或 得 到 EPIPE 错误 对 于 标示 出 管道 的 状态 是 有 用 的 ， 这 惑 是 为 何 需要 关闭 管道 的 来 使 用 
读 取 描述 符 的 原因 。 


注意 : 对 被 SIGPIPE 处 理 右 中 断 的 writeO 的 处 理 是 特殊 的 。 通 第 ， 当 write) (或 其 他 
“ 慢 ” 系 统 调 用 ) 被 一 个 信号 处 理 器 中 断 时 ， 这 个 调用 会 根据 是 否 使 用 sigaction() 
SA RESTART 标记 安装 了 处 理 器 而 自动 重启 或 因 EINTR 错误 而 失败 (参见 21.5 T). x 
SIGPIPE 的 处 理 不 同 是 因为 目 动 重 司 write0 或 简单 标示 出 write0 被 一 个 处 理 器 中 断 了 是 坚 
无 意义 的 (意味 着 需要 手工 重启 writeO0 )。 不 管 是 何 种 处 理 方 式 ， 后 续 的 writeO0 都 不 会 成 功 ， 
因为 管道 仍然 处 于 被 损坏 的 状态 。 


如 果 写 入 进程 没有 关闭 管道 的 读 取 病 ， 那 么 即使 在 其 他 进程 已 经 关闭 了 管道 的 读 取 如 之 
后 写 入 进程 仍然 能 够 癌 管 道 号 入 数据 ， 最 后 号 入 进程 会 将 数据 充 油 整 个 党 道 ， 后 续 的 写 入 请 
KB Gm HE o 
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中 所 有 未 读 取 的 数据 部 会 丢失 。 




















































































































示例 程序 

程序 清单 44-2 中 的 程序 演示 了 如 何 将 管道 用 于 父 进程 和 子 进 程 之 间 的 通信 。 这 个 例子 演 
示 了 前 面 提 及 的 管道 的 学 节 流 特性 一 一 父 进程 在 一 个 操作 中 写 入 数据 ， 子 进程 一 小 块 一 小 块 
地 从 管道 中 读 取 数 据 。 
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主 程序 调用 pipeO 创 建 管道 四， 然后 调用 forkO 创 建 一 个 子 进 程 @。 YE fork0O 调 用 之 后 ， 父 
进程 关闭 了 其 持 有 的 管道 的 读 取 奖 的 文件 描述 符 罗 并 将 通过 程序 的 命令 行 参数 传递 进来 的 字 
符 串 写 到 管道 的 号 入 端 @。 父 进程 接着 关闭 管道 的 读 取 端 由 并 调用 waitO 等 待 子 进 程 终止 中。 
在 关闭 了 所 持 有 的 管道 的 写 入 站 的 文件 摘 述 符 @@) 之 后 ， 子 进程 进入 了 一 个 循环 ， 在 这 个 循环 
中 从 管 趾 该 取 外 数据 块 并 将 它们 写 到 人 @@ 标 准 输出 中 。 当 子 进 程 全 到 管道 的 文件 结束 时 名 融 退 
出 循环 只， 并 写 入 一 个 结尾 换行 字符 以 及 关闭 所 持 有 的 管道 的 谈 取 站 的 朱 述 符 ， 最 后 终止。 


P 面 是 运行 程序 清单 44-2 中 的 程序 时 可 能 看 到 的 输出 。 
$ ./simple pipe 'It was a bright cold day in April, '\ 
'and the clocks were striking thirteen. ' 
It was a bright cold day in April, and the clocks were striking thirteen. 


程序 清单 44-2: 在 父 进程 和 子 进 程 间 使 用 管道 通信 


























pipes/simple pipe.c 
include «sys/wait.h» 
include "tlpi hdr.h" 


#define BUF SIZE 10 


int 
main(int argc, char *argv[]) 


int pfd[2]; /* Pipe file descriptors */ 
char buf[BUF SIZE]; 
ssize t numRead; 


if (argc != 2 || stremp(argv[1], "--help") == 0) 
usageErr("Xs stringWn", argv[0]); 


(D if (pipe(pfd) == -1) /* Create the pipe */ 
errExit("pipe"); 


© switch (fork()) { 
case -1: 
errExit("fork"); 


case 0: /* Child - reads from pipe */ 
© if (close(pfd[1]) == -1) /* Write end is unused */ 
errExit("close - child"); 
for (55) 1 /* Read data from pipe, echo on stdout */ 
(D numRead = read(pfd[0], buf, BUF SIZE); 


if (numRead == -1) 
errExit(" read"); 


(5) if (numRead == 0) 
break; /* End-of-file */ 
(6) if (write(STDOUT FILENO, buf, numRead) !- numRead) 
fatal("child - partial/failed write"); 
} 
JW) write(STDOUT FILENO, "An", 1); 
if (close(pfd[0]) == -1) 


errExit("close"); 
 exit(EXIT SUCCESS); 


default: /* Parent - writes to pipe */ 
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if (close(pfd[0]) == -1) 
errExit("close - parent"); 

if (write(pfd[1], argv[1], strlen(argv[1])) != strlen(argv[1])) 
fatal("parent - partial/failed write"); 


/* Read end is unused */ 


if (close(pfd[1]) == -1) /* Child will see EOF */ 
errExit("close"); 
wait(NULL); /* Wait for child to finish */ 


exit(EXIT SUCCESS); 


pipes/simple pipe.c 


Ja dns vat pA 、 — 一 、 
44.3 ”将 过 这 作为 一 种 进程 同步 的 方法 

在 24.5 节 中 介绍 了 如 何 使 用 信号 来 同步 父 进程 和 子 进 程 的 动作 以 防止 出 现 竞争 条 件 。 也 
可 以 使 用 管道 来 取得 类 似 的 结果 ， 如 程序 清单 44-3 中 给 出 的 骨架 程序 所 示 。 这 个 程序 创建 了 
多 个 子 进程 〈 每 个 命令 行 参 数 对 应 一 个 子 进 程 )， 每 个 子 进 程 都 完成 某 个 动作 ， 在 本 例 中 则 是 
睡眠 一 段 时 间 。 父 进程 等 竺 下 到 所有 子 进 程 完成 了 上 自己 的 动作 为 止 。 





























为 了 执行 同步 ， 父 进程 在 创建 子 进 程 包 之 前 构建 了 





个 定 道 山 。 每 个 子 进程 会 继承 官 道 


的 号 入 病 的 文件 插 述 符 并 在 完成 动作 之 后 天 财 这 些 接 述 从 (3)。 当 所 有 子 进程 避 关 闭 了 管道 的 
写 入 端的 文件 描述 符 之 后 ， 父 进程 在 管道 上 的 read0 就 会 结束 并 返回 文件 结束 (0)。 这 时 ， 
父 进 程 孢 能 够 做 其 他 工作 了 。 注意 在 父 进程 中 关闭 管道 的 未 使 用 与 入 站 由 对 于 这 项 扩 术 的 
正常 运转 是 全 天 重要 的 ， 售 则 父 进程 在 试图 从 管道 中 读 取 数据 时 会 家 永远 阻 路 。) 

下 面 是 使 用 程序 清单 44-3 中 的 程序 创建 三 个 分 别 睡眠 4、2 和 6 秒 的 子 进程 时 所 看 到 的 


输出 。 














$ ./pipe sync 4 2 6 


08:22: 
08:22: 
08:22: 
08:22: 
08:22: 


16 
18 
20 
22 
22 


Parent started 

Child 2 (PID-2445) closing pipe 
Child 1 (PID-2444) closing pipe 
Child 3 (PID-2446) closing pipe 
Parent ready to go 


程序 清单 44-3: 使 用 管道 同步 多 个 进程 


pipes/pipe sync.c 


#include "curr time.h" /* Declaration of currTime() */ 
#include "tlpi hdr.h" 


int 


main(int 


argc, char *argv[]) 


int pfd[2]; /* Process synchronization pipe */ 
int j, dummy; 
if (argc < 2 || stremp(argv[1], "--help") == 0) 


usageErr("Xs sleep-time...Nn", argv[0]); 


setbuf(stdout, NULL); /* Make stdout unbuffered, since we 


terminate child with exit() */ 


printf("%s Parent startedWn", currTime("XT")); 
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(D if (pipe(pfd) == -1) 
errExit("pipe"); 


for (j = 1; j < argc; j++) { 
switch (fork()) { 
case -1: 
errExit("fork %d", j); 


case 0: /* Child */ 
if (close(pfd[0]) == -1) /* Read end is unused */ 
errExit("close"); 


/* Child does some work, and lets parent know it's done */ 


sleep(getInt(argv[j], GN NONNEG, "sleep-time")); 
/* Simulate processing */ 
printf("%s Child 4d (PID-Xld) closing pipeWn", 
currTime("5T"), j, (long) getpid()); 
G) if (close(pfd[1]) == -1) 
errExit(" close"); 


/* Child now carries on to do other things... */ 
 exit(EXIT SUCCESS); 


default: /* Parent loops to create next child */ 
break; 


j 
j 


/* Parent comes here; close write end of pipe so we can see EOF */ 


由 if (close(pfd[1]) == -1) /* Write end is unused */ 
errExit("close"); 


/* Parent may do other work, then synchronizes with children */ 


© if (read(pfd[0], &dummy, 1) != 0) 
fatal("parent didn't get EOF"); 
printf("%s Parent ready to go\n", currTime("%T")); 


/* Parent can now carry on to do other things... */ 


exit(EXIT_SUCCESS); 


pipes/pipe_sync.c 


与 前 面 使 用 信号 来 同步 相 比 ， 使 用 管道 同步 其 备 一 个 优势 它 可 以 同 来 协调 一 个 进 
程 的 动作 使 之 与 多 个 其 他 相关)〉 进程 匹配 。 而 多 个 (标准 ) 信号 无 法 排队 的 事实 使 得 信 
写 人 不 适用 于 这 种 情形 。( 相反， 信号 的 优势 是 它 可 以 被 一 个 进程 广播 到 进程 组 中 的 所 有 成 
员 处 。) 

其 他 同步 结构 也 是 可 行 的 (如 使 用 多 个 管道 )。 此 外 ， 还 可 以 对 这 项 技术 进行 扩展 ， 即 不 
关闭 官 道 ， 每 个 子 进 程 向 定 道 与 入 一 条 包含 其 进程 D RI EESTI As Er RET T XE 
程 可 以 癌 常 道 与 入 一 个 学 节 。 父 进程 可 以 计数 和 分 析 这 些 消 息 。 这 种 方法 若 夸 到 了 子 进程 意 
外 终止 而 不 是 显 式 地 关闭 管道 的 情形 。 
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44.4 ”使 用 管道 连接 过 滤器 


当 管 道 被 创建 之 后 ， 为 管道 的 两 冰 分 配 的 文件 描述 符 是 可 用 描述 符 中 数值 最 小 的 两 个 。 由 
于 在 通常 情况 下 ,进程 已 经 使 用 了 描述 符 0、1 和 2， 因此 会 为 管道 分 配 一 些 数值 更 大 的 描述 符 。 
那么 如 何 形成 图 44-1 中 给 出 的 情形 呢 , 使 用 管道 连接 两 个 过 滤 需 ( 即 从 stdin 读 取 和 写 入 到 stdout 
的 程序 ) 使 得 一 个 程序 的 标准 输出 被 定 辣 到 管道 中 , 而 另 一 个 程序 的 标准 输入 则 从 管道 中 读 取 ? 
特别 是 如 何在 不 修改 过 滤器 本 号 的 代码 的 情况 下 完成 这 项 工作 呢 ? 

这 个 问题 的 答案 是 使 用 在 5.5 节 中 介绍 的 技术 ， 即 复制 文件 描述 符 。 一 般 来 讲 会 使 用 下 面 
的 系列 调用 来 获得 预期 的 结 来 。 

int pfd[2]; 
































pipe(pfd); /* Allocates (say) file descriptors 3 and 4 for pipe */ 
/* Other steps here, e.g., fork() */ 


close(STDOUT FILENO); /* Free file descriptor 1 */ 
dup(pfd[1]); /* Duplication uses lowest free file 
descriptor, i.e., fd 1 */ 


Eno e H T dec E AR Xe MERE ES a VE d (A ALD XE 1T EEA o TG] ZIP] — 28 8] 
HH n] AHRR REFE BUE ES ADAE SITES BS Eom. E o 

Hm. Eme He CANE I Y RIS 0、1 和 2. Cshell 38 955 B6 95 0/8 D 2] 
它 执 行 的 每 个 程序 都 打开 了 这 三 个 描述 符 。) 如 果 在 执行 上 面 的 调用 之 前 文件 摘 述 符 0 已 经 被 
关闭 了 ， 那 么 惑 会 错误 地 将 进程 的 标准 输入 绑 定 到 管道 的 写 入 端 上。 为 避免 这 种 情况 的 发 生 ， 
可 以 使 用 dup20 调 用 来 取代 对 close0 和 dupO 的 调用 ， 因 为 通过 这 个 函数 可 以 显 式 地 指定 被 绑 
定 到 管道 一 病 的 描述 符 。 

dup2(pfd[1], STDOUT FILENO); /* Close descriptor 1, and reopen bound 

to write end of pipe */ 

在 复制 完 pfd] Je SUTUH PAL 5| FR EEA ANO] DOCTR TE Y: XR TO 1 和 pfd[1]。 
H FREH BEES XCTETRDAS AE INCL B], KEE dup20 调 用 之 后 需要 关闭 多 余 的 摘 述 符 。 

close(pfd[1]); 

前 面 给 出 的 代码 依赖 于 标准 输出 在 之 前 已 经 家 打开 这 个 事实 。 假 设 在 pipe0 调 用 之 前 ， 标 准 
输入 和 标准 输出 都 被 关 困 了 。 那 么 在 这 种 情况 下 ，pipeO 了 就 会 给 管道 分 配 这 两 个 描述 符 ， 即 pfd[0] 
的 值 可 能 为 0，pfd[ 世 的 值 可 能 为 1。 其 结 朱 是 前 面 的 dup20 和 closeO 调 用 将 下 面 的 代码 等 价 。 

dup2(1, 1); /* Does nothing */ 

close(1); /* Closes sole descriptor for write end of pipe */ 

因此 按照 防御 性 编程 实践 的 要 求 最 好 将 这 些 调用 放 在 一 个 站 语句 中 ， 如 下 所 示 。 


if (pfd[1] != STDOUT FILENO) { 
dup2(pfd[1], STDOUT FILENO); 
close(pfd[1]); 


















































示例 程序 
程序 清单 44-4 使 用 本 市 介绍 的 技术 实现 了 图 44-1 中 给 出 的 结构 。 在 构建 完 一 个 管道 之 后 ， 
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这 个 程序 创建 了 两 个 子 进程 。 第 一 个 子 进程 将 其 标准 给 出 绑 定 到 管道 的 写 入 端 ， 然 后 执行 1s。 
第 二 个 子 进程 将 其 标准 输入 绑 定 到 管道 的 写 入 端 ， 然 后 执行 we。 


程序 清单 44-4: 使 用 管道 连接 Is 和 wc 








pipes/pipe ls wc.c 
include «sys/wait.h» 
include "tlpi hdr.h" 
int 
main(int argc, char *argv[]) 


int pfd[2]; /* Pipe file descriptors */ 


if (pipe(pfd) == -1) /* Create pipe */ 
errExit("pipe"); 


switch (fork()) 1 
case -1: 
errExit(" fork"); 


case 0: /* First child: exec 'ls' to write to pipe */ 
if (close(pfd[0]) == -1) /* Read end is unused */ 
errExit("close 1"); 
/* Duplicate stdout on write end of pipe; close duplicated descriptor */ 


if (pfd[1] !- STDOUT FILENO) { /* Defensive check */ 
if (dup2(pfd[1], STDOUT FILENO) -- -1) 
errExit("dup2 1"); 
if (close(pfd[1]) == -1) 
errExit("close 2"); 


} 
execlp("ls", "Is", (char *) NULL); /* Writes to pipe */ 
errExit("execlp 1s"); 

default: /* Parent falls through to create next child */ 
break; 

} 

switch (fork()) { 

case -1: 


errExit("fork"); 


case 0: /* Second child: exec 'wc' to read from pipe */ 
if (close(pfd[1]) == -1) /* Write end is unused */ 
errExit("close 3"); 


/* Duplicate stdin on read end of pipe; close duplicated descriptor */ 


if (pfd[o] !- STDIN FILENO) { /* Defensive check */ 
if (dup2(pfd[o], STDIN FILENO) == -1) 
errExit("dup2 2"); 
if (close(pfd[0]) == -1) 
errExit("close 4"); 


j 


execlp("wc", "wc", "-l", (char *) NULL); /* Reads from pipe */ 
errExit("execlp wc"); 
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default: /* Parent falls through */ 
break; 


j 


/* Parent closes unused file descriptors for pipe, and waits for children */ 


if (close(pfd[0]) == -1) 
errExit("close 5"); 
if (close(pfd[1]) == -1) 
errExit("close 6"); 
if (wait(NULL) == -1) 
errExit("wait 1"); 
if (wait(NULL) -- -1) 
errExit("wait 2"); 


exit(EXIT SUCCESS); 


——— pipes/pipe ls wc.c 


当 执 行程 序 清单 44-4 中 的 程序 时 会 看 到 下 面 的 输出 。 
$ ./pipe ls wc 








$ 1s | wc -1 Verify the results using shell commands 


44.5 ”通过 管道 与 shell 命令 进行 通信 : popen() 


管道 的 一 个 稼 见 用 途 是 执行 shell 命令 并 旋 取 其 输出 或 回 其 发 送 一 些 输入 。popenO0 和 
pcloseO 函 数 简 化 了 这 个 任务 。 


#include «stdio.h» 











FILE *popen(const char *command, const char *mode); 


Returns file stream, or NULL on error 
int pclose(FILE *stream); 


Returns termination status of child process, or -1 on error 














popenOrR Zi Gl £& f — NEE, AEE P —^7 P T ERERSTA1 shell, m shell 又 创建 了 一 个 
子 进程 来 执行 command ZR. mode Z2ZUE—-rNM. cde Ug TER XE MWerB TEC 
数据 (mode Ær) 还 是 将 数据 写 入 到 管道 中 (mode 是 w)。( 由 于 管道 是 单 向 的 ， 因 此 无 法 在 
执行 的 command 中 进行 双 癌 通信 。) mode 的 取 值 确定 了 所 执行 的 命令 的 标准 输出 是 连接 到 管 
道 的 写 入 闹 还 是 将 其 标准 输入 连接 到 管道 的 读 取 闹 ， 如 图 44-4 所 示 。 


exec() ,7 ~ exec{ ) exec() , s, exec() 
r y i E". ey 


PF 



































调用 进程 命令 调用 进程 


jp | stdout jp - stdin 


a) mode is r b) mode is w 


44-4: 进程 关系 是 popen() 中 管道 的 使 用 概述 
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popen0() 在 成 功 时 会 返回 可 供 stdio FÉ eG Zt fi HH KI LHR E ARERR CUI mode 不 
是 5 或 w， 创 建 管道 失败 ， 或 通过 forkO 创 建 子 进程 失败 )，popen0O 会 返回 NULL 并 设置 errno 
以 标示 出 发 生 错 误 的 原因 。 

在 popen(O) 调 用 之 后 ， 调 用 进程 使 用 管道 来 恋 取 command 的 输出 或 使 用 管道 癌 其 发 送 输 
入 。 与 使 用 pipe0 创 建 的 管道 一 样 ， 当 从 管道 中 读 取 数据 时 ， 调 用 进程 在 command 关闭 管道 
的 写 入 端 之 后 会 看 到 文件 结束 ; 当 问 管道 号 入 数据 时 ， 如 果 command 已 经 关闭 了 管 这 的 读 取 
疝 ， 那 么 调用 进程 会 收 到 SIGPIPE 信号 并 得 到 EPIPE 错误 。 

—H IO 结束 之 后 可 以 使 用 pcloseO0 轴 数 关闭 管道 并 等 待 子 进程 中 的 shell 终止 。( 不 应 该 
使 用 fclose0 函 数 ， 因 为 它 不 会 等 待 子 进程 。) pclose0 在 成 功 时 会 返回 子 进程 中 shell 的 终止 状 
A (EAI 26.1.3 市 )( 即 shell 所 执行 的 最 后 一 条 命令 的 终止 状态 ， 除 非 shell 是 锐 信 与 杀 死 
的 )。 与 system()( 参 见 27.6 节 ) 一 样 ， 如 果 无 法 执行 shell， 那 么 pcloseO 会 返回 一 个 值 就 像 
是 子 进 程 中 的 shell 通过 调用 _exit(127) 来 终止 一 样 。 如果 发 生 了 其 他 错误 , 那么 pcloseO 返 回 
一 1。 其 中 可 能 发 生 的 一 个 错误 是 无 法 取得 终止 状态 ， 本 章 稍 后 就 会 介绍 可 能 会 发 生 这 种 情 
况 的 原因 。 

当 执 行 等 待 以 获取 子 进程 中 shell 的 状态 时 ，SUSv3 要 求 pclose0 与 SystemO 一 样 ， 即 在 内 
部 的 waitpidO 调 用 被 一 个 信号 处 理 器 中 断 之 后 自动 重启 该 调用 。 

一 般 来 讲 ， 在 27.6 节 中 摘 述 的 有 关 SystemgO 的 规范 同样 适用 于 popenO。 使 用 popenO 更 加 
方便 一 些 ， 它 会 构建 管道 、 执 行 描述 符 复 制 、 关 闭 未 使 用 的 摘 述 符 并 帮助 开发 人 员 处 理 fork0O) 
和 exec() 的 所 有 细 方 。 此 外 ，shell 处 理 针对 的 是 命令 。 这 种 便捷 性 所 牺牲 的 是 效率 ， 因 为 至 少 
需要 创建 两 个 额外 的 进程 : 一 种 用 于 shell， 一 个 或 多 个 用 于 shell 执行 的 命令 。 与 system)— 
样 ， 在 特权 进程 中 永远 都 不 应 该 使 用 popen). 

虽然 System(O0 和 popenO 以 及 pclose0 〇 之 间 存 在 很 多 相似 之 处 ， 但 也 存在 显 阁 的 差 寞 。 这 些 
差异 源 自 这 样 一 个 事实 ， 即 使 用 systemOHT shell 命令 的 执行 是 被 封装 在 单个 函数 调用 中 的 ， 
而 使 用 popenO 时 ， 调 用 进程 是 与 shell 命令 并 行 运行 的 ， 然 后 会 调用 pelose). HERA, 
括 以 下 两 个 方面 。 

e 由 于 调用 进程 与 被 执行 的 命令 是 并 行 运行 的 ， 因 此 SUSv3 要 求 popen0 〇 不 忽略 
SIGINT 和 SIGQUIT 信号 。 如 果 这 些 信 号 是 从 键盘 产生 的 ， 那 么 它们 会 被 发 送 到 
调用 进程 和 被 执行 的 命令 中 。 之 所 以 这 样 是 因为 两 个 进程 位 于 同一 个 进程 组 中 ， 
而 由 终端 产生 的 信号 是 会 像 34.5 节 中 描述 的 那样 被 发 送 到 (前 人 台 ) 进程 组 中 的 所 
有 成 员 的 。 

。 由 于 调用 进程 在 执行 popen0 和 执行 pcloseO0 之 间 可 能 会 创建 其 他 子 进程 ， 因 此 SUSv3 
要 求 popen) ARE RÆ SIGCHLD 信号 。 这 意味 看 如 末 调 用 进程 在 pcloseO 调 用 之 前 执 
行 了 一 个 等 每 操作 ,那么 它 束 能 够 取得 由 popenO 创 建 的 和子 进程 的 状态 。 这 样 当 后 面 调 
用 popen0 时 ， 它 就 会 返回 一 1]， 同 时 将 errno 设置 为 ECHILD， 表 示 pclose() 无 法 取得 
子 进程 的 状态 。 



















































































示例 程序 


程序 清单 44-5 演示 了 popen0 和 pcloseO 的 用 法 。 这 个 程序 重复 读 取 一 个 文件 名 通配符 模 
AQ, GEH] popen0 获 取 将 这 个 模式 传 入 ls 命令 之 后 的 结 来 回 。(〈 在 较 早 的 UNIX 实现 上 
会 使 用 类 似 的 技术 执行 文件 名 生成 任务 ， 这 种 技术 也 和 被 称 为 通 配 globbing， 它 在 引入 glob0O 库 
PRA Bii ESTEE T.) 
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程序 清单 44-5: 使 用 popen() 通 配 文 件 名 模式 


pipes/popen glob.c 
itinclude «ctype.h» 
itinclude «limits.h» 
Hinclude "print wait status.h" /* For printWaitStatus() */ 
itinclude "tlpi hdr.h" 


(D #define POPEN FMT "/bin/ls -d %s 2» /dev/null" 
itdefine PAT SIZE 50 
define PCMD BUF SIZE (sizeof(POPEN FMT) + PAT SIZE) 


int 
main(int argc, char *argv[]) 
{ 
char pat[PAT SIZE]; /* Pattern for globbing */ 
char popenCmd[PCMD BUF SIZE]; 
FILE *fp; /* File stream returned by popen() */ 
Boolean badPattern; /* Invalid characters in 'pat'? */ 


int len, status, fileCnt, j; 
char pathname[PATH MAX]; 


for (53) 1 /* Read pattern, display results of globbing */ 
printf("pattern: "); 
fflush(stdout); 
© if (fgets(pat, PAT_SIZE, stdin) == NULL) 
break; /* EOF */ 
len = strlen(pat); 
if (len <= 1) /* Empty line */ 
continue; 
if (pat[len - 1] == '\n') /* Strip trailing newline */ 


pat[len - 1] = '\o'; 


/* Ensure that the pattern contains only valid characters, 
i.e., letters, digits, underscore, dot, and the shell 
globbing characters. (Our definition of valid is more 
restrictive than the shell, which permits other characters 
to be included in a filename if they are quoted.) */ 


© for (j = 0, badPattern = FALSE; j < len && !badPattern; j++) 
if (!isalnum( (unsigned char) pat[j]) && 
strchr(" *?[^-].", pat[j]) == NULL) 
badPattern - TRUE; 


if (badPattern) ( 
printf("Bad pattern character: %c\n", pat[j - 1]); 
continue; 


j 


/* Build and execute command to glob 'pat' */ 


© snprintf(popenCmd, PCMD BUF SIZE, POPEN FMT, pat); 
popenCmd[PCMD BUF SIZE - 1] = 'N0'; /* Ensure string is 
null-terminated */ 
(5) fp = popen(popenCmd, "r"); 
if (fp == NULL) { 
printf("popen() failed\n"); 
continue; 
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j 
/* Read resulting list of pathnames until EOF */ 


fileCnt = 0; 

while (fgets(pathname, PATH MAX, fp) !- NULL) { 
printf("%s", pathname); 
fileCnt++; 

} 


/* Close pipe, fetch and display termination status */ 


status = pclose(fp); 
printf(" 4d matching file%s\n", fileCnt, (fileCnt != 1) ? "s" : ""); 
printf(" pclose() status == %#x\n", (unsigned int) status); 
if (status !- -1) 
printWaitStatus(" Nt", status); 
} 


exit(EXIT SUCCESS); 
} 
pipes/popen glob.c 


下 面 的 shell 会 话 演 示 了 程序 清单 44-5 中 给 出 的 程序 的 用 法 。 在 本 例 中 首先 提供 了 一 个 匹 
配 两 个 文件 名 的 模式 ， 然 后 又 给 出 了 一 个 与 任何 文件 名 都 不 匹配 的 模式 。 


$ ./popen glob 
pattern: popen glob* Matches two filenames 
popen glob 
popen glob.c 
2 matching files 
pclose() status = 0 
child exited, status=0 











pattern: x* Matches no filename 
0 matching files 
pclose() status = 0x100 ls( 1) exits with status 1 
child exited, status-1 
pattern: ^D$ Type Control-D to terminate 








这 里 需要 对 程序 清单 44-5 中 通 配 命令 的 构建 册 D 和 微 解 释 一 下 。 真 正 执行 模式 匹配 的 是 
shell. 1s 命令 仅仅 用 来 列 出 匹配 的 文件 名 ， 每 一 个 行列 出 一 个 。 读 者 可 以 符 试 使 用 echo 命令 ， 
但 当 模 式 与 所 有 文件 名 都 不 匹配 时 这 种 做 法 会 出 现 非 预期 的 结 末 ， 然 后 shell 束 会 保持 模式 不 
变 ， 而 echo 会 向 单 地 打印 出 模式 。 相 反 ， 如 采 传 递 给 ls 的 文件 名 不 存在 ,那么 它 束 会 在 stderr 
(通过 将 stderr 重 定 癌 到 /dev/null 来 丢弃 写 入 这 个 描述 符 中 的 数据 ) 上 打印 出 一 条 错误 消息 ， 
而 不 会 在 stdout 上 打印 出 任何 消 奶 ， 并 且 最 后 的 退出 状态 为 1。 

还 需要 注意 程序 清单 44-5 中 程序 所 做 的 输入 检测 @。 之 所 以 这 样 做 是 为 了 防止 非法 输 
入 引起 popen0 执 行 一 个 预期 之 外 的 shell 命令 。 假 设 急 略 了 这 些 检测 ， 并 且 用 户 输入 了 下 面 
的 输入 。 

pattern: ; rm * 

程序 会 将 下 面 的 命令 传递 给 popen0， 其 结果 是 损失 惨重 。 

/bin/ls -d ; rm * 2» /dev/null 

在 使 用 popen) CX systemO) 执行 根据 用 户 输 入 构建 的 shell 命令 的 程序 中 永远 都 需要 做 
输入 检测 。( 应 用 程序 可 以 选择 另 一 种 方法 ， 即 将 那些 无 需 检 测 的 字符 放 在 引号 中 ， 这 样 shell 
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就 不 会 对 那些 字符 进行 特殊 处 理 了 。) 


44.6 ”管道 和 stdio 缓冲 


由 于 popen(O 调 用 返回 的 文件 流 指 针 没 有 引用 一 个 终端 , 因此 stdio 库 会 对 这 种 文件 流 应 用 
块 缓冲 (参见 13.2 节 )。 这 意味 着 当 将 mode 的 值 设 置 为 w 来 调用 popen0 时 ， 在 默认 情况 下 
只 有 当 stdio 绥 冲 器 被 充满 或 使 用 pclose0 关 闭 了 管道 之 后 输出 才 会 被 发 送 到 管道 另 一 端的 子 
进程 。 在 很 多 情况 下 ， 这 种 处 理 方 式 是 不 存在 问题 的 。 但 如 果 需 要 确保 子 进程 能 够 立即 从 管 
道中 接收 数据 ， 那 么 就 需要 定期 调用 fush0 或 使 用 setbuf(fp,，NULL) 调 用 禁用 stdio 缓冲 。 当 
使 用 pipeO 系 统 调 用 创建 管道 , 然后 使 用 fdopenO 3X BU— T 5 EB] 53 NpGE NET. stdio 流 时 也 
可 以 使 用 这 项 技术 。 

如 果 调 用 popen(O 的 进程 正在 从 管道 中 读 取 数据 〈 即 mode 是 r)， 那么 事情 就 不 是 那么 
简单 了 ,在 这 样 情况 下 如 果子 进程 正在 使 用 stdio Æ, 那么 一 一 除非 它 显 式 地 调用 了 fflush() 
或 setbuf() 一 一 其 输出 只 有 在 子 进程 填 满 stdio 绥 冲 器 或 调用 了 fclose0O) 之 后 才 会 对 调用 进程 
可 用 。( 如 果 正 在 从 使 用 pipe0 创 建 的 管道 中 读 取 数据 并 且 问 男 一 端 写 入 数据 的 进程 正在 
使 用 stdio 库 ， 那 么 同样 的 规则 也 是 适用 的 。) 如 果 这 是 一 个 问题 ， 那 么 能 采取 的 措施 就 
比较 有 限 的 ,除非 能 够 修改 在 子 进程 中 运行 的 程序 的 源 代码 使 之 包含 对 setbuf() EX fflush() 
调用 。 

如 有 条 无 法 修改 源 代 码 ， 那 么 可 以 使 用 伪 终 端 来 丛 换 管道 。 一 个 伪 终 姗 是 一 个 IPC 通道 ， 
对 进程 来 讲 它 就 像 是 一 个 终端 。 其 结果 是 stdio 库 会 逐 行 输出 缓冲 器 中 的 数据 。 第 64 章 将 会 
介绍 伪 终 端 。 






































44.7 FIFO 


从 语义 上 来 讲 ，FIFO 与 管 让 类似 ， 色 人 两 者 之 间 最 天 的 差别 在 于 FIFO 在 文件 系统 申 拥 
有 一 个 名 称 ， 并 且 其 打开 方式 与 打开 一 个 普通 文件 是 一 样 的 。 这 样 就 能 够 将 FIFO 用 于 非 相 关 
进程 之 间 的 通信 (如 客户 端 和 服务 器)。 











一 旦 打开 了 FIFO， 就 能 在 它 上 面 使 用 与 操作 管道 和 其 他 文件 的 系统 调用 一 样 的 IO 系统 
调用 了 【如 read0、write0 和 close0 )。 与 管道 一 样 ，FIFO 也 有 一 个 写 入 端 和 读 取 端 ， 并 且 从 
管道 中 读 取 数据 的 顺序 与 写 入 的 顺序 是 一 样 的 。FIFO 的 名 称 也 由 此 而 来 : 先入 先 出 。FIFO 有 
时 候 也 被 称 为 命名 管道 。 

与 管道 一 样 ， 当 所 有 引用 FIFO 的 描述 符 都 被 关闭 之 后 ， 所 有 未 被 恋 取 的 数据 会 被 丢弃 。 

使 用 mkfifo 命令 可 以 在 shell 中 创建 一 个 FIFO。 

$ mkfifo [ -m mode | pathname 

pathname 是 创建 的 FIFO 的 名 称 ，-m 选项 用 来 指定 权限 mode， 其 工作 方式 与 chmod fy 
令 一 样 。 

HE FIFO 《或 管道 ) 上 调用 fstat0 和 statO 国 数 时 它们 会 在 stat 结构 的 st mode 字段 中 返 
回 一 个 类 型 为 S_ IFIFO 的 文件 (参见 15.1 节 )。 当 使 用 ls -1 列 出 文件 时 ，EFIFO 文件 在 第 一 列 
的 类 型 为 p，1s -F 会 在 FIFO 路 径 名 后 面 附加 上 一 个 管道 待 〈|)。 

mkfifoO PR Zi 6 £ — 44 A pathname 的 全 新 的 FIFO。 
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#include «sys/stat.h» 


int mkfifo(const char *pathname, mode t mode); 


Returns 0 on success, or -1 on error 

















mode 参数 指定 了 新 FIFO 的 权限 。 这 些 权 限 是 通过 将 表 15-4 中 的 音量 取 OR 来 指定 的 。 
与 往常 一 样 ， 这 些 权 限 会 按照 进程 的 umask 值 (参见 15.4.6 节 ) KAHH. 





以 前 创建 FIFO 使 用 的 是 mknod(pathname,S IFIFO, 0) 系 统 调用 。POSIX.1-1990 规定 了 
mkfifoO0， 它 更 加 简单 ， 并 且 消 除了 mknodO 有 具备 的 通用 性 ， 这 种 通用 性 允许 创建 各 种 类 型 
的 文件 ， 包 括 设 备 文 件 。(SUSv3 规定 了 mknod0， 但 并 没有 详细 规定 ， 它 只 定义 了 这 个 函 
数 的 用 途 是 创建 FIFO.) 大 多 数 UNIX 实现 提供 了 mkfifo0， 它 是 构建 于 mknod0 之 上 的 一 
个 库 函 数 。 


一 旦 FIFO 被 创建 任何 进 程 都 能 够 打开 它 ， 只 要 它 能 够 通过 常规 的 文件 权限 检测 (参见 
15.4.3 3), 

打开 一 个 FIFO RREA EX. XU. EH] FIFO 时 唯一 明智 的 做 法 是 在 两 
问 分 别 设置 一 个 读 取 进程 和 一 个 写 入 进程 。 这 样 在 默认 情况 下 , 打开 一 个 FIFO 以 便 读 取 数 据 

Copen) O RDONLY 标记 ) 将 会 阻塞 直到 妃 一 个 进程 打开 FFO 以 写 入 数据 CopenO. 

O WRONLY 标记 刀 为 上 是， 相应 地 ， 打 开 一 个 FIFO 以 写 入 数据 将 会 阻塞 直到 另 一 个 进程 打开 
FIFO 以 读 取 数 据 为 止 。 换 名 话说 , 贡 弄 二 个 FIFEO 会 同步 读 取 进 程 和 写 六 进程 . 如 果 一 个 FIFO 
的 另 一 端 已 经 打 开 《〈 可 能 是 因为 一 对 进程 已 经 打 开 了 FFO 的 两 端 )， 那 么 open0 调 用 会 立即 
成 功 。 

在 大 多 数 UNIX 实现 (包括 Linux). 上 ， 当 打开 一 个 FFO 时 可 以 通过 指定 O_RDWR 标 
记 来 绕 过 打开 FIFO 时 的 阻塞 行为 。 这 样 ，open0 就 会 立即 返回 ， 但 无 法 使 用 返回 的 文件 描述 
符 在 FIFO 上 读 取 和 写 入 数据 ,这 种 做 法 破坏 了 FIFO 的 IO 模型 ,SUSv3 明确 指出 以 O_RDWR 
标记 打开 一 个 FFO 的 结果 是 未 知 的 ， 因 此 出 于 可 移植 性 的 原因 ， 开 发 人 员 不 应 该 使 用 这 项 技 
术 。 对 于 那些 需要 避免 在 打开 FIFO 时 发 生 阻 塞 的 需求 ，open0 的 O_NONBLOCK 标记 提供 了 
一 种 标准 化 的 方法 来 完成 这 个 任务 (参见 44.9 节 )。 























在 打开 一 个 FIFO 时 避免 使 用 O_RDWR 标记 还 有 男 外 一 个 原因 。 当 采用 那 种 方式 调用 
open(O 之 后 ， 调 用 进程 在 从 返回 的 文件 摘 述 符 中 该 取 数据 时 永远 都 不 会 看 到 文件 结束 ， 因 为 
永远 都 至 少 存 在 一 个 文件 摘 述 符 被 打开 着 以 等 待 数 据 被 写 入 FIFO， 即 进程 从 中 读 取 数据 的 
那个 描述 符 。 





使 用 FIFO 和 tee(1) 创 建 双 重 管道 线 

shell 管道 线 的 其 中 一 个 特征 是 它们 是 线性 的 ， 管 道 线 中 的 每 个 进程 都 谈 取 前 一 个 进程 产 
生 的 数据 并 将 数据 发 送 到 其 后 一 个 进程 中 。 使 用 FIFO 惑 能 够 在 管道 线 中 创建 子 进程 ， 这 样 除 
了 将 一 个 进程 的 输出 发 送 给 管道 线 中 的 后 面 一 个 进程 之 外 ， 还 可 以 复制 进程 的 输出 并 将 数据 
发 送 到 男 一 个 进程 中 。 要 完成 这 个 任务 需要 使 用 (病人 空 下 它 将 莫 从 标准 输入 惠 读 取 到 的 数据 
复制 两 份 并 输出 : 一 份 写 入 到 标准 输出 ， 另 一 份 写 入 到 通过 命令 行 参数 指定 的 文件 中 。 
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将 传 给 tee 命 名 的 fle 参 数 设 置 为 一 个 FIFO 可 以 让 两 个 进程 同时 读 取 tee 产 生 的 两 份 数据 。 
下 和 面 的 shell 会 话 演 示 了 这 种 用 法 ， 它 创建 了 一 个 名 为 myfifo 的 FIFO， 然 后 在 后 侣 局 动 一 个 
wc 命令 ， 该 命令 会 打开 FIFO 以 读 取 数据 (这 个 操作 会 阻 至 直人 到 有 进程 打开 FIFO 写 入 数据 为 
止 )， 接 着 执行 一 条 管道 线 将 ls 的 输出 发 送 给 tee, tee 会 将 输出 传递 给 管道 线 中 的 下 一 个 命令 
sort， 同 时 还 会 将 输出 发 送 给 名 为 myfifo 的 FIFO。(sort 的 -k5n 选项 会 导致 1 的 输出 按照 第 五 
个 以 空格 分 隔 的 字段 的 数值 升序 排序 。) 

$ mkfifo myfifo 

$ wc -1 < myfifo & 


$ ls -1 | tee myfifo | sort -ksn 
(Resulting output not shown) 


从 图 表 上 来 看 ， 上 和 面 的 命令 创建 了 图 44-5 中 给 出 的 情形 。 


tee 程序 之 所 以 这 样 命名 是 因为 其 外 形 。 可 以 将 tee 看 成 是 功能 与 管道 类似 的 一 个 实体 ， 
但 名 存在 “ 售 额 外 的 分 交 发 送 写 份 输出 的 副 杰 从 图 表 上 来 看 , 其 形状 像 是 一 个 大 与 字母 T 
(参见 图 44-5)。 除 了 上 面 描述 的 用 途 之 外 ，tee 对 于 管道 线 调 试 和 保存 复杂 管道 线 中 某 些 中 
间 市 点 的 输出 结 末 也 是 非 第 有 用 的 。 

































































44-5: 使 用 FIFO 和 tee(1) 创 建 双重 管道 线 


44.8 使 用 党 让 实现 一 个 客 岂 病 /服务 器 应 用 程序 


本 节 将 介绍 一 个 简单 的 使 用 FIFO 进行 IPC 的 客户 端 /服务 器 应 用 程序 。 服 务 器 提供 的 〈 简 
单 ) 服务 是 问 每 个 发 送 请 求 的 客户 站 赋 一 个 唯一 的 顺序 数字 。 在 对 这 个 应 用 程序 进行 讨论 的 
过 程 中 将 会 介绍 与 服务 右 设 计 有 关 的 一 些 构 念 和 技术 。 


应 用 程序 概述 

在 这 个 示例 应 用 程序 中 ， 所 有 客户 端 使 用 一 个 服务 占 FIFO 来 回 服务 器 发 送 请 求 。 尖 文件 
(程序 清单 44-6) 定义 了 众所周知 的 名 称 (/tmp/seqnum sv)， 服 务 器 的 FIFO 将 使 用 这 个 名 称 。 
这 个 名 称 是 固定 的 ， 因 此 所 有 客户 端 知道 如 何 联 系 到 服务 器 。( 在 这 个 示例 应 用 程序 中 将 会 在 
Amp 目录 中 创建 FIFO， 这 样 在 大 多 数 系统 上 都 能 够 在 不 修改 程序 的 情况 下 方便 地 运行 这 个 程 
序 。 但 正如 在 38.7 节 中 指出 的 那样 ， 在 一 个 像 /tmp 这 样 的 公共 可 写 的 目录 中 创建 文件 可 能 会 
导致 各 种 安全 隐患 ， 因 此 现实 世界 中 的 应 用 程序 不 应 该 使 用 这 种 目录 。) 












































在 客户 端 - 服 务 器 应 用 程序 中 将 会 不 断 地 碰 到 一 个 概念 ， 即 服务 亏 用 来 使 服务 对 客户 志 
可 见 的 众 押 周知 的 地 址 或 名 称 。 对 于 客户 站 如何 知 道 在 何 处 联系 服务 大 这 个 问题 来 讲 ， 使 
用 众所周知 的 地 址 是 一 种 解决 方案 。 为 一 种 可 能 的 解决 方案 古 拓 供 生 种 名 称 服务 器， 服务 如 
可 以 将 它们 的 服务 的 名 称 注册 到 名 称 服 务 器 上 。 然 后 每 个 客户 端 联系 名 称 服务 器 以 获取 服务 
的 位 置 。 这 个 解决 方案 允许 灵活 地 配置 服务 融 的 位 置 ， 而 付出 的 代价 则 是 需要 进行 额外 的 纳 
程 。 当 然 ， 客 户 端 和 服务 豆 需 要 知道 到 何 处 联系 名 称 服务 硕 ， 它 位 于 一 个 众所周知 的 地 址 。 
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无 法 使 用 单个 FIFO I] PP JP Ai. DR e Rte FIFO 中 读 取 数据 时 会 相 
互 竞争 ， 这 样 瓯 可 能 会 出 现 各 个 客户 疹 读 取 到 了 其 他 客户 端的 啊 应 消息 ， 而 不 是 目 己 的 啊 应 消 
息 。 因 此 每 个 客户 端 需要 创建 一 个 唯一 的 FIFO， 服 务 器 使 用 这 个 FIFO 来 向 该 客户 端 递 送 响应 ， 
并 且 服 务 器 需要 知道 如 何 找 出 各 个 客户 端的 FIFO。 解决 这 个 问题 的 一 种 方式 是 让 客户 端 生成 自 
己 的 FIFO 路 径 名 ， 然 后 将 路 径 名 作为 请 求 消息 的 一 部 分 传递 给 服务 器 。 或 者 客户 端 和 服务 器 可 
以 约定 一 个 构建 客户 端 FIFO 路 径 名 的 规则 , 然后 客户 端 可 以 将 构建 自己 的 路 径 名 所 需 的 相关 信 
县 作为 请 求 的 一 部 分 发 送 给 服务 器 。 本 例 中 将 会 使 用 后 面 一 种 解决 方案 。 每 个 客户 端的 FIFO 是 
从 一 个 由 包含 客户 端的 进程 ID 的 路 径 名 构成 的 模板 CLIENT FIFO TEMPLATE) 中 构建 而 来 
的 。 在 生成 过 程 中 包含 进程 ID 可 以 很 容易 地 产生 一 个 对 各 个 客户 端 唯一 的 名 称 。 

图 44-6 展示 了 这 个 应 用 程序 如 何 使 用 FIFO 来 完成 客户 问 和 服务 器 进程 之 间 的 通信 。 

头 文件 (程序 清单 44-60 定义 了 客户 端 发 送 给 服务 器 的 请 求 消息 的 格式 和 服务 器 发 送 给 
客户 端的 响应 消息 的 格式 。 

















































































客户 端 A FIFO py 
de Puy A /tmp/seqnum cl.6514 
(PID=6514) 
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/tmp/seqnum sv 






客户 端 B 
(PID=6523) 


客户 端 B FIFO 
/tmp/seqnum cl.6523 


图 44-6: 在 单 服务 器 、 多 客户 端 应 用 程序 中 使 用 FIFO 








WEE EM FIFO 中 的 数据 是 字 节 党， 消息 之 间 是 没有 边界 的 。 这 意味 看 当 多 条 消息 航 递 
送 到 一 个 进程 中 时 ， 如 本 例 中 的 服务 磺 ， 发 送 者 和 接收 者 必须 要 约定 条 种 规则 来 分 隔 消息 。 
这 可 以 使 用 多 种 方法 。 
。 每 条 消 县 使 用 诸如 换行 符 之 闫 的 分 隅 字符 结束 。(〈 使 用 这 项 技术 的 一 个 例子 是 程序 清 
单 59-1 中 的 readLineO 图 数 。) 这 样 就 必须 要 保证 分 隔 字符 不 会 出 现在 消息 中 或 者 当 它 
出 现在 消息 中 时 必须 要 采用 茶 种 规则 进行 转 义 。 例 如 ， 如 果 使 用 换行 符 作 为 分 隔 符 ， 
那么 字符 \ 加 上 换行 可 以 用 来 表示 消息 中 一 个 真实 的 换行 符 ， 而 \ 则 可 以 用 来 表示 一 个 
真实 的 \。 这 种 方法 的 一 个 人 不足 乙 处 是 读 取 消息 的 进程 在 从 FIFO 中 扫 插 数据 时 必须 要 
未 个 字 市 地 分 析 和 直到 找到 分 隅 从 为 止 。 
。 在 每 条 消息 中 包含 一 个 大 小 固定 的 头 ， 头 中 包 售 一 个 表示 消 轧 长 度 的 字段 ， 该 字段 指 
定 了 消息 中 剩余 部 分 的 长 度 。 这 样 恋 取 进程 贺 需 要 首先 从 FIFO 中 该 取 头 ， 然 后 使 用 
头 中 的 长 度 字 段 来 确定 需 读 取 的 消息 中 剩余 部 分 的 池 节 数 。 这 种 方法 能 够 局 效 地 该 取 
任意 大 小 的 消息 ， 但 一 旦 不 合 规则 《如 销 误 的 lengh 字段 ) 的 消息 被 与 入 到 管道 中 之 
Ja IESU HACK T o 
。 (EHE KJ BITE AAFEERI di S e e ORC AN SERE RETE e « IURE VASCA E T 
fa] FPE, BEX HAARDES DER, RRES EERE CDNDA EE 
对 较 短 的 消息 进行 填充 以 满足 固定 长 度 )。 此 外 ， 如 末 其 中 一 个 客户 端 意外 地 或 故意 
发 送 了 一 条 长 度 不 对 的 消息 ， 那 么 所 有 后 续 的 消 县 都 会 出 现 步 调 不 一 致 的 情况 ， 并 且 
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在 这 种 情况 下 服务 器 是 难以 恢复 的 。 
图 44-7 展示 了 这 三 种 技术 。 注 意 不 管 使 用 这 三 种 技术 中 的 哪 种 ， 每 条 消 县 的 总 长 度 必 须 
要 小 于 PIPE BUF 字 和 以 防止 内 核对 消息 进行 拆 分 ， 从 而 造成 与 其 他 与 者 上 友 送 的 消息 铬 乱 的 
情况 的 发 生 。 


























分 隔 字符 


T m [[w[I| —c« LL 
-— len 字 节 一 


2) 具有 长 度 字段 的 头 


-4— n T 0-4 pg Tq —h--— j YT — 








3) 固定 长 度 的 消息 





44-7: 分 隔 字 节 流 中 的 消息 





E 种 技术 中 ， 所 有 客户 端 发 送 的 所 有 消息 都 会 被 放 在 一 个 通道 (FIFO) 
中 。 另 一 种 方法 是 为 每 条 消息 使 用 一 个 连接 。 发 送 者 打开 通信 通道 ， 发 送 消息 ， 然 后 关闭 
通道 。 n 吉 束 时 就 知道 达到 消息 结尾 了 。 如 果 多 个 写 者 都 打开 了 一 个 
FIFO, 那么 这 种 方法 就 不 可 行 了 ， 因 为 读 取 在 其 中 一 个 写 者 关闭 FIFO 之 后 不 会 看 到 文件 结 
束 。 但 当 使 用 流 socket EB o 可 行 了 ， 因 为 服务 器 进程 会 为 每 个 进入 的 客户 端 
连接 创建 一 个 唯一 的 通信 通 


在 本 章 的 示例 应 用 程序 中 将 使 用 上 面 介绍 的 第 三 种 技术 ， 即 每 个 客户 端 癌 服务 器 发 送 的 消息 
的 长 度 是 固定 的 。 程 序 请 单 44-6 中 的 request 结构 定义 了 消息 。 每 个 发 送 给 服务 器 的 请 求 都 包含 
了 客户 端的 进程 DD， 这 样 服务 器 束 能 够 构建 客户 喘 用 来 接收 啊 应 的 FIFO 的 名 称 了 。 请 求 中 还 包 
含 了 一 个 seqLen 字段 ， 它 指定 了 应 该 为 这 个 客户 端 分 配 的 序号 的 数量 。 服 务 器 辐 客 户 端 发 送 的 响 
应 消息 由 一 个 字段 seqNum 构成 ， 它 是 为 这 个 客户 疹 分 配 的 一 组 序号 的 起 始 值 。 


















































程序 清单 44-6: fifo seqnum server.c 和 fifo seqnum client.c 的 头 文件 


pipes/fifo seqnum.h 
#include «sys/types.h» 
include «sys/stat.h» 
include «fcntl.h» 
#include "tlpi hdr.h" 


#define SERVER FIFO "/tmp/seqnum sv" 
/* Well-known name for server's FIFO */ 
#define CLIENT FIFO TEMPLATE "/tmp/seqnum cl.%ld" 
/* Template for building client FIFO name */ 
itdefine CLIENT FIFO NAME LEN (sizeof(CLIENT FIFO TEMPLATE) + 20) 
/* Space required for client FIFO pathname 
(+20 as a generous allowance for the PID) */ 


struct request { /* Request (client --» server) */ 
pid t pid; /* PID of client */ 
int seqLen; /* Length of desired sequence */ 
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struct response { /* Response (server --» client) */ 
int seqNum; /* Start of sequence */ 
pipes/fifo seqnum.h 


服务 器 程序 


Hi. 


程序 清单 44-7 是 服务 器 的 代码 。 这 个 服务 器 doliis 

e 创建 服务 器 的 众所周知 的 FEHIFOGD 并 打开 FIFO MURER. Hs oS d CETERI Hija 
行 ， 这 样 服务 器 FIFO 在 客户 端 试图 打开 它 之 前 就 已 经 存在 了 。 openO 调 用 将 会 阻 
KASEMA mr T Hd IJ FFO 的 另 一 病 以 与 入 数据 为 止 。 

。 再 次 打开 服务 器 的 FIFOGO， 这 次 是 为 了 写 入 数据 。 这 个 调用 永远 不 会 锌 阻塞 ， 因 为 
之 前 已 经 因 需 该 取 而 打 开 FIFO 了 。 第 二 个 打开 操作 是 为 了 确保 服务 器 在 所 有 客户 剖 
关闭 了 FIFO 的 写 入 端 之 后 不 会 看 到 文件 结束 。 

。 忽略 SIGPIPE 信号 (4)， 这 样 如 果 服 务 右 试图 同一 个 没有 读者 的 客户 问 FIFO 写 入 数据 
时 不 会 收 到 SIGPIPE 信和 号 《默认 会 杀 死 进程 )， 而 是 会 从 writeO 系 统 调用 中 收 到 一 个 
EPIPE 错误 。 

e 进入 一 个 循环 从 每 个 进入 的 客户 问 请 求 中 该 取 数 据 并 啊 应 号 。 要 发 送 啊 上 应， 服务器 需 
要 构建 客户 六 FIFO 的 名 称 (@)， 然 后 打开 这 个 FIFOCO. 

e 如果 服 务 器 在 打开 客户 问 FIFO 时 发 生 了 错误 ， 那 么 就 丢弃 那个 客户 闹 的 请 求 (8@)。 

这 是 一 种 迭代 式 服 务 占 ， 这 种 服务 占 会 在 读 取 和 处 理 完 当 前 客户 端 之 后 才 会 去 处 理 下 一 个 客户 

当 每 个 客户 问 请 求 的 处 理 和 啊 应 都 能 够 快速 完成 时 采用 这 种 迭代 式 服 务 器 设计 是 合理 的 ， 因 为 


















































不 会 对 其 他 客户 端 请 求 的 处 理 产 生 延迟 。 另 一 种 设计 方 VET Pen Ret de. ERP P HEBR dS 
进程 使 用 单独 的 子 进 程 ( 或 线程 ) 来 处 理 各 个 客户 问 的 请 求 。 第 00 SCREERANTTTRHROS SR DC o 
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清单 44-7: 使 用 FIFO 的 迭代 式 服 务 器 


pipes/fifo seqnum server.c 


#include «signal.h» 
#include "fifo seqnum.h" 


int 
main(int argc, char *argv[]) 


int serverFd, dummyFd, clientFd; 

char clientFifo[CLIENT FIFO NAME LEN]; 

struct request req; 

struct response resp; 

int seqNum = O; /* This is our "service" */ 
/* Create well-known FIFO, and open it for reading */ 


umask(0); /* So we get the permissions we want */ 
(D if (mkfifo(SERVER FIFO, S IRUSR | S IWUSR | S IWGRP) == - 
&& errno !- EEXIST) 
errExit("mkfifo %s", SERVER FIFO); 
Q serverFd - open(SERVER FIFO, O RDONLY); 
if (serverFd -- -1) 
errExit("open Xs", SERVER FIFO); 


/* Open an extra write descriptor, so that we never see EOF */ 
e dummyFd = open(SERVER FIFO, O WRONLY); 
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if (dummyFd == -1) 
errExit("open Xs", SERVER FIFO); 


(4) if (signal(SIGPIPE, SIG IGN) -- SIG ERR) 
errExit(" signal"); 


(5) for (55) ( /* Read requests and send responses */ 
if (read(serverFd, &reg, sizeof(struct request)) 
l= sizeof(struct request)) { 
fprintf(stderr, "Error reading request; discardingWn"); 
continue; /* Either partial read or error */ 


j 


/* Open client FIFO (previously created by client) */ 


snprintf(clientFifo, CLIENT FIFO NAME LEN, CLIENT FIFO TEMPLATE, 


(long) req.pid); 
clientFd = open(clientFifo, O WRONLY); 


if (clientFd == -1) ( /* Open failed, give up on client */ 
errMsg("open Xs", clientFifo); 
continue; 
} 


/* Send response and close FIFO */ 


resp.seqNum = seqNum; 
if (write(clientFd, &resp, sizeof(struct response)) 
l= sizeof(struct response)) 
fprintf(stderr, "Error writing to FIFO XsWn", clientFifo); 
if (close(clientFd) -- -1) 
errMsg("close"); 


seqNum += req.seqLen; /* Update our sequence number */ 


pipes/fifo seqnum server.c 
客户 端 程序 
程序 清单 44-8 是 客户 端的 代码 。 客 户 端 按 序 完成 了 下 面 的 工作 。 
。 创建 一 个 FIFO 以 从 服务 器 接收 响应 己 。 这 项 工作 是 在 发 送 请 求 之 前 完成 的 ， 这 样本 
能 确 你 FIFO 在 服务 占 试 图 打开 它 并 癌 其 发 送 啊 应 消 晨 之 前 束 已 经 存在 了 。 

。 斧 建 一 条 肥 给 服务 器 的 消息 ， 消 息 中 包含 了 和 客 己 端的 进程 ID 和 一 个 指定 了 客户 噶厦 
望 服务 器 赋 给 它 的 序号 长 度 的 数字 《〈 从 可 选 的 命令 行 参数 中 获取 ) 由 。( 如 宁 没 有 提 
供 命令 行 参数 ， 那 么 默认 的 序号 长 度 是 1。) 

。 打开 服务 占 FIFO@O 并 将 消息 发 送 给 服务 硕 \@)。 

。 打开 客户 站 FIFOCD， 人 然后 该 取 和 打印 服务 礁 的 啊 应 (@)。 

为 一 个 需要 注 间 的 地 方 是 通过 atexitOG) 建 立 的 退出 处 理 融 山 ， 它 确信 了 当 进 程 退出 之 后 
客户 端的 FIFO 会 被 删除 。 或 者 可 以 在 客户 端 FIFO 的 open0 调 用 之 后 立即 调用 unlinkO 。 在 那 
个 时 刻 这 种 做 法 是 能 够 正 币 工作 的 ， 因 为 它们 者 执行 了 阻 蹇 的 openO 调 用 , HL i Reg JP nie 
目 持 有 了 FIFO 的 打开 看 的 文件 描述 符 ， 而 从 文件 系统 中 删除 FIFO 名 称 不 会 对 这 些 描述 符 以 
及 它们 所 引用 的 打开 痢 的 文件 描述 符 产 生 影 啊 。 

下 面 是 运行 这 个 客户 站 和 服务 器 程序 时 看 到 的 和 输出。 
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$ ./fifo seqnum server & 

[1] 5066 

$ ./fifo seqnum client 3 Request a sequence of three numbers 
0 Assigned sequence begins at O 

$ ./fifo seqnum client 2 Request a sequence of two numbers 
3 Assigned sequence begins at 了 

$ ./fifo seqnum client Request a single number 

5 


程序 清单 44-8: FERSAN im 
pipes/fifo seqnum client.c 
include "fifo seqnum.h" 


static char clientFifo[CLIENT FIFO NAME LEN]; 


static void /* Invoked on exit to delete client FIFO */ 
GD removeFifo(void) 


unlink(clientFifo); 
} 


int 
main(int argc, char *argv[]) 
{ 
int serverFd, clientFd; 
struct request req; 
struct response resp; 
if (argc > 1 8& strcmp(argv[1], "--help") == O) 
usageErr("$s [seq-len...]Nn", argv[0]); 


/* Create our FIFO (before sending request, to avoid a race) */ 


umask (0) ; /* So we get the permissions we want */ 
Q snprintf(clientFifo, CLIENT FIFO NAME LEN, CLIENT FIFO TEMPLATE, 


(long) getpid()); 
if (mkfifo(clientFifo, S IRUSR | S IWUSR | S IWGRP) -- -1 
&& errno !- EEXIST) 
errExit("mkfifo 4s", clientFifo); 


© if (atexit(removeFifo) != 0) 
errExit("atexit"); 


/* Construct request message, open server FIFO, and send request */ 


(4) req.pid = getpid(); 
req.seqLen = (argc > 1) ? getInt(argv[1], GN GT 0, "seq-len") : 1; 


© serverFd = open(SERVER FIFO, O WRONLY); 


if (serverFd == -1) 
errExit("open Xs", SERVER FIFO); 


(6) if (write(serverFd, &req, sizeof(struct request)) !- 
sizeof(struct request)) 
fatal("Can't write to server"); 
/* Open our FIFO, read and display response */ 
JW) clientFd = open(clientFifo, O RDONLY); 
if (clientFd -- -1) 
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errExit("open Xs", clientFifo); 


(8) if (read(clientFd, &resp, sizeof(struct response)) 
l= sizeof(struct response)) 
fatal("Can't read response from server"); 


printf("%d\n", resp.seqNum); 
exit(EXIT SUCCESS); 


pipes/fifo seqnum client.c 


44.9 非 阻塞 MO 


前 面 曾经 提 过 当 一 个 进程 打开 一 个 FIFO HJ— nm, WR FIFO 的 另 一 问 还 没有 被 打开 ， 
那么 该 进程 会 被 阻 堵 。 但 有 些 时 候 阻 堵 并 不 是 期 鹿 的 行为 ,而 这 可 以 通过 在 调用 openO 时 指定 
O NONBLOCK 标记 来 实现 。 

fd = open("fifopath", O RDONLY | O NONBLOCK); 

if (fd == -1) 

errExit("open"); 

如 果 FIFO 的 另 一 端 已 经 被 打开 ， 那 么 O NONBLOCK 对 open0 调 用 不 会 产生 任何 影响 
它 会 像 往 和 常 一 样 立 即 成 功 地 打开 FIFO,. RAH FFO 的 另 一 问 还 没有 被 打开 的 时 候 
O NONBLOCK 标记 才 会 起 作用 ， 而 具体 产生 的 影响 则 依赖 于 打开 FFO 是 用 于 恋 取 还 是 用 于 
HAIR. 

e 如 果 打 开 FIFO 是 为 了 读 取 , FH. FIFO 的 写 入 端 当前 已 经 被 打开 ， 那 么 openi H] 

SEBI EJ ORZ FIFO 的 另 一 端 已 经 被 打开 一 样 )。 

e 如 采 打 开 FIFO 是 为 了 写 入 , 并且 还 没有 打开 FFO 的 另 一 站 来 谈 取 数据 ， 那 么 openO 

调用 会 失败 ， 并 将 errno 设置 为 ENXIO。 

为 证 取 而 打 开 FIFO 和 为 写 入 而 打开 FIFO 时 O NONBLOCK 标记 所 起 的 作用 不 同 是 有 原 
BJ. 24 FIFO 的 男 一 个 闹 没 有 写 者 时 打开 一 个 FIFO 以 便 读 取 数据 是 没有 问题 的 ， 因 为 任何 
试图 从 FIFO 读 取 数据 的 操作 都 不 会 返回 任何 数据 。 但 当 试 图 问 没 有 读者 的 FIFO 中 写 入 数据 
时 将 会 导致 SIGPIPE 信和 号 的 产生 以 及 write0 返 回 EPIPE 错误 。 

K 44-1 对 打开 FIFO 的 语义 进行 了 总 结 ， 包 括 上 面 介 绍 的 O NONBLOCK 标记 的 作用 。 


表 44-1: 在 FIFO 上 调用 open() 的 语义 


open() 类 型 open() 的 结果 


打开 的 目的 额外 标记 FIFO 另 一 端的 打开 操作 | FIFO 另 一 端的 关闭 操作 
读 取 
EET 


在 打开 一 个 FIFO 时 使 用 O NONBLOCK 标记 存在 两 个 目的 。 
e 它 人 允许 蛙 个 进程 打开 一 个 FFO 的 两 端 。 这 个 进程 肯 先 会 在 打开 FIFO 时 指定 
O NONBLOCK 标记 以 便 读 取 数据 ， 接 着 打开 FIFO 以 便 写 入 数据 。 
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o 它 防 止 打开 两 个 FIFO 的 进程 之 间 产 生死 锁 。 

当 两 个 或 多 个 进程 中 每 个 进程 都 因 等 符 对 方 完成 示 个 动作 而 阻 压 时 会 产生 死 锁 。 图 44-8 
给 出 了 两 个 进程 发 生死 锁 的 情形 。 各 个 进程 都 因 等 竺 打开 一 个 FIFO 以 便 读 取 数据 而 阻 窒 。 如 
琳 各 个 进 朱 划 那 个 部 可 以 执行 其 第 二 个 步 怒 (打开 为 一 个 FFO 以 便 写 入 数据 ) 的 话 束 不 会 发 
生 阻塞 。 这 个 特定 的 死 锁 问 题 是 通过 站 倒 进程 Y 中 的 步骤 1 和 步骤 2 并 保持 进程 X 中 两 个 步 
又 的 顺序 不 变 来 解决 ， 反 乙 尔 然 。 但 在 一 些 应 用 程序 中 进行 这 样 的 调整 可 能 并 不 容易 。 相 反 ， 
可 以 通过 在 为 谈 取 而 打开 FIFO 时 让 其 中 一 个 进程 或 两 个 进程 都 指定 O NONBLOCK 标记 来 
解决 这 个 问题 。 




















进程 X 进程 Y 
1. 打开 FIFO A 准备 读 取 块 l. 打开 FIFO B 准备 读 取 块 
2. 打开 FIFO B 准备 写 入 2. 打开 FIFO A 准备 写 入 


44-8: 打开 两 个 FIFO 的 进程 之 间 的 死 锁 


非 阻 塞 read() 和 write() 


O NONBLOCK 标记 不 仅 会 影响 open(O) 的 语义 , 而 且 还 会 影响 一 一 因为 在 打开 的 文件 描述 
中 这 个 标记 仍然 被 设置 着 一 一 后 续 的 read0 和 writeO 调 用 的 语义 。 下 一 节 将 会 对 这 些 影 响 进 行 
描述 。 
有 些 时 候 需 要 修改 一 个 已 经 打开 的 FIFO (或 男 一 种 类 型 的 文件 ) 的 O_ NONBLOCK 标记 
的 状态 ， 有 基体 存在 这 个 需求 的 场景 包括 以 下 几 种 。 
。 使 用 O NONBLOCK 打开 了 一 个 FIFO 但 需要 让 后 续 的 read0 和 writeO 调 用 在 阻塞 模 
AT 
。 需要 局 用 从 pipeO 返 回 的 一 个 文件 描述 符 的 非 阻 塞 模式 。 更 一 般 地 ， 可 能 需要 更 改 从 
ER openO 调 用 之 外 的 其 他 调用 中 一 一 如 每 个 由 shel 运行 的 新 程序 中 目 动 被 打开 的 三 个 
标准 摘 述 符 的 其 中 一 个 或 socketO 返 回 的 文件 摘 述 符 一 一 取得 的 任意 文件 描述 符 的 非 
阻塞 状态 。 
e 出 于 一 些 应 用 程序 的 特殊 需求 , 需要 切换 一 个 文件 描述 符 的 O_ NONBLOCK 设置 的 开 
局 和 关闭 状态 。 
当 合 到 上 面 的 需求 时 可 以 使 用 fcnt10 局 用 或 禁用 打开 看 的 文件 的 O NONBLOCK 状态 标 
记 。 通 过 下 面 的 代码 (忽略 的 错误 检查 ) 可 以 启用 这 个 标记 。 









































int flags; 

flags = fcntl(fd, F GETFL); /* Fetch open files status flags */ 
flags |= O NONBLOCK; /* Enable O NONBLOCK bit */ 
fcntl(fd, F SETFL, flags); /* Update open files status flags */ 


通过 下 和 面 的 代码 可 以 禁用 这 个 标记 。 
flags = fcntl(fd, F GETFL); 
flags &- ~O NONBLOCK; /* Disable O NONBLOCK bit */ 
fcntl(fd, F SETFL, flags); 


44.10 管道 和 FIFO 中 read() 和 write() 的 语义 
K 44-2 对 管道 和 FIFO 上 的 read0 操 作 进 行 了 总 结 ， 包 括 O NONBLOC 标记 的 作用 。 
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R 44-2: 从 一 个 包含 p 字 节 的 管道 或 FIFO PRR n 字 节 的 语义 


是 否 启用 管道 或 FIFO 中 可 用 的 数据 字 节 (p) 


O_NONBLOCK | p=0， 写 入 端 打开 | p = 0， 写 入 端 关闭 p >=a 


是 失败 CEAGAIND 返回 0 (EOF) 读 取 mn 字 节 








只 有 当 没 有 数据 并 且 写 入 端 没 有 被 打开 时 阻塞 和 非 阻 塞 读 取 之 间 才 存在 差别 。 在 这 种 情 
W Fo FMH read0 会 被 阻塞 ， 而 非 阻塞 read0 会 失败 并 返回 EAGAIN 错误 。 

当 O NONBLOCK 标记 与 PIPE BUF 限制 共同 起 作用 时 O_NONBLOCK 标记 对 象 管道 或 
FIFO 写 入 数据 的 影响 会 变 得 复杂 。 表 44-3 对 write0 的 行为 进行 了 总 结 。 








表 44-3: 向 一 个 管道 或 FIFO 写 入 n 字 节 的 语义 









是否 读 取 端 打开 
i 

原子 地 写 入 n 字 节 ; 可 能 | 写 入 n 字 节 ; 可 能 阻塞 ， 直 到 足够 的 

a 阻塞 ， 直 到 足够 的 数据 被 | 数据 被 恋 取 以 便 结 束 write: 数据 可 
读 取 以 便 继 续 执行 write() | 能 会 与 其 他 进程 写 入 的 数据 发 生 交叉 

SIGPIPE + 

MRTE A n | 总 末代 国生 以 号 人 入 二 苦于 玫 ” 沙龙 EPIPE 

是 FH, WA write0 会 原子 | 写 入 的 子 市 数 在 1 到 n 之 间 〈 可 能 


地 成 功 ; 否则 就 失败 | 会 与 其 他 进程 写 入 的 数据 发 生 交 
(EAGAIN) X); 否则 write0 会 失败 (EAGAIN) 





当 数 据 无 法 立即 被 传输 时 O_NONBLOCK 标记 会 导致 在 一 个 管道 或 FIFO 上 的 writeO 失 
败 ( 错 误 是 EAGAIN)。 这 意味 着 当 写 入 了 PIPE BUF 字 节 之 后 ， 如 果 在 管道 或 FIFO 中 没有 
足够 的 空间 了 ， 那 么 write0 会 失败 ， 因 为 内 核 无 法 立即 完成 这 个 操作 并 且 无 法 执行 部 分 写 入 ， 
否则 就 会 破坏 不 超过 PIPE BUF 字 节 的 写 入 操作 的 原子 性 的 要 求 。 

当 一 次 号 入 的 数据 量 超 过 PIPE BUF 学 节 时 ， 该 写 入 操作 无 需 是 原子 的 。 因 此 ，write() 
会 尽 可 能 多 地 传输 字 节 (部 分 写 ) 以 充满 管道 或 FIFO。 在 这 种 情况 下 ， 从 write0 返 回 的 值 是 
实际 传输 的 字 节 数 ， 并 且 调 用 者 随后 必须 要 进行 重 试 以 写 入 剩余 的 字 节 。 但 如 果 管 道 或 FIFO 
己 经 满 了 ， 从 而 导致 哪 介 连 一 个 字 节 都 无 法 传输 了 ,那么 write0 会 失败 并 返回 EAGAIN 错误 。 


























44.11 总 结 


管道 是 UNIX 系统 上 出 现 的 第 一 种 IPC 方法 ，shell 以 及 其 他 应 用 程序 经 常会 使 用 管 
。 管 道 是 一 个 单项 、 容 量 有 限 的 字 节 流 ， 它 可 以 用 于 相关 进程 之 间 的 通信 。 尺 管 写 入 
道 的 数据 块 的 大 小 可 以 是 任意 的 ， 但 只 有 那些 写 入 的 数据 量 不 超过 PIPE BUF 字 节 的 
写 入 操作 才 被 确保 是 原子 的 。 除 了 是 一 种 IPC 方法 之 外 ， 管 道 还 可 以 用 于 进程 同步 。 
在 使 用 管道 时 必须 要 小 心地 关闭 未 使 用 的 描述 符 以 确保 读 取 进程 能 够 检测 到 文件 结束 和 
写 入 进程 能 够 收 到 SIGPIPE 信和 号 或 EPIPE 错误 。 (通常 , 最 简单 的 做 法 是 让 癌 管 道 写 入 数据 的 
应 用 程序 忽略 SIGPIPE 并 通过 EPIPE 错误 检测 管道 是 否 “ 坏 了 ”.) 
popen0 和 pcloseO 函 数 允 许 一 个 程序 同一 个 标准 shell 命令 传输 数据 或 从 中 读 取 数据 ， 而 
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无 需 处 理 创 建 管道 、 执 行 shell UKR Pr] AR fs FH IRI OCT ERAS IT 293 o 

FIFO 除了 mkfifo0 创 建 和 在 文件 系统 中 存在 一 个 名 称 以 及 可 以 被 拥有 合适 的 权限 的 任意 
进程 打开 之 外 ， 其 运作 方式 与 管道 完全 一 样 。 在 默认 情况 下 ， 为 读 取 数据 而 打开 一 个 FFO 会 
被 阻塞 直到 另 一 个 进程 为 写 入 数据 而 打开 了 该 FIFO， 反 之 永 然 。 

本 章 讨 论 了 几 个 相关 的 主题 。 首 先 介 绍 了 如 何 复制 文件 描述 符 使 得 一 个 过 滤器 的 标准 和 输 
入 或 输出 可 以 被 绑 定 到 一 个 管道 上 。 在 介绍 使 用 FFO 构建 一 个 客户 闯 - 服 务 器 的 例子 中 介绍 
了 几 个 与 客户 端 -服务 髓 设计 相关 的 主题 ， 包 括 为 服务 髓 使 用 一 个 众所周知 的 地 址 以 及 迭代 式 
服务 器 设计 和 并 发 服务 器 设计 之 间 的 对 比 。 在 开发 示例 FFO 应 用 程序 时 提 到 尽管 通过 管道 传 
输 的 数据 是 一 个 字 节 流 ， 但 有 时 候 将 数据 打包 成 消息 对 于 通信 来 讲 也 是 有 用 的 ， 并 且 介 绍 了 
几 种 将 数据 打包 成 消息 的 方法 。 

最 后 介绍 了 在 打开 一 个 FIFO 并 执行 IO 时 O_NONBLOCK 标记 (〈 非 阻塞 IO) 的 影响 。 
O NONBLOCK 标记 对 于 在 打开 FFO 时 不 布 望 阻 塞 来 讲 是 有 用 的 ， 同 时 对 读 取 操作 在 没有 
数据 可 用 时 不 阻塞 或 在 写 入 操作 在 管道 或 FIFO 没有 足够 的 空间 时 不 阻塞 也 是 有 用 的 。 


更 多 信息 
[Bach, 1986] 和 [Bovet & Cesati, 2005] 讨 论 了 管道 的 实现 。 有 关 管 道 和 FIFO 的 有 用 细节 还 
可 以 在 [Vahalia, 1996] 中 找到 。 












































44.12 2] 


44-1. 编写 一 个 程序 使 之 使 用 两 个 管道 来 启用 父 进程 和 子 进 程 之 间 的 双 回 通信 。 父 进程 应 
该 循环 从 标准 输入 中 读 取 一 个 文本 块 并 使 用 其 中 一 个 管道 将 文本 发 送 给 子 进程 , T 
进程 将 文本 转换 成 大 写 并 通过 另 一 个 管道 将 其 传 回 给 父 进程 。 父 进程 读 取 从 子 进 程 
过 来 的 数据 并 在 继续 下 一 个 循环 之 前 将 其 反馈 到 标准 输出 上 。 

44-2. 实现 popen0 和 pcloseO0。 尽 管 这 些 函 数 因 无 需 完 成 在 SystemO 实 现 〈 人 参见 27.7 W) 
中 的 信号 处 理 而 得 到 了 简化 , 但 需要 小 心地 将 管道 两 端正 确 绑 定 到 各 个 进程 的 文件 
流 上 并 确保 关闭 所 有 引用 管道 两 端的 未 使 用 的 描述 符 。 由 于 通过 多 个 popenO 调 用 
创建 的 子 进程 可 能 会 同时 运行 ， 因 此 需要 需要 维护 一 个 将 popenO 分 配 的 文件 流 与 
相应 的 子 进程 ID 关联 起 来 的 数据 结构 。( 如 果 使 用 数组 ， 那 么 可 以 将 包 eno0 函 数 
的 返回 值 作为 数组 的 下 标 ， 这 个 函数 能 够 取得 与 一 个 文件 流 对 应 的 文件 描述 符 。) 
从 这 个 结构 中 取得 正确 的 进程 ID 使 得 pclose0 能 够 选择 需 等 竺 的 子 进程 。 这 个 结构 
还 满足 了 SUSv3 的 要 求 ， 即 在 新 的 子 进 程 中 必须 要 关闭 所 有 通过 之 前 的 popenO 调 
用 仍然 打开 着 的 文件 流 。 

44-3. 程序 清单 44-7 中 的 服务 器 (fifo seqnum serverc) 每 次 在 启动 时 都 会 从 序号 0 开始 
赋 序 号 值 。 修 改 程序 使 它 使 用 一 个 在 每 次 赋 序 号 时 都 会 更 新 的 备份 文件 。( 在 4.3.1 
节 中 介绍 的 open) O SYNC 标记 可 能 会 有 用 。) 在 启动 时 ， 程 序 应 该 检查 这 个 文件 
是 否 存在 ， 如 果 存 在 的 话 就 使 用 其 中 包含 的 值 来 初始 化 序号 。 如 果 在 启动 时 没有 找 
到 备份 文件 ， 那 么 程序 应 该 创建 一 个 新 文件 并 从 0 开始 赋 序 号 。( 另 一 种 方法 是 使 
用 在 49 章 中 介绍 的 内 存 映 射 文件 。) 

44-4. 在 程序 清单 44-7 中 的 服务 器 (fifo seqnum server.c) 中 添加 代码 使 它 在 收 到 SIGINT 
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44-5. 


44-6. 


44-7. 


或 SIGTERM 信号 时 删除 服务 器 FIFO 并 终止 。 

程序 清单 44-7 中 的 服务 器 (fifo seqnum serverc) 在 FIFO 上 执行 第 二 次 带 
O WRONLY 标记 的 打开 操作 使 之 在 从 FIFO 的 读 取 描 述 符 (serverFd) 中 读 取 数据 
时 永远 不 会 看 到 文件 结束 。 除 了 这 种 做 法 之 外 ， 还 可 以 尝试 男 一 种 方法 : 当 服 务 器 
在 读 取 描述 符 中 看 到 文件 结束 时 关闭 这 个 描述 符 ， 然 后 再 次 打开 FIFO 以 便 读 取 数 
据 。( 这 个 打开 操作 将 会 阻塞 直到 下 一 个 客户 问 因 写 入 而 打开 FFO 为 止 。) 这 种 方 
法 错 在 哪里 了 ? 

程序 清单 44-7 中 的 服务 器 (fifo_seqnum_server.c) 假 设 客户 端 进程 的 行为 是 正常 的 。 
如 果 一 个 行为 异常 的 客户 端 创建 了 一 个 客户 端 FIFO 和 回 服 务 器 发 送 了 一 个 请 求 , 但 
并 没有 打开 其 FIFO, 那么 服务 器 在 打开 客户 问 的 FIFO 时 将 会 被 阻塞 ,从 而 造成 其 
他 客户 并 的 请 求 被 无 限 延 运 。( 如 果 是 恶意 的 ， 那 么 束 可 以 认定 为 Dos 攻击。) i 
计 一 个 模型 来 解决 这 个 问题 ， 对 服务 器 (可 能 还 要 加 上 程序 清单 44-8 中 的 客户 端 ) 
进行 相应 的 扩展 。 

编写 程序 验证 FIFO 上 非 阻塞 打开 和 非 阻塞 IO 的 操作 (参见 44.9 节 )。 
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EH 


System V IPC 介绍 


System V IPC 包括 三 种 不 同 的 进程 间 通 信 机 制 。 
e 消息 队列 用 来 在 进程 之 间 传 递 消息 。 消 息 队 列 与 管道 有 点 像 ， 但 存在 两 个 重大 差别 。 
第 一 是 消息 队列 是 存在 边界 的 ， 这 样 读者 和 写 者 之 间 以 消息 进行 通信 ， 而 不 是 通过 无 
分 隔 符 的 字 节 流 进 行 通信 的 。 第 二 是 每 条 消息 包括 一 个 整 型 的 type 字段 ， 并 且 可 以 通 
过 类 型 类 选择 消 奶 而 无 需 以 消 奶 被 写 入 的 顺序 来 读 取 消 恩 。 
e 信号 量 允 许多 个 进程 同步 它们 的 动作 。 一 个 信号 量 是 一 个 由 内 核 维护 的 整数 值 ， 它 对 
所 有 具备 相应 权限 的 进程 可 见 。 一 个 进程 通过 对 信号 量 的 值 进行 相应 的 修改 来 通知 其 
他 进程 它 正 在 执行 某 个 动作 。 
e 共享 内 存 使 得 多 个 进程 能 够 共享 内 存 〈 即 同 被 映射 到 多 个 进程 的 虚拟 内 存 的 页 帧 ) 的 
同一 块 区 域 ( 称 为 一 个 段 )。 由 于 访问 用 户 空间 内 存 的 操作 是 非常 快 的 ， 因 此 共享 内 
存 是 其 中 一 种 速度 最 快 的 IPC 方法 : 一 个 进程 一 旦 更 新 了 共享 内 存 ， 那 么 这 个 变更 会 
立即 对 共享 同一 个 内 存 段 的 其 他 进程 可 见 。 
这 三 种 IPC 机 制 在 功能 上 存在 着 很 大 的 差异 ， 但 把 它们 放 在 一 起 讨论 是 有 原因 的 。 其 中 
一 个 原因 是 它们 是 一 同 被 开发 出 来 的 ， 它 们 在 20 世纪 70 年 代 后 期 首次 出 现在 了 Columbus 
UNIX 系统 中 。 这 是 Bell 内 部 实现 的 一 种 UNIX， 用 于 运行 电话 公司 记录 保存 和 管理 过 程 中 用 
到 的 数据 库 和 事物 处 理 系统 。 在 1983 年 左右 ， 这 些 IPC 机 制 出 现在 了 主流 的 System V UNIX 
系统 上 一 -System V IPC 的 名 称 由 此 而 来 。 
将 System V IPC 机 制 放 在 一 起 讨论 的 一 个 更 加 重要 的 原因 是 它们 的 编程 接口 都 具备 一 些 
特征 ， 因 此 很 多 同样 的 概念 都 适用 于 所 有 这 些 机 制 。 













































































SUSv3 因 需 遵从 XSI 而 要 求实 现 System V IPC， 因 此 有 时 候 这 种 机 制 也 补 称 为 XSIIPC。 


本 章 概 述 J 了 System V IPC 机 制 并 详细 介绍 了 所 有 这 三 种 机 制 共 同 具 备 的 特性 。 后 面 儿 个 
章节 将 分 别 对 这 三 种 机 制 进行 介绍 。 


System V IPC 是 一 个 通过 CONFIG SYSVIPC 选项 进行 配置 的 内 核 选 项 。 
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45.1 D^ 

K 45-1 对 使 用 System V IPC XJ 2 a He SUIS] S SCTER A 26S] HI AEST Y RES. 

一 些 实现 要 求 在 包含 表 45-1 PRALE IAES <sys/types.h> 。 一 些 较 早 的 UNIX 实现 
可 能 还 要 求 包含 <sys/ipc.h>。 (没有 哪个 UNIX 规范 要 求 这 些 头 文件 。) 











表 45-1: System V IPC 对 象 编程 接口 总 结 


z o 消息 队列 共享 内 和 存 
头 文件 <sys/msg.h> <sys/sem.h> <sys/shm.h> 
关联 数据 结构 | msqid ds semid ds shmid ds 
创建 /打开 对 象 | msggetO semget() shmget() + shmat() 
天 闭 对 象 E) Cn) shmdt() 
控制 操作 msgctl() semctl() shmctl() 
执行 IPC msgsnd0 一 一 写 入 消息 | semop0 一 一 测试 /调整 信和 与 量 | Vil HE POSU HS AIR 








msgrcv() 接收 消 居 


在 大 多 数 部 普 Linux 的 便 件 染 构 上 , 系统 调用 ipc(C2) 是 所 有 System V IPC 操作 到 内 核 的 
入 口 ， 表 45-1 中 列 出 的 所 有 调用 实际 上 都 被 实现 为 位 于 这 个 系统 调用 之 上 的 库 函 数 。(〈 这 
个 约定 的 两 个 例外 情况 是 Alpha 和 IA-64, 在 这 两 个 染 构 上 ， 表 中 列 出 的 调用 被 实现 成 了 各 
个 系统 调用 。) 这 个 不 太 和 常见 的 方法 是 System V IPC 在 一 开始 被 实现 成 可 载 入 的 内 核 模 块 的 
杰作 。 尽 管 在 大 多 数 Linux 染 构 上 它们 实际 上 是 库 函 数 ， 但 在 本 章 中 会 将 表 45-1 中 列 出 的 
图 数 称 为 系统 调用 。 只 有 C 库 的 实现 人 员 才 需要 使 用 ipc(2)ipc(2)， 在 任何 其 他 应 用 程序 中 
使 用 这 个 调用 将 会 使 应 用 程序 变 得 不 可 移植 。 














创建 和 打开 一 个 System V IPC 对 象 


每 种 System V IPC 机 制 都 有 一 个 相关 的 get 系统 调用 〈msggetO、semgetO 或 shmgetO )， 
它 与 文件 上 的 openO 系 统 调用 关 似 。 给 定 一 个 整数 key (类似 于 文件 名 )，get 调用 完成 下 列 茶 
个 操作 。 

。 使 用 给 定 的 key 创建 一 个 新 IPC 对 象 并 返回 一 个 唯一 的 标识 符 来 标识 该 对 象 。 

。 返回 一 个 拥有 给 定 的 key 的 既 有 IPC 对 象 的 标识 符 。 

本 和 曹 将 第 二 种 做 法 《宽松 地 ) 称 为 打开 一 个 既 有 IPC 对 象 。 在 这 种 情况 下 ，get 调用 所 做 
的 事情 是 将 一 个 数字 key) 转换 称 为 妨 一 个 数字 《标识 符 )。 














在 System V IPC 的 上 下 文中 的 对 象 与 面向 对 象 程序 设计 中 的 对 象 毫 无 关系 。 这 个 术语 
仅仅 用 来 将 System V IPC 机 制 与 文件 区 分 开 来 。 尽 管 文件 和 System V IPC 对 象 之 间 存 在 几 
点 类 似 之 处 ， 但 与 标准 的 UNIX 文件 VO 模型 相 比 ，IPC 对 象 的 用 法 在 儿 个 重要 方面 都 存在 
Æ> XÆ System V IPC 机 制 之 所 以 复杂 的 一 个 原因 。 


IPC 标识 从 与 文件 揪 述 符 类 似 ， 在 后 续 所 有 3 引用 该 IPC 对 象 的 系统 调用 中 都 需要 用 到 它 。 
但 这 两 者 之 间 存 在 一 个 重要 的 语义 上 的 大 别 。 文 件 插 述 和 从 是 一 个 进程 特性 ， 而 IPC 标识 符 则 
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是 对 象 本 身 的 一 个 属性 并 且 对 系统 全 局 可 见 。 所 有 访问 同一 对 象 的 进程 使 用 同样 的 标识 符 。 
这 意味 看 如 果 知 起 一 个 PC 对 象 已 经 存在 ， 那 么 可 以 跳 过 get 调用 ， 只 要 能 够 通过 菏 种 机 制 来 
获知 对 象 的 标识 符 即 可 。 例 如 ， 创 建 对 象 的 进程 可 能 会 将 标识 答 写 入 一 个 可 供 其 他 进程 读 取 
的 文件 。 


下 面 的 例子 展示 了 如 何 创建 一 个 System V 消息 队列 。 
id - msgget(key, IPC CREAT | S IRUSR | S IWUSR); 
if (id == -1) 

errExit("msgget"); 


与 所 有 的 get 调用 一 样 ，key 是 第 一 个 参数 ， 标 识 符 是 函数 的 返回 结 末 。 传 递 给 get 调用 
的 最 后 一 个 参数 lags) 使 用 与 文件 一 样 的 掩 人 码 常量 ( 表 15-4) 指定 了 狐 对 象 上 的 权限 。 在 
上 面 的 例子 中 只 给 对 象 的 所 有 者 赋予 了 在 队列 中 该 取 和 写 入 请 县 的 权限 。 

进程 的 umask (Z M 15.4.6 市 ) 对 新 创建 的 IPC 对 象 上 的 权限 是 不 适用 的 。 


























一 些 UNIX 实现 为 IPC 权限 定义 了 下 面 的 位 担 码 冲 量 ;， MSG R、MSG W. SEM R, 
SEM A, SHM R 以 及 SHM W. 它们 对 应 于 各 个 IPC 机 制 的 所 有 者 (用 户 ) 的 读 取 和 写 入 
权限 。 要 获取 对 应 的 组 和 其 他 用 户 的 权限 位 掩 码 则 可 以 将 这 些 常量 右 移 3 位 和 6 位 。 SUSv3 
并 没有 规定 这 些 常 量 ， 它 使 用 了 与 文件 一 样 的 位 掩 码 ， 并 且 没 有 在 glibe 关中 对 这 些 党 量 进 
TT 4E X, 

所 有 需 访 问 同一 个 IPC 对 象 的 进程 在 执行 get 调用 时 会 指定 同样 的 key 以 获取 该 对 象 的 同 
一 个 标识 符 。 在 45.2 节 中 将 会 介绍 如 何 为 应 用 程序 选择 一 个 key。 

如 果 没 有 与 给 定 的 key 对 应 的 IPC 对 象 存 在 并 且 在 flags 参数 中 指定 了 IPC_CREAT (与 
open0 的 O_CREAT 标记 类 似 )， 那 么 get 调用 会 创建 一 个 新 的 IPC 对 象 。 如 果 不 存 在 相应 的 IPC 
对 象 并 且 没 有 指定 IPC_CREAT 〈 并 且 没 有 像 452 市 中 描述 的 那样 将 key 指定 为 IPC PRIVATE), 
那么 get 调用 会 失败 并 返回 ENOENT fix» 

一 个 进程 可 以 通过 指定 IPC EXCL 标记 《类 似 于 open0 的 O_EXCL 标记 ) 来 确保 它 是 创 
建 IPC 对 象 的 进程 。 如 果 指 定 了 IPC EXCL 并 且 与 给 定 key 对 应 的 IPC 对 象 已 经 存在 ， 那 么 
get 调用 会 失败 并 返 EEXIST 错误 。 


IPC 对 象 删除 和 对 象 持 久 


各 种 System V IPC 机 制 的 cd 系统 调用 (msgctlO. semctlQ. shmctlQ) 在 对 象 上 执行 一 组 
控制 操作 ， 其 中 很 多 操作 是 特定 于 某 种 IPC 机 制 的 ， 但 有 一 些 是 适用 于 所 有 的 IPC 机 制 的 ， 
其 中 一 个 束 是 IPC RMID 控制 操作 ， 它 可 以 用 来 删除 一 个 对 象 。 如 使 用 下 和 面 的 调用 可 以 删除 
DRENT ZR. 

if (shmctl(id, IPC RMID, NULL) == -1) 

errExit("shmct1"); 

对 于 消息 队列 和 信号 量 来 讲 ，IPC 对 象 的 删除 是 立即 生效 的 ， 对 象 中 包含 的 所 有 信息 
都 会 被 销毁 ， 不 管 是 否 有 其 他 进程 仍然 在 使 用 该 对 象 。( 这 也 是 System IPC 对 象 的 操作 与 
文件 的 操作 不 相似 的 其 中 一 个 地 方 。 在 18.3 市 中 曾经 讲 过 如 果 删 除了 指 问 文件 的 最 后 一 个 
链接 ， 那么 实际 上 只 有 当 所 有 引用 该 文件 的 打开 看 的 文件 摘 述 符 都 被 关闭 之 后 才 会 删除 该 
Sce) 

共享 内 存 对 象 的 删除 的 操作 是 不 同 的 。 在 shmctl(id,IPC RMID, NULL) 调 用 之 后 ， 只 有 当 
所 有 使 用 该 内 存 段 的 进程 与 该 内 存 段 分 离 之 后 (使 用 shmdtO ) 才 会 删除 该 共享 内 存 段 。( 这 一 
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氮 与 文件 删除 更 加 接近 。) 
System V IPC 对 象 具备 内 核 持 久 性 。 一 旦 极 创 建 之 后 ， 一 个 对 象 融 一 直 存 在 惠 到 和 它 极 显 
式 地 删除 或 系统 被 关闭。System V. IPC 对 象 的 这 个 属性 是 非 钊 有 用 的 。 因 为 一 个 进程 可 以 创 
建 一 个 对 象 、 修 改 其 状态 、 然 后 退出 并 使 得 在 后 面条 个 时 刻 局 动 的 进程 可 以 访问 这 个 对 象 。 
但 这 种 属性 也 是 存在 缺点 的 ， 其 原因 如 下 。 
。 系统 对 每 种 类 型 的 IPC 对 象 的 数量 是 有 限制 的 。 如 条 没有 删除 不 用 的 对 象 ， 那 么 应 用 
程序 最 终 可 能 会 因 达 到 这 个 限制 而 发 生 错误 。 
。 在 删除 一 个 消息 队列 或 信号 量 对 象 时 ， 多 进程 应 用 程序 可 能 难以 确定 哪个 进程 是 最 后 
一 个 需要 访问 对 象 的 进程 ， 从 而 导致 难以 确定 何 时 可 以 安全 地 删除 对 象 。 这 里 的 问题 
是 这 些 对 象 是 无 连接 的 一 一 内 核 不 会 记录 哪个 进程 打开 了 对 象 。( 共 至 内 存 段 不 存在 
这 个 缺点 ， 因 为 它们 的 删除 操作 的 语义 不 同 。) 















































45.2 IPC Key 


System V IPC key 是 一 个 整数 值 ， 其 数据 类 型 为 key te IPC get 调用 将 一 个 key 转换 成 相 
应 的 整数 IPC 标识 符 。 这 些 调 用 能 够 确保 如 果 创 建 的 是 一 个 新 IPC 对 象 ， 那 么 对 象 能 够 得 到 
一 个 唯一 的 标识 符 ， 如 果 指 定 了 一 个 既 有 对 象 的 key， 那 么 总 是 会 取得 该 对 象 的 (同样 的 ) 标 
识 符 。( 在 内 部 ,内核 会 像 45.5 节 中 描述 的 那样 为 各 种 IPC 机 制 维护 看 一 个 数据 结构 将 key Bit 
射 成 标识 符 。) 
那么 如 何 产生 唯一 的 Key 呢 一 一 一 种 确保 不 会 偶然 地 取得 其 他 应 用 程序 所 使 用 的 一 个 既 
有 IPC 对 和 象 的 标识 符 ? 这 个 问题 存在 三 种 解决 方案 。 
e 随机 地 选取 一 个 整数 值 作为 key 值 ， 这 些 整数 值 通常 会 被 放 在 一 个 头 文件 中 ， 所 有 使 
用 IPC 对 象 的 程序 都 需要 包含 这 个 头 文件 。 这 个 方法 的 难点 在 于 可 能 会 无 意 中 选 取 了 
一 个 已 被 另 一 个 应 用 程序 使 用 的 值 。 
。 在 创建 IPC 对 象 的 get 调用 中 将 IPC. PRIVATE 常量 作为 key 的 值 , CHE SURE 
调用 都 会 创建 一 个 全 新 的 IPC 对象 ， 从 而 人 确保 每 个 对 象 都 拥有 一 个 唯一 的 key。 
e 使 用 ftok0 函 数 生成 一 个 (接近 唯一 ) key. 
IPC PRIVATE 和 ftokO 是 通常 采用 的 技术 。 






































使 用 IPC_PRIVATE 产生 一 个 唯一 的 key 

在 创建 一 个 新 IPC 对 象 时 必须 要 像 下 面 这 样 将 key 指定 为 PC_PRIVATE。 

id = msgget(IPC PRIVATE, S IRUSR | S IWUSR); 

在 上 面 的 代码 中 无 需 指 定 IPC CREAT 和 IPC EXCL 标记 。 

这 项 技术 对 于 父 进程 在 执行 fork0 之 前 创建 IPC 对 象 从 而 导致 子 进程 继承 IPC 对 象 标识 符 
的 多 进程 应 用 程序 是 特别 有 用 的 。 在 客户 并 -服务 器 应 用 程序 中 〈 即 那些 包含 非 相 关 进 程 的 应 
用 程序 ) 也 可 以 使 用 这 项 技术 ， 但 客户 端 必须 要 通过 某 种 机 制 获 取 由 服务 器 创建 的 IPC. 对 象 
的 标识 符 《〈 反 之 亦 然 )。 如 在 创建 完 一 个 了 PC 对 象 之 后 ， 服 务 器 可 以 将 这 个 标识 符 写 入 一 个 将 
会 收 客 户 问 读 取 的 文件 中 。 


使 用 ftok() 产 生 一 个 唯一 的 key 
ftok() (file to key) 函数 返回 一 个 适合 在 后 续 对 某 个 System V IPC get 系统 调用 进行 调用 
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时 使 用 的 key 值 。 





#include «sys/ipc.h» 


key t ftok(char *pathname, int proj); 


Returns integer key on success, or -1 on error 














key 值 是 使 用 实现 定义 的 算法 根据 提供 的 pathname 和 proj 值 生 成 的 。SUSv3 要 求 如 下 。 

e 算法 只 使 用 proj 的 最 低 的 8 个 有 效 位 。 

e 应 用 程序 必须 要 确保 pathname 引用 一 个 可 以 应 用 statO0 的 既 有 文件 (否则 ftokO 会 返回 

一 1 )。 

。 如 果 将 引用 同一 个 文件 ( 即 i-node) 不 同 的 路 径 名 《链接 ) 传递 给 了 ftokO 并 且 指 定 了 

同样 的 proj 值 ， 那 么 函数 必须 要 返回 同样 的 key 值 。 

换 句 话说 ，ftokO 使 用 i-node 号 来 生成 key 值 ， 而 并 没有 使 用 文件 名 来 生成 key 值 。( 由 于 
ftokO 算 法 依赖 于 inode 号 ， 因 此 在 应 用 程序 的 生命 周期 中 不 应 访 将 文件 删除 和 重新 创建 ， 
为 重新 创建 文件 时 很 有 可 能 会 分 配 到 一 个 不 同 的 i-node 4.5 proj 的 目的 仅仅 是 允许 从 同一 个 
文件 中 生成 多 个 key, 这 对 于 需 创 建 同 种 类 型 的 多 个 IPC 对 象 的 应 用 程序 来 讲 是 有 用 的 。 以 六 ， 
proj 参数 的 类 型 为 char， 并 且 在 调用 ftok0O 通 常 传 入 的 也 是 char 值 。 

















SUSv3 并 没有 规定 当 proj 的 值 为 0 时 ftokO 的 行为 。 在 AIX 5.1 E, 23 proj 为 0 时 ftokO 
返回 一 1。 在 Linux 上 ， 这 个 值 没 有 特殊 的 含义 ， 但 可 移植 的 应 用 程序 应 该 避免 将 proj i 
B0, WAS 255 MAHE. 











通常 ， 传 递 给 ftokO 的 pathname 会 引用 构成 应 用 程序 或 由 应 用 程序 创建 的 文件 或 目录 之 
一 ， 协 同 运行 的 进程 会 将 同样 的 pathname 传递 给 ftok()。 

在 Linux 上 ，ftokO 返 回 的 key 是 一 个 32 位 的 值 ， 它 通过 取 proj 参数 的 最 低 8 个 有 效 位 、 
包含 该 文件 所 属 的 文件 系统 的 设备 的 设备 号 ( 即 次 要 设备 号 ) 的 最 低 8 个 有 效 位 以 及 pathname 
所 引用 的 文件 的 i-node 号 的 最 低 16 个 有 效 位 组 合 而 成 。( 后 两 项 信息 通过 在 pathname 上 调用 
stat() 获 得 。) 

glibc ftokO 的 算法 与 其 他 UNIX 实现 所 采用 的 算法 类 似 ， 它 们 都 存在 一 个 类 似 的 限制 : 
两 个 不 同 的 文件 可 能 会 产生 同样 的 key 值 〈 可 能 性 非常 小 )。 之 所 以 会 发 生 这 种 情况 是 因为 
不 同文 件 系 统 上 的 两 个 文件 的 i-node 写 的 最 低 有 效 位 可 能 会 相同 , 并且 两 个 不 同 的 磁盘 设备 
(位 于 具备 多 个 磁盘 控制 器 的 系统 上 ) 可 能 会 拥有 同样 的 次 要 设备 号 。 但 在 实践 中 ， 不 同 的 
应 用 程序 产生 同样 的 key 值 的 可 能 性 非常 非常 小 以 至 于 使 用 ftokO 产 生 key 已 经 是 一 项 可 靠 
的 技术 了 。 

ftokO 的 典型 用 法 如 下 所 示 。 


key t key; 
int id; 



































key = ftok("/mydir/myfile", 'x'); 
if (key == -1) 
errExit("ftok"); 
id - msgget(key, IPC CREAT | S IRUSR | S IWUSR); 
if (id == -1) 
errExit("msgget"); 
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45.3 ”关联 数据 结构 和 对 象 权 限 


内 核 为 System V IPC 对 象 的 每 个 实例 都 维护 看 一 个 关联 数据 结构 。 这 个 数据 结构 的 形式 
IPC 机 制 〈 消 县 队列 、 信 和 号 量 、 或 共 孕 内存 ) 的 不 同 而 不 同 ， 它 是 在 各 个 IPC ll CA 
K 45-D 对 应 的 头 文 件 中 进行 定义 的 。 在 后 续 的 章节 中 将 会 详细 介绍 各 种 机 制 的 关联 数据 纬 
构 的 细节 信息 。 

一 个 IPC 对 象 的 关联 数据 结构 会 在 通过 相应 的 get 系统 调用 创建 对 象 时 进行 初始 化 。 对象 
一 旦 被 创建 之 后 ， 程 序 束 可 以 通过 指定 IPC. STAT 操作 类 型 使 用 合适 的 ctl 系统 调用 来 获取 这 
个 数据 结构 的 一 个 副本 。 使 用 IPC_SET 操作 能 够 修改 这 个 数据 结构 中 的 部 分 数据 。 

除了 各 种 IPC 对 象 特 有 的 数据 之 外 ， 所 有 三 种 了 PC 机 制 的 关联 数据 结构 都 包含 一 个 子 结 
构 ipc_perm， 它 保存 了 用 于 确定 对 象 之 上 的 权限 的 信息 。 


struct ipc perm { 

















key t |. key; /* Key, as supplied to 'get' call */ 
uid t uid; /* Owner's user ID */ 

gid t gid; /* Owner's group ID */ 

uid t cuid; /* Creator's user ID */ 

gid t cgid; /* Creator's group ID */ 

unsigned short mode; /* Permissions */ 

unsigned short seq; /* Sequence number */ 


13 


SUSv3 要 求 ipe perm PRR key 和 _ seq 字段 乙 外 的 所 有 其 他 字段 都 要 具备 。 大 多 数 
UNIX 实现 都 提供 了 相应 的 字段 。 

uid 和 gid 字段 指定 了 IPC 对 象 的 所 有 权 。cuid 和 cgid 字段 保存 着 创建 该 对 象 的 进程 的 用 
户 ID 和 组 ID。 一 开始 ， 相 应 的 用 户 和 创建 者 ID 字段 的 值 是 一 样 的 ， 它 们 都 源 自 调用 进程 的 
有 效 ID。 创 建 者 ID 是 不 可 变 的 ， 而 所 有 者 ID 则 可 以 通过 IPC SET 操作 进行 修改 。 下 面 的 代 
IIR Y e E DU EB uid 字段 (关联 数据 结构 的 类 型 是 shmid ds). 


struct shmid ds shmds; 




















if (shmctl(id, IPC STAT, &shmds) == -1) /* Fetch from kernel */ 
errExit("shmctl"); 
shmds.shm perm.uid - newuid; /* Change owner UID */ 
if (shmctl(id, IPC SET, &shmds) -- -1) /* Update kernel copy */ 
errExit("shmct1"); 
ipc. perm 子 结构 的 mode 字段 保存 着 IPC ORE URET X A TR JE Ft Go eo 
的 get 系统 调用 中 指定 的 flags 参数 的 低 9 位 初始 化 的 ， 但 后 面 使 用 IPC SET 操作 则 可 以 修改 
这 个 字段 的 值 。 
与 文件 一 样 ， 权限 被 分 成 了 三 类 一 一 owner (也 称 为 user)、group 以 及 other 一 一 并 且 可 以 
为 各 个 类 别 指定 不 同 的 权限 。 但 IPC 对 象 的 权限 模型 与 文件 权限 模型 存在 一 些 显 车 差 别 。 
e 对 于 IPC 对 象 来 讲 只 有 读 和 写 权限 有 意义 。( 对 于 信号 量 来 讲 ， 写 权限 通常 被 称 为 修 
改 Calter) 权限 。) 执行 权限 是 没有 意义 的 ， 在 执行 大 多 数 访问 检测 时 通 沼 会 忽略 这 个 
权限 。 
。 权限 检测 会 根据 进程 的 有 效用 户 D, AAH ID 以 及 辅助 组 ID 来 进行 。( 这 与 Linux 
上 文件 系统 权限 检测 不 同 ， 它 使 用 的 是 进程 的 文件 系统 ID， 其 体 可 参考 9.5 市 。) 
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IPC 对 象 上 的 进程 权限 分 配 的 准确 规则 如 下 。 

1. 如 果 进 程 是 特权 进程 (CAP IPC OWNER)， 那 么 所 有 权限 都 会 被 赋予 IPC 对 象 。 

2. 如 果 进 程 鸭 有 效用 户 ID 与 IPC 对 象 的 所 有 者 或 创建 者 ID 匹配 ,那么 会 将 对 象 的 owner 
Cuser) 的 权限 赋予 进程 。 

3. 如 果 进 程 的 有 效用 户 ID 或 任意 一 个 辅助 组 ID 与 IPC 对 象 的 所 有 者 组 ID 或 创建 者 组 
ID 匹配 ， 那 么 会 将 对 象 的 group 的 权限 赋予 进程 。 

4. 和 否则 会 将 对 象 的 other 的 权限 赋予 进程 。 





在 内 核 代 人 码 中 ， 上 只 有 当 一 个 进程 没有 通过 其 他 测试 被 赋予 所 需 的 权限 时 才 会 去 测试 该 
进程 是 否 是 一 个 特权 进程 。 之 所 以 这 样 做 是 为 了 避免 不 必要 地 设置 ASU 进程 记录 标记 ， 该 
标记 用 于 指示 进程 是 否 使 用 超级 用 户 权 限 (参见 28.1 05. 

注意 IPC_PRIVATE key 值 的 使 用 和 IPC_EXCL 标记 的 存在 不 会 影响 进程 对 IPC 对 象 的 
访问 ， 这 种 访问 权限 上 只 由 对 象 的 所 有 者 和 权限 来 确定 。 


如 何 解释 一 个 对 象 的 谈 和 号 权限 以 及 是 合 需 要 这 些 权 限 依赖 于 对 象 的 类 型 以 及 所 执行 的 
操作 。 

当 需 获取 一 个 既 有 IPPC 对 象 的 标识 符 而 执行 一 个 get 调 用 时 会 进行 初次 权限 检测 以 确定 在 
flags 参数 中 指定 的 权限 与 既 有 对 象 上 的 权限 是 否 匹 配 。 如 宋 不 匹配 ， 那 么 get 调用 会 失败 并 
返回 EACCES 错误 。( 除 非特 别 指出 , 在 下 面 列 出 的 所 有 权限 被 拒绝 的 例子 中 都 会 返回 这 个 错 
WS.) 为 说 明 问 题 ， 考 碟 同 一 组 中 的 两 个 不 同 用 户 ， 其 中 一 个 用 尸 使 用 了 下 面 的 调用 创建 了 
一 个 消息 队列 。 


msgget(key, IPC CREAT | S IRUSR | S IWUSR | S IRGRP); 
po */ 


当 第 二 个 用 户 答 试 使 用 下 面 的 调用 获取 这 个 消息 队列 的 标识 符 时 会 失败 ， 因 为 用 户 没 有 
在 消息 队列 上 的 写 权 限 。 

msgget(key, S IRUSR | S IWUSR); 

BPH n A msggetO 调 用 的 第 二 个 参数 指定 为 2E SERIOUS JU], SUE RA 
当 程 序 试 图 执行 一 个 需要 IPC 对 象 上 的 写 权 限 的 操作 (如 使 用 msgsnd0 写 入 一 条 消息 ) 时 才 


会 发 生 错误 。 



































其 他 名 见 操作 所 需 的 权限 如 下 所 述 。 

e 从 对 象 中 获取 信息 《如 从 消息 队列 中 恋 取 一 条 消息 ， 获 取 一 个 信号 量 的 值 ， 或 因 读 取 
而 附 上 一 个 共有 入 存 段 ) mN. 

。 更 新 对 象 中 的 信息 《〈 如 向 消息 队列 写 入 一 条 消 息 ， 修 改 一 个 信号 量 的 值 ， 或 因 写 入 而 
附 上 一 个 共享 内 存 段 ) 需要 写 权 限 。 

。 获取 一 个 PC 对 象 的 关联 数据 结构 的 副本 (IPC_STAT ct 操作 ) 需要 读 权 限 。 

e 删除 一 个 IPC 对 象 (IPC RMID ctl 操作 ) 或 修改 其 关联 数据 结构 (IPC_SET ctl 操作 ) 
不 再 要 谈 或 号 权限 ， 相 反 ， 调 用 进程 必须 是 特权 进 和 《CAP_ SYS_ADMIN ) 或 有 效用 
F ID 与 对 象 的 所 有 者 用 户 ID 或 创建 者 用 户 ID 匹配 《否则 返回 错误 EPERM )。 
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可 以 设置 一 个 IPC 对 象 的 权限 使 得 所 有 者 或 创建 者 不 能 再 使 用 IPC. STAT 获取 包含 对 
象 权 限 信 息 的 关联 数据 结构 〈 这 意味 着 使 用 45.6 节 中 介绍 的 ipcs() 命 令 无 法 打印 出 这 个 对 
象 )， 但 仍然 可 以 使 用 IPC. SET 修改 它们 。 














其 他 各 种 机 制 特有 的 操作 需要 读 或 写 权 限 或 CAP IPC OWNER 能 力 。 在 后 面 章节 中 讨论 
各 种 操作 时 将 会 介绍 它们 所 需 的 权限 。 


45.4 IPC 标识 他 和 客 尸 端 / 服 务 器 应 用 程序 


在 客户 瘦 / 服 务 占 应 用 程序 中 ， 服 务 器 通常 会 创建 System V IPC 对 象 ， 而 客户 端 则 仅仅 需 
要 访问 它们 。 换 句 话 说， 服务 器 在 执行 get 调用 时 需要 指定 IPC_CREAT 标记 ,而 客户 端 在 get 
调用 中 则 会 省 略 这 个 标记 。 

假设 一 个 客户 端 参 与 了 服务 器 的 一 个 延伸 会 话 ， 其 中 每 个 进程 会 执行 多 个 IPC 操作 (如 
交换 多 条 消息 、 一 组 信号 量 操作 、 或 多 次 更 新 共 孚 内 存 )。 如 果 服 务 堪 进程 衣 泪 或 故意 停止 
然后 重 局 会 发 生 什 么 情况 呢 ? 这 时 , 盲目 地 重用 由 前 一 个 服务 器 进程 创建 的 IPC XJ 28 12e 
意义 的 ， 因 为 新 服务 器 进程 不 清楚 与 IPC 对 象 的 当前 状态 相关 的 历史 信息 。( 如 消 因 队列 中 
可 能 存在 客户 端 因 啊 应 老 的 服务 堪 进 程 之 前 发 送 的 一 条 消息 而 发 出 的 第 二 个 请 求 。) 

在 这 种 情况 下 ， 服 务 堪 唯一 可 做 的 事情 可 能 束 是 丢弃 所 有 既 有 的 客户 站 、 删 除 由 上 一 个 
服务 并进 程 创 建 的 了 PC 对 象 、 创 建 了 PC 对 象 的 新 实例 。 新 局 动 的 服务 堪 首 先 会 通过 在 get 调用 
中 同时 指定 IPC. CREAT 和 IPC EXCL 标记 创建 一 个 IPC 对 象 来 处 理 服务 需 的 上 一 个 实例 非 
正常 终止 的 情况 。 如 果 get 调用 因 具 备 指定 key 的 对 象 已 存在 而 失败 ， 那 么 服务 器 就 认为 老 的 
服务 器 进程 之 前 创建 了 该 对 象 ， 因 此 它 会 使 用 IPC_RMID ct 操作 删除 这 个 对 象 ， 然 后 再 次 执 
行 一 个 get 调用 来 创建 对 象 。( 这 组 步骤 可 能 会 与 其 他 诸如 确保 另 一 个 服务 器 进程 当前 不 在 运 
行 之 类 的 步骤 组 合 起 来 使 用 ， 上 有 具体 可 参见 55.6 节 。) 程序 清单 45-1 给 出 了 一 个 消息 队列 可 能 
需要 执行 的 步骤 。 


程序 清单 45-1: 清理 服务 器 中 的 IPC 对 象 


















































svipc/svmsg demo server.c 
include <sys/types.h> 
#include «sys/ipc.h» 
include «sys/msg.h» 
&include «sys/stat.h» 
include "tlpi hdr.h" 


#define KEY FILE "/some-path/some-file" 
/* Should be an existing file or one 


that this program creates */ 


int 
main(int argc, char *argv[]) 
int msqid; 
key t key; 
const int MO PERMS = S IRUSR | S IWUSR | S IWGRP; /* rw--w---- */ 


/* Optional code here to check if another server process is 
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already running */ 
/* Generate the key for the message queue */ 


key - ftok(KEY FILE, 1); 
if (key -- -1) 
errExit("ftok"); 
/* While msgget() fails, try creating the queue exclusively */ 


while ((msqid = msgget(key, IPC CREAT | IPC EXCL | MO PERMS)) == -1) { 
if (errno -- EEXIST) { /* MO with the same key already 
exists - remove it and try again */ 

msqid = msgget(key, 0); 
if (msgid -- -1) 

errExit("msgget() failed to retrieve old queue ID"); 
if (msgctl(msqid, IPC RMID, NULL) -- -1) 

errExit("msgget() failed to delete old queue"); 
printf("Removed old message queue (id-Xd)Wn", msgid); 


] else { /* Some other error --» give up */ 
errExit("msgget() failed"); 


j 
j 


/* Upon loop exit, we've successfully created the message queue, 
and we can then carry on to do other work... */ 


exit(EXIT SUCCESS); 


svipc/svmsg demo server.c 


尽管 重新 启动 的 服务 器 会 重 狐 创建 IPC 对 象 ， 但 如 果 在 创建 新 IPC 对 象 时 将 同样 的 key 
传递 给 get 调用 ， 那 么 总 是 会 生成 同样 的 标识 符 。 恋 者 可 以 从 客户 端的 角度 来 考虑 一 下 这 个 问 
题 的 解决 方案 。 如 果 服 务 器 重新 创建 的 IPC 对 象 使 用 了 同样 的 标识 符 ， 那 么 客户 端 就 无 法 知 
道 服 务 器 已 经 重 局 并 且 IPC 对 象 已 经 不 包含 预期 的 历史 信息 了 。 

为 解决 这 个 问题 ， 内 核 采用 了 一 个 算法 〈 下 一 节 摘 述 )， 通 第 能 够 确保 在 创建 新 IPC 对 象 
时 ， 对 象 会 得 到 一 个 不 同 的 标识 符 ， 即 使 传 入 的 key 是 一 样 的 。 其 结果 是 所 有 与 老 的 服务 器 
进程 连接 的 客户 端 在 使 用 旧 的 标识 符 时 会 从 相关 的 IPC 系统 调用 中 收 到 一 个 错误 。 


程序 请 单 45-1 中 的 解决 方案 并 没有 完全 解决 在 使 用 System V 共 译 内 存 时 识别 出 服务 器 
重 局 的 问题 ， 因 为 共享 内 存 对 象 只 有 在 所 有 进程 部 与 其 虚拟 地 址 空间 分 离 之 后 才 会 个 删除 。 
但 共有 至 内 存 对 象 通常 与 System V 信和 号 量 组 合 使 用 ， 而 它们 则 会 在 IJPC_RMID 操作 中 立即 被 
删除 。 这 意味 看 客户 器 在 试图 访问 和 极 删 除 的 信号 量 对 象 时 能 够 知道 服务 器 重启 这 件 事情 。 
























































45.5 System V IPC get 调用 使 用 的 算法 


图 45-1 给 出 了 内 核 内 部 使 用 的 一 些 表 示 System V IPC 对 象 (本 例 中 是 信号 量 , 但 细节 方面 
与 其 他 IPC 机 制 类 似 ) 相关 信息 的 结构 ,包括 用 于 计算 IPC key 的 字段 。 对 于 每 种 IPC HLE) H 
享 内 存 、 消 有 息 队 列 、 或 信号 量 )， 内 核 都 会 维护 一 个 关联 的 ipe ids 结构 ， 它 记录 着 该 IPC 机 制 
的 所 有 实例 的 各 种 全 局 信息 ， 包 括 一 个 大 小 会 动态 变化 的 指针 数组 entries， 数 组 中 的 每 个 元 素 
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指 同一 个 对 象 实例 的 关联 数据 结构 〈 在 信号 量 中 是 semid ds £:14). entries 数组 的 当前 大 小 记录 
在 size 字段 中 ，max_id 字段 记录 看 当前 使 用 中 的 元 素 的 最 大 下 标 。 
ipc ids 


结构 
(sem. ids) 











sem berm. key = 0x4d0731db 





in use = 2 


max id^39 


sem perm. seg = g 





关联 数据 结构 
(semid. ds) 
| sem. perm. — key = 0x4b079002 


sem perm. seq-5 





45-1: 用 于 表示 System V IPC (信号 量 ) 对 象 的 内 核 数据 结构 


在 执行 一 个 IPC get 调用 时 ，Linux 所 采用 的 算法 近似 如 下 其 他 系统 使 用 了 类 似 的 算法 )。 

1. 在 关联 数据 结构 列表 (entries 数组 中 的 元 素 指 问 的 结构 〉 中 搜索 key 字段 与 get 调用 中 指 
定 的 参数 匹配 的 结构 。 

Ca) 如 果 没 有 找到 匹配 的 结构 并 且 没 有 指定 了 PC_CREAIT， 那 么 返回 ENOENT 错误 。 

(bo 如 果 找 到 了 一 个 匹配 的 结构 ， 但 同时 指定 了 IPC CREAT 和 IPC_EXCL， 那 么 返回 
EEXIST 错误 。 

Cc) 否则 在 找到 一 个 匹配 的 结构 的 情况 下 跳 过 下 面 的 步骤 。 

2. 如 果 没 有 找到 匹配 的 结构 并 且 指定 了 IPC CREAT， 那 么 会 分 配 一 个 新 的 与 所 采用 的 机 制 
对 应 的 关联 数据 结构 (在 图 45-1 中 是 semid ds) 并 对 其 进行 初始 化 。 在 这 个 操作 中 还 会 
更 新 ipe ids 结构 中 的 各 个 字段 ， 并 且 可 能 还 会 重新 设 定 entries 数组 的 大 小 。 指 问 新 结构 
的 指针 会 被 放 在 entries 中 第 一 个 未 被 占用 的 位 置 处 。 在 这 个 初始 化 的 过 程 中 包含 两 个 子 
步骤 。 

(a) 传递 给 get 调用 的 key 值 被 复制 到 新 分 配 的 结构 的 xxx. perm. key 字段 中 。 
(b) ipc ids 结构 中 seq 学 段 的 当前 值 裤 复制 到 关联 数据 结构 的 xxx. perm. seq 字段 中 ， 
将 seq 字段 的 值 加 1。 
3. 使 用 下 和 面 的 公式 计算 IPC 对 象 的 标识 符 。 
identifier = index + xxx perm. seq * SEQ MULTIPLIER 
在 用 于 计算 IPC 标识 符 的 公式 中 ，index 表示 对 象 实例 在 entries 数组 中 的 下 标 ， 
SEQ MULTIPLIER 是 一 个 值 为 32768 的 常数 (内 核 源 文件 include/linux/ipc.h 中 的 IPCMNI). 
如 在 图 45-1 中 ，key 值 为 0x4b079002 的 信和 号 量 生成 的 标识 符 为 2 + 5 * 32768) = 163842. 
对 于 get 调用 所 采用 的 算法 需要 注意 下 列 几 点 。 
e 即使 使 用 同样 的 key 创建 了 一 个 新 IPC 对 象 也 几乎 可 以 肯定 对 象 被 分 配 到 的 标识 符 是 
不 同 的 ， 因 为 标识 从 的 计算 是 根据 你 存在 关联 数据 结构 中 的 seq 字段 的 值 来 进行 的 ， 
而 在 同 种 类 型 的 对 象 的 创建 过 程 中 都 会 递增 这 个 值 。 



































第 45 章 SystemVIPC 介绍 765 


异步 社区 会 员 flyman150(2410757683@qq.com) EF 尊重 版 权 


内 核 所 采用 的 算法 在 seq 的 值 达到 dNT MAX / IPCMNI)— E} 2147483647 / 32768 = 
65535 一 一 时 会 将 seq 的 值 重 置 为 0。 因此 如 果 在 系统 运行 期 间 已 经 创建 了 65535 个 对 象 ， 那么 新 
IPC 对 象 可 能 会 与 之 前 的 对 象 拥 有 同样 的 标识 符 ， 从 而 导致 新 对 象 会 重用 之 前 的 对 象 在 entries 数 
组 中 的 位 置 〈“ 即 在 系统 运行 期 间 必 须要 释放 之 前 的 对 象 )。 但 发 生 这 种 情况 的 可 能 性 非常 小 。 


。 算法 为 entries 数组 的 每 个 下 标 都 生成 一 组 不 同 的 标识 符 值 。 
e 由 于 常量 IPCMNI 为 每 种 类 型 的 System V 对 象 的 数量 设 定 了 一 个 上 限 ， 因 此 算法 确 
保 所 有 既 有 PC 对 象 都 拥有 一 个 唯一 的 标识 符 。 
e 给 定 一 个 标识 符 值 ， 使 用 下 面 这 个 等 式 可 以 快速 计算 出 它 在 entries 数组 中 对 应 的 
下 标 。 
index = identifier % SEQ MULTIPLIER 
能 够 快速 地 执行 这 种 计算 对 于 那些 接收 IPC 对 象 标识 符 的 IPC 系统 调用 〈 即 表 45-1 中 除 
get 调用 的 其 他 调用 ) 的 高 效 执行 来 讲 是 有 必要 的 。 
顺便 提 一 下 ， 当 一 个 进程 在 执行 一 个 了 PC 系统 调用 (如 msgcttO、semopO、 或 shmat()) 
时 传 入 了 一 个 与 既 有 对 象 不 匹配 的 标识 符 ， 那 么 就 会 导致 两 个 错误 的 发 生 。 如 果 entries 中 相 
应 下 标 处 是 空 的 ， 那 么 将 会 导致 EINVAL 错误 的 发 生 。 如 果 下 标 指 问 了 一 个 关联 数据 结构 ， 
但 存储 在 该 结构 中 的 序号 导致 不 会 产生 同样 的 标识 符 值 , 那么 束 假 设 这 个 数组 下 标 指 问 的 旧 
对 象 已 经 被 删除 了 ， 该 下 标 会 被 重用 。 通 过 错误 EIDRM 可 以 诊断 出 这 种 情况 的 发 生 。 









































45.6 ipcs 和 ipcrm fip 


ipcs 和 ipcrm 命令 是 System V IPC 领域 中 类 似 于 ls 和 rm 文件 命令 的 命令 。 使 用 ipes 能 够 
获取 系统 上 IPC 对 象 的 信息 。 在 默认 情况 下 ，ipcs 会 显示 出 所 有 对 象 ， 如 下 面 的 例子 所 示 。 


$ ipcs 

------ Shared Memory Segments -------- 

key shmid owner perms bytes nattch status 
0x6d0731db 262147 mtk 600 8192 2 


------ Semaphore Arrays -------- 


key semid owner perms nsems 

0x6107c0b8 0 cecilia 660 6 

0x6107c0b6 32769 britta 660 1 

------ Message Queues -------- 

key msqid owner perms used-bytes messages 


0x71075958 229376 cecilia 620 12 2 
在 Linux 上 ，ipcs(1) 只 显示 出 拥有 读 权 限 的 IPC 对 象 的 信息 ， 而 不 管 是 否 拥 有 这 些 对 象 。 
在 一 些 UNIX 实现 上 ，ipcs 的 行为 与 它 在 Linux. 上 的 行为 一 样 ， 但 在 其 他 实现 上 ，ipcs 会 显示 
出 所 有 对 象 ， 不 各 当前 用 户 是 否 拥有 这 上 蔡 对 象 上 的 该 权限 。 
在 默认 情况 下 ，ipcs 会 显示 出 每 个 对 象 的 key、 标 识 符 、 所 有 者 以 及 权限 “用 一 个 八进制 
数字 表示 )， 后 面 跟 看 对 象 所 特有 的 信息 。 
。 对 于 共 至 内 存 ，ipcs 会 显示 出 共 至 内 存 区 域 的 大 小 、 当 前 将 共 圣 内 存 区 域 附加 a 到 目 己 
的 虚拟 地 址 空间 的 进程 数 以 及 状态 标记 。 状 态 标 记 标 识 出 了 区 域 是 售 被 锁 进 了 RAM 
以 防止 交换 (参见 48.7 市 ) 以 及 在 所 有 进程 都 与 该 区 域 分 离 之 后 是 否 已 经 将 其 标记 为 
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e 对 于 信号 量 ，ipcs 会 显示 出 信号 集 的 大 小 。 

e 对 于 消息 队列 ，ipecs 会 显示 出 队列 中 数据 占据 的 学 市 总 数 以 及 消 恩 数量 。 

ipcs(1) 手 册 对 各 种 能 够 显示 IPC 对 象 的 其 他 信息 的 选项 进行 了 说 明 。 

iperm 命令 删除 一 个 IPC 对象。 这 个 命令 的 弟 规 形式 为 下 面 丙 种 形式 中 的 一 种 。 

$ ipcrm -X key 

$ ipcrm -x id 

在 上 面 给 出 的 命令 中 既 可 以 将 一 个 IPC 对 象 的 key 指定 为 参数 key， 也 可 以 将 一 个 PC HZ 
的 标识 从 指定 为 参数 id JP ELS ASSI] x. 交换 其 大 写 形式 或 使 用 小 号 的 9《〈 用 于 消息 队列 ) 或 s 
HTE TE) 或 m (用 于 共 于 内 存 )。 因 此 使 用 下 和 面 的 命令 可 以 删除 标识 从 为 65538 METER. 

$ ipcrm -s 65538 


























45.7 ”获取 所 有 IPC 对 象 列 表 


Linux 提供 了 两 种 获取 系统 上 所 有 IPC 对 象 列表 的 非 标 准 方法 。 

e /proc/sysvipc 目录 中 的 文件 会 列 出 所 有 PCE HZ. 

e 使 用 Linux 特有 的 ct 调用 。 

本 市 将 会 介绍 /proc/sysvipc 目录 中 的 文件 ， 在 46.6 将 会 对 ct 调用 进行 介绍 ， 并 提供 一 
个 示例 程序 来 列 出 系统 上 所 有 System V 消息 队列 。 


其 他 一 些 UNIX 实现 提供 了 它们 目 己 的 用 于 获取 所 有 IPC 标识 符 列 表 的 非 标准 方法 ， 
如 Solaris 为 此 提供 了 msgids()、semids() 以 及 shmidsO 系 统 调用 。 




















/proc/sysvipc 目录 中 三 个 只 读 文 件 提供 的 信息 与 通过 ipcs 获取 的 信息 是 一 样 的 。 

e /proc/sysvipc/msg 列 出 所 有 消息 队列 及 其 特性 。 

e /proc/sysvipc/sem 列 出 所 有 信号 量 集 及 其 特性 。 

e /proc/sysvipc/shm 列 出 所 有 共享 内 存 段 及 其 特性 。 

与 ipes 命令 不 同 ， 这 些 文件 总 是 会 显示 出 相应 种 类 的 所 有 对 象 ， 不 管 是 否 在 这 些 对 象 上 
拥有 斌 权限 。 

下 面 给 出 了 一 个 示例 /proc/sysvipc/sem 文件 的 内 容 〈 为 符合 版 面 的 要 求 ， 这 里 删除 了 一 些 空 格 )。 

$ cat /proc/sysvipc/sem 


key semid perms nsems uid gid cuid cgid otime ctime 
O 16646144 6000 4 1000 100 11000 100 O 1010166460 


这 三 个 fproc/sysvipe 文件 为 程序 和 脚本 提供 了 一 种 遍历 给 定 种 类 的 所 有 既 有 IPC OE 77 
法 (不 可 移植 )。 


获取 给 定 种 类 的 所 有 IPC 对 象 的 最 佳 可 移植 的 做 法 是 解析 ipcs(1) 的 输出 。 











45.8 IPC 限制 


由 于 System V IPC 对 和 象 会 消耗 系统 资源 ， 因 此 内 核对 各 种 IPC 对 和 象 进行 了 各 式 各 样 的 限制 
以 防止 资源 被 耗 尽 ,SUSv3 没有 对 用 于 限制 System V IPC 对 象 的 方法 进行 规定 , 但 大 多 数 UNIX 
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实现 (包括 Linux) 都 采用 了 类似 的 框架 来 对 对 象 进行 各 种 各 样 的 限制 。 在 下 面 介绍 各 种 System 
V IPC 机 制 的 章节 中 将 会 对 相关 的 限制 进行 讨论 并 指出 与 其 他 UNIX: 实现 之 间 的 莽 别 。 

尽 过 在 不 同 UNIX. 实现 之 间 对 各 种 IPC 对 象 所 能 施加 的 限制 闫 型 通 种 是 类 似 的 ， 但 奏 看 
和 修改 这 些 限 制 的 方法 则 是 不 同 的 。 下 和 耐 草 市 中 介绍 的 方法 古 Linux 特有 的 《它们 一 般 都 需要 
使 用 /proc/sys/kernel 目录 中 的 文件 )， 而 在 其 他 实现 上 则 需要 使 用 不 同 的 方法 。 


























在 Linux E, ipes -1 命令 可 以 用 来 列 出 各 种 IPC 机 制 上 的 限制 。 程序 可 以 使 用 Linux 特 
有 的 IPC INFO ctl 操作 来 获取 同样 的 信息。 





45.9 Ri 


System V IPC 是 首先 在 System V 中 被 广泛 使 用 的 三 种 IPC 机 制 的 名 称 并 且 之 后 被 移植 到 
了 大 多 数 UNIX 实现 中 以 及 被 加 入 了 加 入 了 各 种 标准 中 。 这 三 种 IPC 机 制 允 许 进 程 乙 间 交 换 
消息 的 消息 队列 ， 人 允许 进程 同步 对 共 孚 资源 的 访问 的 信号 量 ， 以 及 允许 两 个 或 更 多 进程 共 孚 
内 存 的 同一 个 页 的 共 亨 内存。 

这 三 种 IPC 机 制 在 API 和 语义 上 存在 很 多 相似 之 处 。 对 于 每 种 IPC 机 制 来 讲 ，get 系统 调 
用 会 创建 或 打开 一 个 对 象 。 给 定 一 个 整数 key, get 调用 返回 一 个 整数 标识 符 用 来 在 后 续 的 系 
统 调 用 中 引用 对 象 。 每 种 IPC 机 制 还 拥有 一 个 对 应 的 cd 调用 用 来 删除 一 个 对 象 以 及 获取 和 修 
改 对 象 的 关联 数据 结构 中 的 各 种 特性 《如 所 有 权 和 权限 )。 

用 来 为 新 IPC 对 象 生 成 标识 符 的 算法 航 设 计 成 将 《立即 ) 复 用 同样 的 标识 符 的 可 能 性 降 到 最 
小 ， 即 使 相应 的 对 象 已 经 被 柚 除 了 ， 甚 至 是 使 用 同样 的 key 来 创建 新 对 象 也 一 样 。 这 样 客 户 奖 - 
服务 器 应 用 程序 就 能 够 正常 工作 了 一 一 重新 月 动 的 服务 器 进程 能 够 检测 到 并 删除 上 一 个 服务 器 进 
程 创建 的 IPC 对 象 ， 并 且 这 个 动作 会 令 上 一 个 服务 器 进程 的 客户 端 所 保存 的 标识 符 失效 。 

ipes 命令 列 出 了 当前 位 于 系统 上 的 所 有 System V IPC 对 象 。ipcrm 命令 用 来 删除 System 
IPC 对 象 。 

在 Linux 上 ，/proc/sysvipc 目录 中 的 文件 可 以 用 来 获取 系统 上 所 有 System V IPC 对 象 的 信息 。 

每 种 IPC 机 制 都 有 一 组 相关 的 限制 ， 它 们 通过 阻止 创建 任意 数量 的 IPC 对 和 象 来 避免 系统 
资源 的 耗 尽 。/proc/sys/kernel 目录 中 的 各 个 文件 可 以 用 来 合 看 和 修改 这 些 限 制 。 


更 多 信息 
在 [Maxwell, 1999] 和 [Bovet & Cesati, 2005] 中 能 够 找到 System V IPC 在 Linux 上 的 实现 的 
信息 。[Goodheart & Cox, 1994] 介 绍 了 System V Release 4 中 System V IPC 的 实现 。 









































45.10 ”习题 


45-1. 编写 一 个 程序 来 验证 ftok0 所 采用 的 算法 是 否 如 45.2 市 中 插 述 的 那样 使 用 了 文件 的 
i-node 号 、 次 要 设备 写 以 及 proj 值 。( 通 过 几 个 例子 打印 出 所 有 这 些 值 以 及 ftokO 
的 返回 值 的 十 六 进 制 形式 即 可 。) 

45-2. 实现 ftokO)。 

45-3. 验证 (通过 实验 ) 45.5 市 中 有 关 用 于 生成 System V IPC 标识 符 的 算法 的 声明 。 
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System V 消息 队列 





EH 


本 章 介绍 System V 消息 队列 。 消 息 队列 允许 进程 以 消息 的 形式 交换 数据 。 尽 管 消息 队列 
在 某 些 方面 与 管道 和 FIFO 类 似 ， 但 它们 之 间 仍然 存在 显著 的 差别 。 

。 用 来 引用 消息 队列 的 句柄 是 一 个 由 msggetO 调 用 返回 的 标识 符 。 这 些 标识 符 与 UNIX 

系统 上 大 多 数 其 他 形式 的 VO 所 使 用 的 文件 描述 符 是 不 同 的 。 
。 通过 消息 队列 进行 的 通信 征 面向 消息 的 ， 即 读者 接收 到 由 写 者 写 入 的 整 条 消息 。 读 取 
一 条 消息 的 一 部 分 而 让 剩余 部 分 遗留 在 队列 中 或 一 次 读 取 多 条 消息 都 是 不 可 能 的 。 这 
点 与 管道 不 通 ， 管 道 提供 的 是 一 个 无 法 进行 区 分 的 字 节 流 〔 即 使 用 管道 时 读者 一 次 
可 以 读 取 任 意 数 量 的 字 节 数 ， 不 管 写 者 写 入 的 数据 抉 的 大 小 是 什么 )。 

* 除了 包含 数据 之 外 ， 每 条 消息 还 有 一 个 用 整数 表示 的 类 型 。 从 消息 队列 中 读 取消 息 既 
可 以 按照 先入 先 出 的 顺序 ， 也 可 以 根据 类 型 来 读 取消 息 。 

本 章 最 后 (46.9 节 ) 将 会 对 System V 消息 队列 所 存在 的 限制 进行 总 结 。 由 于 存在 这 些 
限制 ,因此 新 应 用 程序 应 该 尽 可 能 避免 使 用 System V 消息 队列 ， 而 应 该 使 用 其 他 形式 的 IPC 
机 制 ， 如 FIFO、POSIX 消息 队列 以 及 socket。 但 在 消息 队列 一 开始 被 设计 出 来 的 时 候 ， 这 
些 候选 机 制 不 是 还 没有 被 发 明 出 来 就 是 还 没有 在 UNIX 实现 中 被 广泛 采用 ,其 结果 是 存在 各 
类 使 用 消息 队列 的 既 有 应 用 程序 ， 这 也 是 在 这 里 对 消息 队列 进行 介绍 的 主要 原因 之 一 。 













































































46.1 创建 或 打开 一 个 消息 队列 


msggetO 系 统 调用 创建 一 个 新 消 县 队列 或 取得 一 个 既 有 队列 的 标识 符 。 


include <sys/types.h> /* For portability */ 
include «sys/msg.h» 





int msgget(key t key, int msgflg); 











Returns message queue identifier on success, or -1 on error 








key 参数 是 使 用 45.2 节 中 描述 的 方法 之 一 生成 的 一 个 键 〈 即 通常 是 值 IPC_PRIVATE 或 
ftokO 返 回 的 一 个 键 )。 msgflg 参数 是 一 个 指定 施加 于 新 消息 队列 之 上 的 权限 或 检查 一 个 既 有 队 
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列 的 权限 的 位 掩 码 。 此 外 ， 在 msgflg 参数 中 还 可 以 将 下 列 标记 中 的 零 个 或 多 个 标记 取 OR Cp 
以 控制 msggetO 的 操作 。 


IPC CREAT 
如 果 没 有 与 指定 的 key 对 应 的 消息 队列 ， 那 么 现 创 建 一 个 新 队列 。 
IPC EXCL 


如 果 同 时 还 指定 了 IPC CREAT 并 日 与 指定 的 key 对 应 的 队列 已 经 存在 , 那么 调用 就 会 失 
败 并 返回 EEXIST 错误 。 

在 45.1 市 中 对 这 些 标记 进行 了 评 细 描述 。 

msggetO 系 统 调 用 首先 会 在 所 有 既 有 消息 队列 中 搜索 与 指定 的 键 对 应 的 队列 。 如 果 拷 到 了 
一 个 匹配 的 队列 ， 那 么 就 会 返回 该 对 和 象 的 标识 行 〈 除 非 在 msgflg 中 同时 指定 了 IPC CREAT 
和 IPC_EXCL， 那 样 的 话 就 返回 一 个 错误 )。 如 果 没 有 找到 匹配 的 队列 并 且 在 msgflg 中 指定 了 
IPC_CREAT， 那 么 就 会 创建 一 个 狐 队列 并 返回 该 队列 的 标识 从。 

程序 清单 46-1 为 msggetO 系 统 调 用 提供 了 一 个 命令 行 界面 。 这 个 程序 允许 使 用 命令 行 选 
项 和 参数 来 指定 传递 给 msggetO 调 用 的 key 和 msgflg 参数 的 所 有 组 合 。usageError0 函 数 给 出 
了 这 个 程序 所 接受 的 命令 格式 的 细节 信息 。 在 成 功 创建 队列 之 后 ， 这 个 程序 会 打印 出 队列 标 
示 符 。46.2.2 节 将 会 演示 这 个 程序 的 用 法 。 
程序 清单 46-1: 使 用 msgget() 














svnsg/svmsg create.c 


include <sys/types.h> 
#include «sys/ipc.h» 
include «sys/msg.h» 
include «sys/stat.h» 
&include "tlpi hdr.h" 


static void /* Print usage info, then exit */ 
usageError(const char *progName, const char *msg) 
1 


if (msg !- NULL) 
fprintf(stderr, "5s", msg); 
fprintf(stderr, "Usage: %s [-cx] (-f pathname | -k key | -p) " 
"[octal-perms]Nn", progName); 


fprintf(stderr, " -C Use IPC CREAT flagWin"); 
fprintf(stderr, " -X Use IPC EXCL flag\n"); 
fprintf(stderr, " -f pathname Generate key using ftok()in"); 
fprintf(stderr, " -k key Use 'key' as key\n"); 
fprintf(stderr, " -p Use IPC PRIVATE key\n"); 
exit(EXIT FAILURE); 

} 

int 


main(int argc, char *argv[]) 
int numKeyFlags; /* Counts -f, -k, and -p options */ 
int flags, msqid, opt; 
unsigned int perms; 


long lkey; 
key t key; 


/* Parse command-line options and arguments */ 
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numKeyFlags - 0; 
flags - 0; 


while ((opt = getopt(argc, argv, "cf:k:px")) != -1) { 
switch (opt) 1 


case 'c': 
flags |- IPC CREAT; 
break; 
case 'f': /* -f pathname */ 
key - ftok(optarg, 1); 
if (key -- -1) 
errExit("ftok"); 
numKeyFlags++; 
break; 
case 'k': /* -k key (octal, decimal or hexadecimal) */ 


if (sscanf(optarg, "%li", &lkey) != 1) 
cmdLineErr("-k option requires a numeric argument\n"); 


key = lkey; 
numKeyFlags++; 
break; 

case 'p': 
key = IPC PRIVATE; 
numKeyFlags++; 
break; 

case 'x': 
flags |= IPC_EXCL; 
break; 

default: 


usageError(argv[0], "Bad option in"); 


j 


if (numKeyFlags !- 1) 
usageError(argv[0], "Exactly one of the options -f, -k, 
"or -p must be supplied in"); 


perms - (optind -- argc) ? (S IRUSR | S IWUSR) : 
getInt(argv[optind], GN BASE 8, "octal-perms"); 


msqid = msgget(key, flags | perms); 
if (msqid -- -1) 
errExit("msgget"); 


printf("XdNn", msgid); 
exit(EXIT SUCCESS); 


svnsg/svmsg create.c 


46.2 ”交换 消息 


msgsnd0 和 msgrcvO 系 统 调用 执行 消息 队列 上 的 WO。 这 两 个 系统 调用 接收 的 第 一 个 参数 
是 消 居 队 列 标识 从 (msqid)。 第 二 个 参数 msgp 是 一 个 由 程序 员 定 义 的 结构 的 指针 ， 该 结构 用 
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于 存放 被 发 送 或 接收 的 消息 。 这 个 结构 的 常规 形式 如 下 。 
struct mymsg { 
long mtype; /* Message type */ 
char mtext[]; /* Message body */ 
j 


这 个 定义 仅仅 简要 地 说 明了 消息 的 第 一 个 部 分 包含 了 消息 类 型 ， 它 用 一 个 类 型 为 long 的 
整数 来 表示 ， 而 消息 的 剩余 部 分 则 是 由 程序 员 定 义 的 一 个 结构 ， 其 长 度 和 内 容 可 以 是 任意 的 ， 
而 无 需 是 一 个 字符 数组 。 因 此 mgsp 参数 的 类 型 为 void *, 这 样 就 允许 传 入 任意 结构 的 指针 了 。 

mtext 字段 长 度 可 以 为 零 ， 当 对 于 接收 进程 来 讲 捷 需 传递 的 信息 仅 通 过 消息 类 型 融 能 表示 
或 只 需要 知道 一 条 消 有 息 本 身 是 否 存 在 时 ， 这 种 做 法 有 时 候 就 变 得 非常 有 用 了 。 


46.2.1 发 送 消息 
msgsnd0 系 统 调 用 回 消 息 队 列 写 入 一 条 消息 。 


























include <sys/types.h> /* For portability */ 
#include «sys/msg.h» 
int msgsnd(int msqid, const void *msgp, size t msgsz, int msgflg); 


Returns 0 on success, or -1 on error 


使 用 msgsnd0 发 送 消 息 必 须要 将 消息 结构 中 的 mtype 字段 的 值 设 为 一 个 大 于 0 WE CE 
下 一 节 讨 论 msgrcvO 时 会 介绍 这 个 值 的 用 法 ) 并 将 所 需 传 递 的 信息 复制 到 程序 员 定 义 的 mtext 
字段 中 。msgsz 参数 指定 了 mtext ^E Ez Ber I) AL. 


在 使 用 msgsnd0 发 送 消息 时 并 不 存在 writeO 所 具备 的 部 分 写 的 概念 。 这 也 是 成 功 的 
msgsndO 只 需要 返回 0 而 不 是 所 发 送 的 字 节 数 的 原因 。 


最 后 一 个 参数 msgflg 是 一 组 标记 的 位 掩 码 ， 用 于 控制 msgsnd0 的 操作 ， 目 前 只 定义 了 一 
个 这 样 的 标记 。 
IPC NOWAIT 

执行 一 个 非 阻塞 的 发 送 操作 。 通 常 ， 当 消息 队列 满 时 ，msgsnd0 会 阻塞 直到 队列 中 有 足够 
的 空间 来 存放 这 条 消息 。 但 如 果 指 定 了 这 个 标记 , 那么 msgsnd0 就 会 立即 返回 EAGAIN 错误 。 

当 msgsnd0 调 用 因 队列 满 而 发 生 阻 塞 时 可 能 会 被 信号 处 理 器 中 断 。 当 发 生 这 种 情况 时 ， 
msgsnd() 总 是 会 返回 EINTR 错误 。( 在 21.5 节 中 曾 指 出 过 msgsnd0 系 统 调用 永远 不 会 自动 重启 ， 
不 管 在 建立 信号 处 理 喜 时 是 否 设置 了 SA_RESTART 标记 。) 

问 消 息 队 列 写 入 消息 要 求 具 备 在 该 队列 上 的 写 权 限 。 

程序 清单 46-2 为 msgsnd0 系 统 调用 提供 了 一 个 命令 行 界面 。usageErrorO 函 数 显 示 了 这 个 
程序 接受 的 命令 行 格式 。 注 意 这 个 程序 没有 使 用 msggetO 系 统 调用 。( 在 45.1 节 中 讲 过 一 个 进 
程 无 需 使 用 get 调用 来 访问 一 个 IPC 对象 。) 相反 ， 这 里 通过 将 消息 队列 标识 符 设 定 为 命令 行 
参数 的 值 来 指定 消息 队列 。 在 46.2.2 节 中 将 会 演示 这 个 程序 的 用 法 。 
程序 清单 46-2: 使 用 msgsnd() 发 送 一 条 消息 


















































svmsg/svmsg send.c 
include <sys/types.h> 


#include «sys/msg.h» 
include "tlpi hdr.h" 
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#define MAX MTEXT 1024 


struct mbuf ( 


long mtype; /* Message type */ 
char mtext[MAX MTEXT]; /* Message body */ 
H 
static void /* Print (optional) message, then usage description */ 


usageError(const char *progName, const char *msg) 


if (msg !- NULL) 
fprintf(stderr, "Xs", msg); 
fprintf(stderr, "Usage: Xs [-n] msqid msg-type [msg-text]Nn", progName); 
fprintf(stderr, " -n Use IPC NOWAIT flagWin"); 
exit(EXIT FAILURE); 
} 


int 
main(int argc, char *argv[]) 
int msgid, flags, msgLen; 


struct mbuf msg; /* Message buffer for msgsnd() */ 
int opt; /* Option character from getopt() */ 


/* Parse command-line options and arguments */ 


flags = 0; 
while ((opt = getopt(argc, argv, "n")) !- -1) ( 
if (opt == 'n') 
flags |» IPC NOWAIT; 
else 


usageError(argv[0], NULL); 
} 


if (argc « optind + 2 || argc » optind + 3) 
usageError(argv[O], "Wrong number of arguments Wn"); 


msgid = getInt(argv[optind], 0, "msgid"); 
msg.mtype = getInt(argv[optind + 1], O, "msg-type"); 


if (argc > optind + 2) { /* 'msg-text' was supplied */ 
msgLen = strlen(argv[optind + 2]) + 1; 
if (msgLen > MAX MTEXT) 
cmdLineErr("msg-text too long (max: Xd characters)Wn", MAX MTEXT); 


memcpy(msg.mtext, argv[optind + 2], msgLen); 

} else { /* No 'msg-text' --» zero-length msg */ 
msgLen = 0; 

Í 

/* Send message */ 


if (msgsnd(msqid, &msg, msgLen, flags) == -1) 


errExit("msgsnd"); 


exit(EXIT SUCCESS); 


svmsg/svmsg send.c 
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46.2.2 ”接收 消息 


msgrcv() RVH PP BA PU TR ERU ARIMR 一 条 消息 并 将 其 内 容 复制 进 msgp 指 问 
的 缓冲 区 中 。 


#include «sys/types.h» /* For portability */ 
#include «sys/msg.h» 





ssize t msgrcv(int msqid, void *msgp, size t maxmsgsz, long msgtyp, int msgflg); 


Returns number of bytes copied into mtext field, or -1 on error 











msgp 绥 冲 区 中 mtext 学 段 的 最 大 可 用 空间 是 通过 maxmsgsz 参数 来 指定 的 。 如 果 队 列 中 
符 删 除 的 消息 体 的 大 小 超过 了 maxmsgsz 字 节 ， 那 么 就 不 会 从 队列 中 删除 消息 ， 并 且 msgrevO 
会 返回 错误 E2BIG。( 这 是 默认 行为 ， 可 以 使 用 MSG NOERROR 标记 来 改变 这 种 行为 ， 稍 后 
就 会 对 此 进行 介绍 。) 
该 取消 息 的 顺序 无 需 与 消 上 息 被 发 送 的 一 致 。 可 以 根据 mtype 字段 的 值 来 选择 消 有 乱 ， 而 这 
个 选择 过 程 是 由 msgtyp 参数 来 控制 的 ， 有 具体 如 下 所 述 。 
e WR msgtyp 等 于 0， 那 么 会 删除 队列 中 的 第 一 条 消 上 县 并 将 其 返回 给 调用 进程 。 
e 如 果 msgtyp 大 于 0， 那 么 会 将 队列 中 第 一 条 mtype 等 于 msgtyp 的 消息 删除 并 将 其 返 
回 给 调用 进程 。 通 过 指定 不 同 的 msgtyp 值 ， 多 个 进程 能 够 从 同一 个 消息 队列 中 读 取 
消息 而 不 会 出 现 竞 争 恋 取 同一 条 消 县 的 情况 。 比 较 有 用 的 一 项 技术 是 让 各 个 进程 选取 
与 自己 的 进程 ID 匹配 的 消息 。 
e WR msgtyp 小 于 0， 那 么 束 会 将 等 竺 消息 当成 优先 队列 来 处 理 。 队 列 中 mtype 最 小 并 
且 其 值 小 于 或 等 于 msgtyp 的 绝对 值 的 第 一 条 消 有 息 会 被 删除 并 返回 给 调用 进程 。 
下 面 通过 一 个 例子 将 讲解 msgtyp 小 于 0 时 的 情况 。 假 设 一 个 消息 队列 包含 了 图 46-1 中 显 
示 的 一 组 消息 ， 接 着 执行 一 系列 的 msgrcvO 调 用 ， 其 形式 如 下 。 
msgrcv(id, &msg, maxmsgsz, -300, 0); 
这 些 msgrev0 调 用 会 按照 2( 类 型 为 100)、5( 类 型 为 100)、3〔 类 型 为 200)、1 (类 型 为 
300) 的 顺序 读 取 消 和 县。 后 续 的 调用 会 阻 玫 ， 因 为 剩余 的 消息 的 类 型 (400) 超过 了 300. 
msgflg 参数 是 一 个 位 手 码 ， 它 的 值 通过 将 下 列 标记 中 的 零 个 或 多 个 取 OR 来 确定 。 


IPC NOWAIT 

执行 一 个 非 阻 蹇 接收。 通常 如 果 队 列 中 没有 匹配 msgtyp KE, MWA msgrcv0O 会 阻塞 直 
到 队列 中 存在 匹配 的 消息 为 止 。 指 定 IPC NOWAIT 标记 会 导致 msgrcv0 立 即 返回 ENOMSG 
错误 。( 返 回 EAGAIN 错误 会 使 一 任性 更 强 一 点 ， 因 为 非 阻 寨 的 msgsnd0 和 FIFO 中 的 非 阻 塞 
读 取 也 是 返回 这 个 错误 , 但 之 所 以 返回 ENOMSG 错误 是 存在 历史 原因 的 ， SUSv3 也 要 求 返回 
ENOMSG.) 
























































MSG EXCEPT 

只 有 当 msgtyp AF 0 时 这 个 标记 才 会 起 作用 ， 它 会 强制 对 常规 操作 进行 补 是 ， 即 将 队列 
中 第 一 条 mtype 不 等 于 msgtyp 的 消 因 删除 并 将 其 返回 给 调用 者 。 这 个 标记 是 Linux 特有 的 ， 
只 有 当 定 义 了 _GNU_SOURCE 之 后 才 会 在 <sys/msg.h> 中 提供 这 个 标记 ,在 图 46-1 中 给 出 的 消 
息 队 列 上 执行 一 系列 形式 为 msgrcv(id, &msg, maxmsgsz, 100, MSG EXCEPT) 的 调用 将 会 按照 
1、3、4 顺序 读 取 消息 ， 之 后 发 生 阻 吉 。 
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MSG NOERROR 
在 默认 情况 下 ， 当 消 县 的 mtext FRIIK 




















消息 类 型 消息 正文 
小 超过 了 可 用 空间 时 (由 maxmsgsz 参数 定 队列 位 置 (mtype) (mtext) 
XO, msgrcvO 调 用 会 失败 。 如 果 指 定 了 MSG ||] 30 [| | 
NOERROR 标记 ， 那 么 msgrcvO 将 会 从 队列 中 9 | 
删除 消息 并 将 其 mtext 字段 的 大 小 截 短 为 3 
maxmsgsz 学 全， 然后 将 消息 返回 给 调用 者 。 4 
WEREMA ER. 5 





msgrcv0 成 功 完成 之 后 会 返回 接收 到 的 消 
mood heit 大 小 ”发 后 请 误 四 则 返回 _1 图 46-1: 包含 不 同类 型 的 消息 的 示例 消息 队列 
与 msgsnd0 一 样 , 如 果 被 阻塞 的 msgrev0 调 用 被 一 个 信号 处 理 器 中 断 了 , 那么 调用 会 失败 
并 返回 EINTR 错误 ， 不 管 在 建立 信号 处 理 器 时 是 否 设置 了 SA_RESTART 标记 。 
从 消息 队列 中 读 取 消息 需要 具备 在 队列 上 的 读 权限 。 

















示例 程序 


程序 清单 46-3 为 msgrcv0 系 统 调用 提供 了 一 个 命令 行 界面 。usageError0 函 数 显 示 了 这 个 程序 
接受 的 命令 行 格式 。 与 程序 清单 46-2 中 演示 msgsnd0 的 用 法 的 程序 一 样 ， 这 个 程序 也 没有 使 用 
msggetO 系 统 调用 ， 相 反 它 需要 在 命令 行 参数 中 传 入 一 个 消息 队列 标识 符 。 

Fifi] shell 会 话 演 示 了 程序 清单 46-1、 程 序 清单 46-2、 程 序 清单 46-3 中 的 程序 的 用 法 。 
这 里 首先 使 用 IPC PRIVATE 键 创 建 了 一 个 消 居 队列 ， 然 后 问 队 列 中 写 入 了 三 条 不 同类 型 的 消 居 。 


$ ./svmsg create -p 

32769 ID of message queue 
$ ./svmsg send 32769 20 "I hear and I forget." 

$ ./svmsg send 32769 10 "I see and I remember." 

$ ./svmsg send 32769 30 "I do and I understand." 


接 看 使 用 程序 清单 46-3 中 的 程序 从 队列 中 读 取 类 型 小 于 或 等 于 20 FEES e 


$ ./svmsg receive -t -20 32769 

Received: type-10; length-22; body-I see and I remember. 
$ ./svmsg receive -t -20 32769 

Received: type-20; length-21; body-I hear and I forget. 
$ ./svmsg receive -t -20 32769 


上 面 最 后 一 条 命令 会 阻塞 ， 因 为 队列 中 已 经 没有 类 型 小 于 或 等 于 20 的 消息 了 。 因 此 需要 
输入 Control-C 来 终止 这 个 命令 ， 然 后 执行 一 个 从 队列 中 读 取 任意 类 型 的 消息 的 命令 。 


Type Control-C to terminate program 
$ ./svmsg receive 32769 
Received: type-30; length-23; body-I do and I understand. 


程序 清单 46-3: 使 用 msgrcv() 读 取 一 条 消息 



































svmsg/svmsg_receive.c 


#define GNU SOURCE /* Get definition of MSG EXCEPT */ 
#include «sys/types.h» 

#include «sys/msg.h» 

#include "tlpi hdr.h" 


itdefine MAX MTEXT 1024 
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struct mbuf { 
long mtype; /* Message type */ 
char mtext[MAX_MTEXT]; /* Message body */ 
}; 


static void 
usageError(const char *progName, const char *msg) 


if (msg !- NULL) 

fprintf(stderr, "Xs", msg); 
fprintf(stderr, "Usage: Xs [options] msqid [max-bytes]WNn", progName); 
fprintf(stderr, "Permitted options are:\n"); 


fprintf(stderr, " -e Use MSG NOERROR flagWin"); 
fprintf(stderr, " -t type Select message of given type\n"); 
fprintf(stderr, " -n Use IPC NOWAIT flagWin"); 

#ifdef MSG EXCEPT 
fprintf(stderr, " -X Use MSG EXCEPT flag\n"); 

ftendif 
exit(EXIT FAILURE); 

J 

int 


main(int argc, char *argv[]) 


int msqid, flags, type; 

ssize t msglen; 

size t maxBytes; 

struct mbuf msg; /* Message buffer for msgrcv() */ 
int opt; /* Option character from getopt() */ 


/* Parse command-line options and arguments */ 


flags - 0; 

type - 0; 

while ((opt = getopt(argc, argv, "ent:x")) !- -1) { 
switch (opt) 1 


case 'e': flags |= MSG NOERROR; break; 

case 'n': flags |= IPC NOWAIT; break; 

case 't': type = atoi(optarg); break; 
#ifdef MSG EXCEPT 

case 'x': flags |» MSG EXCEPT; break; 
#endif 

default: usageError(argv[0], NULL); 

} 

} 


if (argc < optind + 1 || argc > optind + 2) 
usageError(argv[O], "Wrong number of arguments n"); 


msgid = getInt(argv[optind], 0, "msgid"); 
maxBytes = (argc > optind + 1) ? 
getInt(argv[optind + 1], O, "max-bytes") : MAX MTEXT; 
/* Get message and display on stdout */ 
msglen = msgrcv(msgid, &msg, maxBytes, type, flags); 


if (msgLen == -1) 
errExit("msgrcv"); 
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printf("Received: type=%ld; length-/^ld", msg.mtype, (long) msgLen); 
if (msgLen > 0) 
printf("; body-Xs", msg.mtext); 
printf("Nn"); 
exit(EXIT SUCCESS); 


svmsg/svmsg receive.c 


46.3 消息 队列 控制 操作 


msgctl0 系 统 调用 在 标识 符 为 msqid 的 消息 队列 上 执行 控制 操作 。 








include <sys/types.h> /* For portability */ 
#include «sys/msg.h» 


int msgctl(int msqid, int cmd, struct msgid ds *buf); 


Returns 0 on success, or -1 on error 











cmd 参数 指定 了 在 队列 上 执行 的 操作 ， 其 取 值 是 下 列 值 中 的 一 个 。 


IPC_RMID 

立即 删除 消息 队列 对 象 及 其 关联 的 msqid_ds 数据 结构 .队列 中 所 有 剩余 的 消息 都 会 丢失 ， 
所 有 被 阻 压 的 该 者 和 写 者 进程 会 立即 醒 来 ，msgsnd0 和 msgrcvO 会 失败 并 返回 错误 EIDRM. 
这 个 操作 会 忽略 传递 给 msgctlO 的 第 三 个 参数 。 


IPC STAT 
将 与 这 个 消息 队列 关联 的 msqid. ds 数据 结构 的 副本 放 到 buf 指向 的 缓冲 区 中 。 在 46.4 市 
将 会 介绍 msqid ds 结构 。 
IPC SET 
使 用 buf 指向 的 缓冲 区 提供 的 值 更 新 与 这 个 消息 队列 关联 的 msqid_ds 数据 结构 中 被 选中 的 字段 。 
45.3 节 介 绍 了 更 多 有 关 这 些 操作 的 细节 ， 包 括 调用 进程 所 需 的 特权 和 权限 。46.6 节 将 会 
介绍 cmd 可 取 的 其 他 一 些 值 。 
程序 清单 46-4 演示 了 如 何 使 用 msgctl0 来 删除 一 个 消息 队列 。 


程序 清单 46-4: 删除 System V 消息 队列 









































svmnsg/svmsg rm.c 

include <sys/types.h> 
#include «sys/msg.h» 
include "tlpi hdr.h" 
int 
main(int argc, char *argv[]) 

int j; 

if (argc > 1 88 strcmp(argv[1], "--help") == 0) 

usageErr("Xs [msqid...]Wn", argv[0]); 


for (j = 1; j < argc; j++) 
if (msgctl(getInt(argv[j], 0, "msqid"), IPC RMID, NULL) == -1) 


第 46 & — System V 消息 队列 777 


异步 社区 会 员 flyman150(2410757683 (9 qq.com) EF 尊重 版 权 


errExit("msgctl Xs", argv[j]); 
exit(EXIT SUCCESS); 


svmsg/svmsg rm.c 


46.4 消息 队列 天 联 效 据 结构 


每 个 消息 队列 都 有 一 个 关联 的 msqid ds 数据 结构 ， 其 形式 如 下 。 
struct msgid ds { 


struct ipc perm msg perm; /* Ownership and permissions */ 
time t msg stime; /* Time of last msgsnd() */ 

time t msg rtime; /* Time of last msgrcv() */ 

time t msg ctime; /* Time of last change */ 
unsigned long msg cbytes; /* Number of bytes in queue */ 
msgqnum t msg qnum; /* Number of messages in queue */ 
msglen t msg qbytes; /* Maximum bytes in queue */ 

pid t msg lspid; /* PID of last msgsnd() */ 

pid t msg lrpid; /* PID of last msgrcv() */ 


F 


名 称 msqid ds 中 的 缩写 msg 会 令 程序 员 感 到 糊涂 。 只 有 这 一 个 消息 队列 接口 使 用 这 种 拼 
EE 

msgqnum t 和 msglen t 数据 类 型 一 一 用 于 定义 msg qnum 和 msg qbytes 字段 的 类 型 一 一 在 
SUSv3 中 被 规定 为 无 符号 整 型 。 

各 种 消息 队列 系统 调用 会 隐 式 地 更 新 msqid_ds 结构 中 的 字段 ， 使 用 msgctO IPC SET 操 
作 则 可 以 显 式 地 更 新 其 中 一 些 字 段 。 细 下 信息 如 下 。 
msg perm 

在 创建 消 居 队列 之 后 会 按照 45.3 和 中 摘 述 的 那样 初始 化 这 个 子 结构 中 的 字段 。uid、gid 
以 及 mode 子 字 段 可 以 通过 IPC. SET 来 更 新 。 


msg stime 

在 队列 被 创建 之 后 这 个 字段 会 被 设置 为 0; 后 续 每 次 成 功 的 msgsnd0 调 用 都 会 将 这 个 字段 
设置 为 当前 时 间 。 这 个 字段 和 msqid ds 结构 中 其 他 时 间 戳 字段 的 闫 型 都 是 tme t; 它们 存储 
目 新 纪元 到 现在 的 秒 数 。 
msg rtime 

在 消息 队列 被 创建 之 后 这 个 字段 会 被 设置 为 0,， 然后 每 次 成 功 的 msgrev0 调 用 都 会 将 这 个 
字段 设置 为 当前 时 间 。 




















msg ctime 
当 消 息 队 列 被 创建 或 成 功 执行 了 IPC SET 操作 之 后 会 将 这 个 字段 设置 为 当前 时 间 。 
. msg cbytes 





当 消 息 队列 被 创建 之 后 会 将 这 个 字段 设置 为 0， 后续 每 次 成 功 的 msgsndO 和 msgrev0 调 用 
都 会 对 这 个 字段 进行 调整 以 反映 出 队列 中 所 有 消息 的 mtext 字段 包含 的 字 节 数 总 和 。 
msg qnum 

当 消 息 队列 被 创建 之 后 会 将 这 个 字段 设置 为 0， 后 续 每 次 成 功 的 msgsnd0 调 用 会 递增 这 个 字 
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段 的 值 并 且 每 次 成 功 的 msgrcvO 调 用 会 递减 这 个 字段 的 值 以 便 反 映 出 队列 中 的 消息 总 数 。 


msg qbytes 

这 个 字段 的 值 为 消息 队列 中 所 有 消息 的 mtext 字段 的 字 和 总数 定义 了 一 个 上 限 。 在 队列 被 创 
建 之 后 会 将 这 个 字段 的 值 初始 化 为 MSGMNB。 特权 (CAP SYS RESOURCE) 
IPC SET 操作 将 msg qbytes 的 值 调整 为 0 FAINT MAX (32 位 平台 上 是 2147483647) F 
之 间 的 任意 一 个 值 。 特权 用 户 可 以 修改 Linux 特有 的 /proc/sys/kernel/ msgmnb 文件 中 包 Nm 
改 所 有 后 续 创 建 的 消息 队列 的 初始 msg_qbytes 设置 以 及 非特 权 进 程 后 续 对 msg_qbytes 修改 时 所 能 
设置 的 上 限 。46.5 市 将 会 介绍 更 多 有 关 消 恩 队 列 限 制 方面 的 内 容 。 


msg lspid 

当 队 列 被 创建 之 后 会 将 这 个 字段 设置 为 0, 后 续 每 次 成 功 的 msgsnd0 调 用 会 将 其 设置 为 调 
用 进程 的 进程 ID. 
msg Irpid 

当 消息 队列 被 创建 之 后 会 将 这 个 字段 设置 为 0, 后续 每 次 成 功 的 msgrcvO 调 用 会 将 其 设置 
为 调用 进程 的 进程 ID. 

SUSv3 对 上 面 除 _msg_cbytes 字段 乙 外 的 所 有 其 他 字段 都 进行 了 规定 。 而 大 多 数 UNIX 
实现 都 所 供 了 一 个 与 _msg_cbytes 字段 等 价 的 字段 。 

程序 清单 46-5 演示 了 如 何 使 用 IPC STAT 和 IPC SET 操作 来 修改 一 个 消息 队列 的 
msg qbytes 设置 。 


程序 清单 46-5: 修改 一 个 System V. 消息 队列 的 msg abytes 设置 


svmsg/svmsg chqbytes.c 


























五 














#include «sys/types.h» 
#include «sys/msg.h» 
include "tlpi hdr.h" 

int 

main(int argc, char *argv[]) 


struct msgid ds ds; 


int msqid; 
if (argc != 3 || stremp(argv[1], "--help") == 0) 
UsageErr("%s msgid max- poA , argv[0]); 


/* Retrieve copy of associated data structure from kernel */ 
msqid = getInt(argv[1], O, "msqid"); 
if (msgctl(msqid, IPC STAT, &ds) -- -1) 
errExit("msgctl"); 
ds.msg qbytes = getInt(argv[2], 0, "max-bytes"); 


/* Update associated data structure in kernel */ 


if (msgctl(msqid, IPC SET, &ds) -- -1) 
errExit("msgctl"); 


exit(EXIT SUCCESS); 


svmsg/svmsg chqbytes.c 
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46.5 消息 队列 的 限制 


大 多 数 UNIX 实现 会 对 System V 消息 队列 的 操作 施加 各 种 各 样 的 限制 。 下 面 会 对 Linux 系 
统 上 的 限制 进行 介绍 并 指出 其 与 其 他 UNIX 实现 之 间 的 天 列 。 

Linux 会 对 队列 操作 施加 下 列 限 制 。 括 号 中 列 出 了 限制 所 影响 到 的 系统 调用 以 及 当 达 到 限 
制 时 所 产生 的 错误 。 


MSGMNI 
这 是 系统 级 别 的 一 个 限制 ， 它 规定 了 系统 中 所 能 创建 的 消息 队列 标识 符 〈 换 句 话 说 是 消 
息 队 列 ) 的 数量 。(Cmsgsget0)，ENOSPC ) 











MSGMAX 
这 是 系统 级 别 的 一 个 限制 , 它 规 定 了 单条 消 居 中 最 多 可 与 入 的 子 市 数 (mtext)。(msgsnd()， 
EINVAL) 

















MSGMNB 

一 个 消息 队列 中 一 次 最 多 保存 的 字 节 数 (mtext)。 这 个 限制 是 一 个 系统 级 别 的 参数 ， 它 用 
来 初始 化 与 消息 队列 相关 联 的 msqid_ds 数据 结构 的 msg_qbytes 字段 ,根据 46.4 市 中 的 描述 可 
以 修改 各 个 队列 的 msg qbytes 值 。 如 果 达 到 一 个 队列 的 msg qbytes 限制 ， 那 么 msgsndO0 会 阻 
EE IPC NOWAIT 被 设置 时 返回 EAGAIN 错误 。 

一 些 UNIX 实现 还 定义 了 下 列 限制 。 

















MSGTQL 
这 是 系统 级 别 的 一 个 限制 ， 它 规定 了 系统 中 所 有 消息 队列 所 能 存放 的 消息 总 数 。 
MSGPOOL 





XX X ZR ERI RE. "XE T HOKTEXICR SEP PUR TH BA VU E BS 2 38 ER] E PR K 
Xe 

SE Linux 没有 规定 上 述 限 制 ， 但 它 会 根据 队列 的 msg qbytes 限制 来 限制 单个 队列 中 的 
消息 总 数 。 只 有 当 癌 队列 写 入 长 度 为 零 的 消息 时 才 会 涉及 到 这 个 限制 ， 其 效果 是 对 同 队 列 可 
写 入 的 长 度 为 零 的 消 县 的 数量 的 限制 与 对 癌 队 列 可 写 入 的 长 度 为 1 字 和 的 消 上 县 的 数量 的 限制 
是 一 样 的 。 这 样 孢 能 够 防止 问 队 列 无 限制 地 写 入 长 度 为 零 的 消息 。 尽 管 这 些 消 县 不 包含 数据 ， 
但 每 个 长 度 为 零 的 消 县 都 会 消耗 一 小 块 内 存 以 便 系 统 进行 每 记 工 作 。 

在 系统 局 动 的 时 候 会 将 消息 队列 限制 议 置 为 默认 值 。 不 同 厂 本 的 内 核 上 的 默认 信和 是 不 同 
的 。( 一 些 发 行 厂商 发 行 的 内 核 中 的 默认 设置 与 vanilla 内 核 中 的 默认 设置 是 不 同 的 。) 在 Linux 
上 可 以 通过 /proc 文件 系统 中 的 文件 来 查看 和 修改 这 些 限 制 。 表 46-1 显示 了 与 各 个 限制 对 应 的 
/proc 文件 。 下 面 是 一 个 x86-32 系统 上 Linux 2.6.31 内 核 中 的 默认 限制 。 


$ cd /proc/sys/kernel 
$ cat msgmni 

748 

$ cat msgmax 

8192 

$ cat msgmnb 

16384 
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X 46-1: System V 消息 队列 限制 


限 制 上 限 值 ( x86-32 ) /proc/sys/kernel 中 的 对 应 文件 


MSGMNI 32768 (IPCMNI) msgmni 
MSGMAX 依赖 于 可 用 内 存 msgmax 
MSGMNB 2147483647 (INT MAX) msgmnb 














K 46-1 中 的 上 限 值 那 一 列 显示 了 在 x86-32 架构 上 每 个 限制 所 能 达到 的 最 大 值 。 注 意 尽 
可 以 将 MSGMNB 限制 的 值 设置 为 INT_MAX, 但 在 消 县 队列 中 载 入 这 么 多 的 数据 之 前 可 能 
达到 其 他 一 些 限制 (如 缺少 内 存 )。 

Linux 特有 的 msgctlO IPC INFO 操作 能 够 获取 一 个 类 型 为 msginfo 的 结构 , 其 中 包含 了 各 
种 消息 队列 限制 的 值 。 


struct msginfo buf; 


管 
全 
ZN 


msgctl(0, IPC INFO, (struct msqid ds *) 8&buf); 
AK IPC INFO 和 msginfo 结构 的 细节 信息 可 以 在 msgctl(2) 手 册 中 找到 。 


46.6 ”显示 系统 中 所 有 消息 队列 


在 45.7 节 中 曾 讲 过 一 种 获取 系统 中 所 有 IPC 对 象 列 表 的 方法 : 通过 /proc 文件 系统 中 的 一 
组 文件 ,下 和 面 介绍 获取 相同 信息 的 第 二 种 方法 :通过 Linux 特有 的 一 组 IPC ctl(msgctlO0、semctl() 
以 及 shmctlQ) 操作 。(ipcs 程序 使 用 了 这 些 操 作 。) 这 些 操作 如 下 。 
e MSG INFO, SEM INFO 以 及 SHM INFO: MSG INFO 操作 完成 两 件 事情 。 第 一 件 
事情 是 它 将 返回 一 个 结构 来 详细 描述 系统 上 所 有 消息 队列 的 资源 消耗 情况 。 第 二 件 事 情 
是 作为 cd 调用 的 函数 结果 ， 它 将 返回 指向 表示 消息 队列 对 象 的 数据 结构 的 entries 数 
组 中 最 大 项 的 下 标 (参见 图 45-10. SEM. INFO 和 SHM INFO 操作 分 别 对 信号 量 集合 
共享 内 存 段 执 行 了 类 似 的 任务 。 要 从 相应 的 System V IPC 头 文件 中 获取 这 三 个 常量 的 
定义 就 必须 要 定义 GNU SOURCE 特性 测试 宏 。 


本 书 随 带 的 源 代 码 中 svmsg/svmsg_info.c 文件 中 给 出 了 一 个 使 用 MSG INFO 获取 
msginfo 结构 的 例子 ， 该 结构 包含 了 与 所 有 消息 队列 对 象 所 消耗 的 资源 相关 的 信息 。 


e MSG STAT, SEM STAT 以 及 SHM STAT: 5 IPC STAT 操作 一 样 ， 这 些 操 作 获 取 一 
个 IPC 对 和 象 的 关联 数据 结构 ， 但 它们 之 间 存 在 两 方面 的 不 同 。 第 一 ， 与 cd 调用 的 第 
一 个 参数 为 IPC 标识 符 不 同 ， 这 些 操作 的 第 一 个 参数 是 entries 数组 中 的 一 个 下 标 。 第 
二 ， 如 果 操 作 执行 成 功 了 ,那么 作为 函数 结果 ，ct 调用 会 返回 与 该 下 标 对 应 的 IPC 对 
象 的 标识 符 。 要 从 相应 的 System V IPC 头 文件 中 获取 这 三 个 音量 的 定义 束 必 须要 定义 
_GNU_SOURCE 特性 测试 宏 。 
按照 下 面 的 步骤 可 以 列 出 系统 上 上 所 有 消息 队列 。 
1. 使 用 MSG INFO 操作 找到 消 恩 队列 的 entries 数组 的 最 大 下 标 (maxind)。 
2. 执行 一 个 循环 ， 对 0 到 maxind (包含 ) 之 间 的 每 一 个 值 都 执行 一 个 MSG STAT 操作 。 在 
循环 过 程 中 忽略 因 entries 数组 中 的 元 到 为 容 而 发 生 的 错误 (EINVAL) 以 及 在 数组 中 元 于 
所 引用 的 对 象 上 不 具备 相应 的 权限 而 发 生 的 错误 (EACCES). 
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程序 清单 46-6 按照 上 面 的 步骤 实现 了 对 消息 队列 的 处 理 。 下 面 的 shell 会 话 日 志 演 示 
个 程序 的 用 法 。 


$ ./svmsg ls 


maxind: 4 
index ID key messages 
2 98306 | 0x00000000 0 
4 163844 0x00000442 2 
$ ipcs -q Check above against output of ipcs 


------ Message Queues -------- 


key msqid owner perms used-bytes | messages 
0x00000000 98306 mtk 600 0 0 
0x000004d2 163844 mtk 600 12 2 


程序 清单 46-6: 显示 系统 上 所 有 System V 消息 队列 


svmsg/svmsg ls.c 


#define GNU SOURCE 
#include «sys/types.h» 
#include «sys/msg.h» 
#include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


int maxind, ind, msgid; 
struct msgid ds ds; 
struct msginfo msginfo; 


/* Obtain size of kernel 'entries' array */ 


maxind = msgctl(0, MSG INFO, (struct msqid ds *) &msginfo); 
if (maxind -- -1) 
errExit("msgctl-MSG INFO"); 


printf("maxind: %d\n\n", maxind); 
printf("index id key messages Nn"); 


/* Retrieve and display information from each element of 'entries' array */ 


for (ind = 0; ind <= maxind; inde) { 
msqid = msgctl(ind, MSG STAT, &ds); 
if (msgid == -1) { 
if (errno !- EINVAL && errno !- EACCES) 
errMsg("msgctl-MSG STAT"); /* Unexpected error */ 
continue; /* Ignore this item */ 


j 


printf("X4d 48d Ox%081lx *71dXn", ind, msqid, 
(unsigned long) ds.msg perm. key, (long) ds.msg qnum); 


j 


exit(EXIT SUCCESS); 


svmsg/svmsg ls.c 
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46.7 [fBFRGBABSISIJSP:s-Bs3s 23 FH IEN 


在 客户 端 -服务 器 应 用 程序 设计 中 使 用 System V 消息 队列 的 方式 有 很 多 种 , 本 节 将 介绍 其 
中 两 种 。 
。 (El os di RU) om ac |) EH] RI ER A BA PIT TOUR TP e S -o 
。 服务 磊 和 各 个 客户 站 使 用 单独 的 消 轧 队列 ， 服 务 礁 上 的 队列 用 来 接收 进入 的 客户 端 请 
求 ， 相 应 的 啊 应 则 通过 各 个 客户 站 队列 来 发 送 给 客户 端 。 
全 于 选择 何 种 方法 依赖 于 应 用 程序 的 需求 , 稍 后 介绍 可 能 会 影响 到 决 宁 的 其 中 一 些 
AR e 


Bg 35 zs IRETE S FH — ^1 384 48 DÀ P0 
ZIRI Ar e) om an T8] S8 CER TER EA KRBE HEH — P 8 LA Ferr], 1 EET 
E. FJL 
e 由 于 多 个 进程 可 能 会 同时 读 取消 息 ， 因 此 必须 要 使 用 消息 类 型 (Omtype) 字段 来 让 各 
个 进程 上 只 选择 那些 发 给 目 己 的 消息 。 完 成 这 个 任务 的 一 种 方法 是 将 客户 站 的 进程 ID 
作为 服务 亏 发 送 给 客户 冰 的 消息 的 消息 类 型 。 客 尸 闯 可 以 将 其 进程 ID. 作为 消息 的 一 
部 分 发 送 给 服务 右 。 此 外 ， 发 送 给 服务 需 的 消 筷 也 必须 要 能 够 使 用 唯一 的 消息 突 型 来 
加 以 区 分 ， 而 这 可 以 使 用 数字 1 来 完成 ， 因 为 1 是 永远 运行 看 的 init 进程 的 进程 ID, 
客户 站 进程 的 进程 ID 水 远 痢 不 可 能 为 这 个 值 。( 为 一 种 方法 是 将 服务 占 的 进程 ID 作 
为 消息 类 型 , 但 客户 端 要 获取 这 个 信息 束 比 较 困 难 了 。) 图 46-2 给 出 了 这 种 计数 模型 。 























































服务 器 读 取 
请 求 (选择 
msegtyp = 1) 


HR 365 aie 22 35 T Jw 


端的 PID) 消息 队列 






Tr 


客户 端 发 送 请 求 客户 端 读 取 响 应 
(mtype — L,mtext (选择 msgnp = 
包含 客户 端 PID) 自己 的 PID) 


J PM 


46-2: 在 客户 端 -服务 器 IPC 中 使 用 单个 消息 队列 








。 消息 队列 的 容量 是 有 限 的 ， 而 这 可 能 会 导致 一 系列 问题 的 发 生 。 其 中 一 个 问题 加 是 多 
个 并 行 的 客户 端 可 能 会 填 满 消息 队列 ， 从 而 导致 死 锁 的 发 生 ， 即 所 有 新 客户 丧 都 无 法 
提交 请 求 ， 服 务 器 在 写 入 任何 啊 应 时 会 及 生 阻 塞 。 另 一 个 问题 是 行为 不 民 或 恶意 的 客 
户 站 可 能 不 会 读 取 服务 器 的 啊 应 ， 从 而 导致 队列 中 充满 了 未 被 恋 取 的 消息 ， 进 而 阻止 
了 客户 哨 和 服务 豆 之 间 的 通信 。《“ 使 用 两 个 队列 一 一 一 个 用 于 存放 客户 喘 发 送 给 服务 
吉 的 消息 ， 另 一 个 用 于 存放 服务 需 发 送 给 客户 问 的 消 县 一 一 将 会 解决 第 一 个 问题 ， 但 
无 法 解决 第 二 个 问题 。) 
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—^r 3& Pig [8 FH — 1 3B 3 BA 771] 
当 需 要 交换 的 消息 的 大 小 较 大 或 当 使 用 单个 消息 队列 可 能 会 导致 发 生前 面 列 出 的 问题 时 
最 好 为 每 个 客户 端 都 使 用 一 个 消息 队列 《服务 器 也 需要 一 个 队列 )。 使 用 这 种 方法 需要 注意 以 
ys 
。 每 个 客户 端 必须 要 创建 自己 的 消息 队列 (通常 使 用 IPC PRIVATE H) 并 通知 服务 器 队 
列 的 标识 符 ， 这 通 铝 通过 将 标识 符 作 为 客户 端 发 送 给 服务 器 的 消 县 的 一 部 分 来 完成 。 
。 系统 对 消息 队列 的 数量 是 有 限制 的 (MSGMNI)， 这 个 限制 的 默认 值 在 一 些 系统 上 是 
非常 低 的 。 如 果 同 时 运行 的 客户 端 数量 庞大 ， 那 么 可 能 就 需要 提高 这 个 限制 的 值 。 
e 服务 器 应 该 允许 出 现 客户 端的 消 奶 队列 不 再 存在 的 情况 (可 能 是 由 于 客户 端 不 小 心 删 
除了 队列 )。 
下 一 节 将 会 对 为 每 个 客户 端 使 用 一 个 队列 这 种 方法 进行 深入 介绍 。 



























































46.8 ”使 用 消息 队列 实现 文件 服务 器 应 用 程序 


本 市 将 介绍 一 个 为 每 个 客户 咒 使 用 一 个 消息 队列 的 客户 器 /服务 器 应 用 程序 。 这 个 应 用 程 
序 是 一 个 简单 的 文件 服务 器 。 客 户 端 问 服 务 右 的 消息 队列 发 送 一 个 请 求 消息 请 求 指定 名 称 的 
文件 的 内 容 。 服 务 亏 将 文件 的 内 容 作为 一 系列 的 消息 返回 到 客户 咒 私 有 的 消息 队列 中 。 几 46-3 
概览 了 该 应 用 程序 。 





























服务 器 创建 子 进 
程 来 处 理 请 求 p 
Eus 二 一 一 一 一 一 -如 | 服务 器 子 进程 
fork() i 
PIRATAS dx 服务 器 子 进 
uc © mar) 
Hj 4 


客户 端 MQ 








客户 端 
请 求 到 服务 A 7 3i BEH Mja JW. (S) 
器 MO (mtext 包 含 客 户 端 队列 的 ID) 
46-3: 一 个 客户 端 使 用 一 个 消息 队列 的 客户 端 /服务 器 IPC 
由 于 服务 器 对 客户 闹 不 做 任何 鉴 权 ， 因 此 所 有 使 用 客户 新 的 用 户 都 能 够 获取 服务 右 所 能 
访问 的 所 有 文件 。 更 复杂 一 点 的 服务 器 会 在 返回 请 求 的 文件 之 前 对 客户 端 完成 某 种 鉴 权 操作 。 
公共 头 文件 
程序 清单 46-7 给 出 了 服务 器 和 客户 端 都 需要 包含 的 头 文件 。 这 个 头 文件 为 服务 器 的 消 县 
队列 定义 了 一 个 众所周知 的 键 (SERVER_ KEY)， 并 且 定 义 了 客户 端 和 服务 器 之 间 传 递 的 消息 
的 格式 。 
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requestMsg 结构 定义 了 客户 新 发 送 给 服务 器 的 请 求 格式 。 在 这 个 结构 中 ，mtext 部 分 由 两 
字段 构成 : 客户 问 消 县 队列 的 标识 符 和 客户 问 请 求 的 文件 的 路 径 名 。 第 量 REQ MSG- 
SIZE 等 于 这 两 个 字段 大 小 的 总 和 , 它 在 使 用 这 个 结构 的 msgsnd0 调 用 中 是 作为 msgsz 参数 
使 用 的 。 
responseMsg 结构 定义 了 服务 器 返回 给 客户 内 的 啊 应 消息 的 格式 。 啊 应 消 县 中 的 mtype £ 
段 提 供 了 与 消息 内 容 有 关 的 信息 ， 其 取 值 由 RESP MT * 和 常量 规定 。 


程序 清单 46-7: svmsg file server.c 和 svmsg file client.c 的 公共 头 文件 

















svmsg/svmsg file.h 


#include «sys/types.h» 

itinclude «sys/msg.h» 

#include «sys/stat.h» 

include «stddef.h» /* For definition of offsetof() */ 
include «limits.h» 

include «fcntl.h» 

#include «signal.h» 

include «sys/wait.h» 

Hinclude "tlpi hdr.h" 


#define SERVER KEY Ox1aaaaaa1 /* Key for server's message queue */ 

struct requestMsg { /* Requests (client to server) */ 
long mtype; /* Unused */ 
int clientId; /* ID of client's message queue */ 
char pathname[PATH MAX]; /* File to be returned */ 

n 


/* REO MSG SIZE computes size of 'mtext' part of 'requestMsg' structure. 
We use offsetof() to handle the possibility that there are padding 
bytes between the 'clientId' and 'pathname' fields. */ 


itdefine REQ MSG SIZE (offsetof(struct requestMsg, pathname) - ^ 
offsetof(struct requestMsg, clientId) + PATH MAX) 


#define RESP MSG SIZE 8192 


struct responseMsg { /* Responses (server to client) */ 
long mtype; /* One of RESP MT * values below */ 
char data[RESP MSG SIZE]; /* File content / response message */ 
n 


/* Types for response messages sent from server to client */ 


#define RESP MT FAILURE 1 /* File couldn't be opened */ 
#define RESP MT DATA 2 /* Message contains file data */ 
#define RESP MT END 3 /* File data complete */ 


svmsg/svmsg file.h 
服务 器 程序 


程序 清单 46-8 给 出 了 这 个 应 用 程序 的 服务 器 程序 。 有 关 服 务 需 需要 注意 以 下 几 点 。 
。 服务 器 被 设计 成 并 发 地 处 理 请 求 。 并 发 服务 占 设 计 最 好 像 程序 清 单 44-7 中 所 做 的 那样 














采用 友 代 式 设 计 ， 因 为 需要 避免 出 现 因 一 个 客户 端 请 求 一 个 大 文件 而 导致 所 有 其 他 客 
户 痪 请求 等 竺 的 情况 。 
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。 每 个 客户 端 请 求 通过 创建 一 个 子 进程 返回 请 求 的 文件 来 完成 @)。 同 时 ， 主 服务 器 进程 
等 等 后 续 的 客户 问 请 求 。 有 大 服 务 器 子 进程 需要 注意 以 下 儿 点 。 

- 由 于 通过 forkO 创 建 的 子 进 程 会 继承 父 进程 栈 的 一 个 副本 ， 因 此 它 能 够 获取 主 服务 
器 进程 读 取 的 请 求 消息 的 一 个 副本 。 
- 服务 器 子 进程 在 处 理 完 相关 的 客户 并 请 求 之 后 会 终止 9)。 

。 为 避免 创建 僵 死 进程 〈 人 参见 26.2 7), IREN SIGCHLD Æ T —^ AbEEESS JE TE 
处 理 器 中 调用 了 waitpidOCD. 

e 父 服务 器 进程 中 的 msgrcvO 调 用 可 能 会 阻塞 ， 其 结果 是 可 能 会 被 SIGCHLD 处 理 
器 中 断 。 为 处 理 这 种 情况 ， 需 要 使 用 一 个 循环 来 完成 EINTR 错误 上 友 生 之 后 的 重 
局 操作 。 

e 服务 器 子 进程 执行 serveRequestOPEA Zt), — TZ ER C I8] 9m Xx |n] — PP A. mtype 为 
RESP MT FAILURE 时 表示 服务 器 无 法 打开 请 求 的 文件 @);， RESP. MT DATA 用 来 表 
示 包 含 文件 数据 的 一 系列 消息 四 :RESP MT END (data 字段 的 长 度 为 零 ) 用 来 表示 
文件 数据 传输 的 结束 吕 )。 

在 练习 46-4 中 将 会 考虑 几 种 改进 和 扩展 服务 器 程序 的 方法 。 


程序 清单 46-8: 一 个 使 用 System V 消息 队列 的 文件 服务 器 





























svmsg/svmsg file server.c 


#include "svmsg file.h" 


static void /* SIGCHLD handler */ 
grimReaper(int sig) 


int savedErrno; 


savedErrno - errno; /* waitpid() might change 'errno' */ 
(D while (waitpid(-1, NULL, WNOHANG) » O) 
continue; 


errno - savedErrno; 


static void /* Executed in child process: serve a single client */ 
(2 serveRequest(const struct requestMsg *req) 
{ 
int fd; 


ssize t numRead; 
struct responseMsg resp; 


fd = open(req-»pathname, O RDONLY); 
if (fd == -1) { /* Open failed: send error text */ 
© resp.mtype = RESP MT FAILURE; 
snprintf(resp.data, sizeof(resp.data), "As", "Couldn't open"); 
msgsnd(req-»clientId, &resp, strlen(resp.data) + 1, 0); 
exit(EXIT FAILURE); /* and terminate */ 


j 


/* Transmit file contents in messages with type RESP MT DATA. We don't 
diagnose read() and msgsnd() errors since we can't notify client. */ 


出 resp.mtype = RESP MT DATA; 
while ((numRead = read(fd, resp.data, RESP MSG SIZE)) > O) 
if (msgsnd(reg-»clientId, &resp, numRead, 0) == -1) 
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} 


int 


break; 
/* Send a message of type RESP_MT_END to signify end-of-file */ 


resp.mtype = RESP_MT_END; 
msgsnd(req->clientId, &resp, 0, 0); /* Zero-length mtext */ 


main(int argc, char *argv[]) 


{ 


struct requestMsg req; 
pid t pid; 

ssize t msglen; 

int serverId; 

struct sigaction sa; 


/* Create server message queue */ 


serverId - msgget(SERVER KEY, IPC CREAT | IPC EXCL | 
S IRUSR | S IWUSR | S IWGRP); 
if (serverId -- -1) 
errExit("msgget") ; 


/* Establish SIGCHLD handler to reap terminated children */ 


sigemptyset(&sa.sa mask); 

sa.sa flags - SA RESTART; 

sa.sa handler - grimReaper; 

if (sigaction(SIGCHLD, 8sa, NULL) == -1) 
errExit("sigaction"); 

/* Read requests, handle each in a separate child process */ 


for (5;) { 
msglen = msgrcv(serverId, &req, REQ MSG SIZE, O, 0); 
if (msgLen == -1) { 


if (errno -- EINTR) /* Interrupted by SIGCHLD handler? */ 
continue; /* ... then restart msgrcv() */ 
errMsg("msgrcv"); /* Some other error */ 
break; /* ... so terminate loop */ 
} 
pid = fork(); /* Create child process */ 


if (pid == -1) { 
errMsg(" fork"); 


break; 

} 

if (pid == 0) { /* Child handles request */ 
serveRequest(&req); 
 exit(EXIT SUCCESS); 

} 


/* Parent loops to receive next client request */ 


j 


/* If msgrcv() or fork() fails, remove server MQ and exit */ 


if (msgctl(serverId, IPC RMID, NULL) -- -1) 
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errExit("msgctl"); 
exit(EXIT SUCCESS) ; 


svmsg/svmsg file server.c 
客户 端 程序 

程序 清单 46-9 给 出 了 这 个 应 用 程序 的 客户 端 。 有 关 客 户 问 程 序 需 注意 以 下 儿 点 。 

。 客户 端 使 用 IPC PRIVATE 键 创建 一 个 消息 队列 @ 并 使 用 atexit0G@@) 建 立 了 一 个 退出 处 
理 器 中 以 确保 在 客户 奖 退 出 时 删除 队列 。 

e 客户 闹 将 其 队列 标识 从 以 及 所 请 求 的 文件 的 路 径 名 打包 在 请 求 中 传递 给 服务 右 (4)。 

e 客户 问 对 服务 占 发 运 的 第 一 个 啊 应 消 恩 即 为 失败 通知 (mtype 等 于 RESP MT 
FAILURE)， 这 种 情况 的 处 理 方式 是 打印 服务 器 返回 的 错误 消 县 并 退出 所 。 

e 如 果 成 功 打 开 了 文件 ， 那 么 客户 并 会 循环 @) 接 收 包 含 文件 内 容 的 一 系列 消 居 (mtype 
等 于 RESP MT DATA )。 整 个 循环 过 程 在 收 到 文件 结束 消息 〈mtype 等 于 
RESP MT END) 之 后 结束 。 

这 个 简单 的 客户 端 并 没有 对 由 服务 器 故障 而 引起 的 各 种 情况 进行 处 理 。 在 练习 46-5 中 将 

会 考虑 一 些 改进 方案 。 






































程序 清单 46-9: 使 用 System V 消息 队列 的 文件 服务 器 的 客户 端 


svmsg/svmsg file client.c 
&include "svmsg file.h" 


static int clientId; 


static void 
removeQueue(void) 


if (msgctl(clientlId, IPC RMID, NULL) == -1) 
errExit("msgct1"); 
} 


int 
main(int argc, char *argv[]) 


struct requestMsg req; 

struct responseMsg resp; 

int serverId, numMsgs; 

ssize t msglen, totBytes; 

if (argc != 2 || stremp(argv[1], "--help") == 0) 
usageErr("%s pathnameWNn", argv[0]); 


if (strlen(argv[1]) » sizeof(req.pathname) - 1) 
cmdLineErr("pathname too long (max: Xld bytes)Wn", 
(long) sizeof(req.pathname) - 1); 
/* Get server's queue identifier; create queue for response */ 
serverId - msgget(SERVER KEY, S IWUSR); 


if (serverId -- -1) 
errExit("msgget - server message queue"); 
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Q clientId = msgget(IPC PRIVATE, S IRUSR | S IMUSR | S IWGRP); 
if (clientId -- -1) 
errExit("msgget - client message queue"); 


o if (atexit(removeQueue) !- 0) 
errExit("atexit"); 


/* Send message asking for file named in argv[i] */ 


req.mtype - 1; /* Any type will do */ 
req.clientId = clientId; 
strncpy(req.pathname, argv[1], sizeof(req.pathname) - 1); 
req.pathname[sizeof(req.pathname) - 1] = '\o'; 

/* Ensure string is terminated */ 


© if (msgsnd(serverId, &req, REQ MSG SIZE, 0) == -1) 
errExit("msgsnd"); 
/* Get first response, which may be failure notification */ 


msglen = msgrcv(clientId, &resp, RESP MSG SIZE, 0, 0); 
if (msgLen == -1) 
errExit("msgrcv"); 


(5) if (resp.mtype -- RESP MT FAILURE) { 
printf("XsNn", resp.data); /* Display msg from server */ 
if (msgctl(clientId, IPC RMID, NULL) == -1) 
errExit("msgctl"); 
exit(EXIT FAILURE); 
j 


/* File was opened successfully by server; process messages 
(including the one already received) containing file data */ 


totBytes = msglen; /* Count first message */ 
© for (numMsgs = 1; resp.mtype == RESP_MT_DATA; numMsgs++) { 
msgLen = msgrcv(clientId, &resp, RESP MSG SIZE, O, 0O); 
if (msgLen == -1) 
errExit("msgrcv"); 


totBytes += msgLen; 
j 


printf("Received %ld bytes (%d messages)Wn", (long) totBytes, numMsgs); 


exit(EXIT SUCCESS); 


svmsg/svmsg file client.c 





下 面 的 shell 会 话 演示 了 程序 清单 46-8 和 程序 清单 46-9 中 的 程序 的 使 用 。 


$ ./svmsg file server & Run server in bachground 
[1] 9149 
$ wc -c /etc/services Show size of file that client will request 


764360 /etc/services 
$ ./svmsg file client /etc/services 


Received 764360 bytes (95 messages) Bytes received matches size above 
$ kill %1 Terminate server 
[1]+ Terminated ./svmsg file server 
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46.9 System V 消息 队列 的 缺点 


UNIX 系统 为 同一 系统 上 不 同 进程 之 间 的 数据 传输 提供 了 多 种 机 制 , 既 包 括 无 分 隅 符 的 学 
节 流 形式 (管道 、FIFO 以 及 UNIX domain 流 socket)， 也 包括 有 分 隔 符 的 消息 形式 (System V 
消息 队列 、POSIX 消息 队列 以 及 UNIX domain 数据 报 socket). 
System V 消息 队列 的 一 个 与 众 不 同 的 特性 是 它 能 够 为 每 个 消息 加 上 一 个 数字 类 型 。 应 用 
程序 可 以 使 用 这 个 完成 两 件 事情 : 读 取 进程 可 以 根据 类 型 来 选择 消息 或 者 它们 可 以 采用 一 种 
优先 队列 策略 以 便 优 先 读 取 高 优先 级 的 消息 《〈 即 那些 消息 类 型 值 更 低 的 消息 )。 
但 System V 消 上 县 队列 也 存在 几 个 缺点 。 
e 消息 队 列 是 通过 标识 符 引 用 的 ， 而 不 是 像 大 多 数 其 他 UNIX UO 机 制 那 样 使 用 文件 摘 
述 符 。 这 意味 着 在 第 63 章 介 绍 的 各 种 基于 文件 描述 符 的 IO 技术 (如 select, pollo 
以 及 epoll) 将 无 法 应 用 于 消息 队列 上 。 此 外 ， 在 程序 中 编写 同时 处 理 消息 队列 的 输入 
和 基于 文件 描述 符 的 VO 机 制 的 代码 要 比 编写 只 处 理 文件 描述 符 的 代码 更 加 复杂 。( 在 
练习 63-3 中 将 考虑 一 种 组 合 两 种 IO 模型 的 方法 。) 
e 使 用 键 而 不 是 文件 名 来 标识 消息 队列 会 增加 额外 的 程序 设计 复杂 性 ， 同 时 还 需要 使 用 
ipcs 和 ipcrm 来 奉 换 Is 和 rm。ftokO 函 数 通常 能 产生 一 个 唯一 的 键 ， 但 却 无 法 保证 。 
使 用 IPC PRIVATE 键 能 确保 产生 唯一 的 队列 标识 符 ， 但 需要 使 这 个 标识 符 对 需要 用 
到 它 的 其 他 进程 可 见 。 

e 消息 队列 是 无 连接 的 ， 内 核 不 会 像 对 竺 管道 、FIFO 以 及 socket 那样 维护 引用 队列 的 
进程 数 。 因 此 就 难以 回答 下 列 问题 。 
- 一 个 应 用 程序 何 时 能 够 安全 地 删除 一 个 消 明 队列 ? (不 管 是 否 有 进程 在 后 面 某 个 时 

刻 需要 从 队列 中 读 取 数据 而 过 早 地 删除 队列 会 导致 数据 丢失 。) 

- 应 用 程序 如 何 确保 不 再 使 用 的 队列 会 被 删除 呢 ? 

e 消息 队列 的 总 数 、 消 息 的 大 小 以 及 单个 队列 的 容量 都 是 有 限制 的 。 这 些 限 制 都 是 可 配 
置 的 ， 但 如 果 一 个 应 用 程序 超出 了 这 些 默 认 限 制 的 郊 围 ， 那 么 在 安装 应 用 程序 的 时 候 
就 需要 完成 一 些 额 外 的 工作 了 。 

总 体 上 来 讲 ， 最 好 避免 使 用 System V 消 县 队列 。 当 碰 到 需要 使 用 根据 关 型 选择 消 县 的 工 
具 的 情况 时 应 该 考虑 使 用 其 他 替代 方案 。POSIX 消息 队列 (第 52 章 ) 就 是 这 样 一 种 替代 方案 。 
更 深层 次 一 点 的 符 代 方案 是 使 用 基于 多 文件 描述 符 的 通信 通道 ， 它 们 在 提供 与 根据 类 型 选择 
消息 类 似 的 功能 的 同时 还 允许 使 用 在 63 章 介 绍 的 另 一 种 VO 模型 。 例 如 ， 如 果 需 要 传输 “ 普 
通 ” 和 “优先 ”消息 ， 那 么 可 以 为 两 种 消息 类 型 使 用 一 组 FIFO 或 UNIX domain socket， 然 后 
使 用 selectO2X poll0 监 控 两 个 通道 上 的 文件 描述 符 。 






















































































46.10 ”总 结 


System V 消 奶 队列 允许 进程 通过 交换 由 一 个 数字 类 型 和 一 个 包含 任意 数据 的 消 奶 体 构 成 
的 消息 的 形 却 来 进行 通信 。 消 县 队列 的 区 别 于 其 他 机 制 的 特性 是 消 妃 是 有 边界 的 ， 并 且 接 收 
者 能 够 根据 类 型 来 选择 消息 ， 而 无 沉 按 照 完 入 先 出 的 顺序 来 读 取 消 居 。 

之 所 以 得 出 其 他 IPC 机 制 通常 要 优 于 System V 消息 队列 的 结论 是 因为 几 个 因素 ， 其 中 最 
主要 的 一 个 是 引用 消 恩 队列 不 会 用 到 文件 接 述 得 。 这 意味 看 在 消 朋 队列 上 无 法 使 用 故 一 种 VO 
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模型 ， 特 别 是 同时 监控 消息 队列 和 文件 描述 符 以 奏 看 是 否 可 进行 VO 将 变 得 复杂 。 此 外 ， 消 县 
队列 无 连接 《〈 即 不 进行 引用 计数 ) 这 个 事实 使 得 应 用 程序 难以 知道 何 时 能 够 安全 地 删除 一 个 


队列 。 


46.11 


46-1. 


46-2. 


46-3. 


46-4. 


46-5. 


46-6. 








2] gi 


试验 程序 清单 46-1 Csvmsg create.c)、 程 序 清 单 46-2 (svmsg send.c) 以 及 程序 清 
单 46-3 Csvmsg receive.c) 中 的 程序 以 验证 对 msgget0. msgsndQ EJ msgrcvO 系 统 
调用 的 理解 。 
改造 44.8 节 中 的 序号 客户 端 -服务器 应 用 程序 使 之 使 用 System V 消息 队列 。 使 用 单 
个 消 恩 队列 来 传输 客户 问 到 服务 右 以 及 服务 器 到 客户 闹 之 间 的 消 恩 。 使 用 46.8 市 
中 介绍 的 消息 次 型 规范 。 
在 46.8 节 中 的 客户 端 -服务 器 应 用 程序 中 , 客户 端 为 何在 消息 体 ( 在 clientId 字段 中 ) 
中 传递 其 消息 队列 的 标识 符 ， 而 不 是 在 消 县 类 型 (mtype) 中 传递 ? 
对 46.8 而 中 的 客户 端 - 服 务 器 应 用 程序 做 出 下 列 变 更 。 
(a) 登 换 服务 袁 中 便 编 码 的 消息 队列 键 使 乙 使 用 IPC_PRIVATIE 生成 一 个 唯一 
的 标识 符 ， 然 后 将 这 个 标识 符 写 入 一 个 众所周知 的 文件 中 。 客 户 端 必须 
要 从 这 个 文件 中 读 取 标识 符 。 服 务 器 在 终止 时 需要 删除 这 个 文件 。 
在 服务 需 程 序 的 ServeRequestO 函 数 中 并 没有 对 系统 调用 错误 进行 诊断 。 
添加 使 用 syslog() (参见 37.5 节 ) 记录 错误 的 代码 。 
(c) 在 服务 器 中 添加 代码 使 之 在 局 动 时 成 为 一 个 daemon. (A JG 37.2 F). 
(d) 在 服务 器 中 为 SIGTERM 和 SIGINT 添加 一 个 处 理 器 来 执行 一 个 干净 的 退 
出 。 处 理 喜 需要 删除 消息 队列 以 及 《如 果 这 个 练习 的 前 面 一 部 分 已 经 实 
现 的 话 ) 用 来 存放 服务 器 的 消息 队列 标识 符 的 文件 。 在 处 理 器 中 加 入 分 
离 处 理 器 ， 然 后 再 次 触发 同样 一 个 调用 该 处 理 需 的 信号 的 代码 C26.1.4 市 
介绍 了 其 中 的 原理 以 及 完成 这 个 任务 的 步骤 )。 
Ce) 服务 需 子 进程 并 没有 对 客户 问 可 能 过 早 终止 的 情况 进行 处 理 ， 这 样 服务 
器 子 进 程 就 会 填 究 客户 端的 消息 队列 ， 然 后 无 限 阻 圭 下去。 修改 服务 器 
使 之 处 理 这 种 情况 ， 即 像 23.3 下 中 描述 的 那样 在 调用 msgsndO 时 设置 一 
个 超时 。 如 果 服 务 右 子 进程 确信 客户 新 已 经 消失 了 ， 那 么 它 束 应 该 删除 
客户 新 的 消 恩 队列 ,然后 退出 (可 能 要 在 使 用 syslog0 记 录 一 条 消息 之 后 )。 
程序 清单 46-9 中 给 出 的 客户 端 (svmsg_file_client.c) 没有 对 服务 器 发 生 故 障 的 各 种 
情况 进行 处 理 。 特 别 是 如 果 服 务 堪 消息 队列 被 填 满 了 《可 能 由 于 服务 需 终 止 而 队列 
被 其 他 客户 问 填 满 了 )， 那 么 msgsnd0 调 用 会 无 限 阻塞 下 去 。 类 似 地 ， 如 果 服 务 需 
没有 成 功 地 将 啊 应 发 送 给 客户 疹 ， 那 么 msgrcvO 调 用 会 无 限 阻塞 下 去 。 在 客户 冰 中 
添加 代码 使 之 在 这 些 调用 上 设置 超时 (参见 23.3 市 )。 只 要 其 中 一 个 调用 超时 了 ， 
那么 程序 怠 需 要 将 错误 报告 给 用 户 并 终止 。 
使 用 System V 消 恩 队列 编写 一 个 简单 的 聊天 应 用 程序 (与 talk(1) 类 似 , 但 没有 curses 
界面 )。 为 每 个 客户 痪 使 用 一 个 消 县 队列 。 
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System V 信号 量 











本 章 将 介绍 System V 信和 号 量 。 与 上 一 章 中 介绍 的 IPC 机 制 不 同 ，System V 信和 号 量 不 是 用 
来 在 进程 间 传 输 数 据 的 。 相 反 ， 它 们 用 来 同步 进程 的 动作 。 信 与 量 的 一 个 第 见 用 途 古 同步 对 
一 块 共 于 内存 的 访问 以 防止 出 现 一 个 进程 在 访问 共 于 内存 的 同时 为 一 个 进程 更 痢 这 块 内 存 的 
情况 。 

一 个 信号 量 是 一 个 由 内 核 维 护 的 整数 ,其 值 被 限制 为 大 于 或 等 于 0。 在 一 个 信和 与 量 上 可 以 
执行 各 种 操作 〈 即 系统 调用 )， 包 括 : 

。 将 信号 量 设 管 成 一 个 绝对 值 ; 

e 在 信和 与 量 当 前 值 的 基础 上 加 上 一 个 数量 ; 

。 在 信和 与 量 当 前 值 的 基础 上 减 去 一 个 数量 ; 

。 等 行 信号 量 的 信 等 于 0。 

上 面 操作 中 的 后 两 个 可 能 会 导致 调用 进程 阻塞 。 当 减 小 一 个 信号 量 的 值 时 ， 内 核 会 将 所 
有 试图 将 信号 量 值 降 低 到 0 之 下 的 操作 阻 终 。 关 似 的 ， 如 东信 和 号 量 的 当前 值 不 为 0， 那么 等 行 
信和 号 量 的 值 等 于 0 的 调用 进程 将 会 发 生 阻 时 。 不 管 是 何 种 情况 ， 调 用 进程 会 一 直 保 持 阻 塞 直 
到 其 他 一 些 进程 将 信号 量 的 值 修改 为 一 个 允许 这 些 操作 继续 辣 前 的 值 ， 在 那个 时 刻 内 核 会 唤 
醒 补 阻塞 的 进程 。 网 47-1 显示 了 使 用 一 个 信号 量 来 同步 两 个 交 巷 将 信和 与 量 的 值 在 0 和 1 之 间 
切换 的 进程 的 动作 。 

在 控制 进程 的 动作 方面 ， 信 和 号 量 本 身 并 没有 任何 意义 ， 它 的 意义 仅 由 使 用 信和 号 量 的 进程 
赋予 其 的 关联 关系 来 确定 。 一 般 来 讲 ， 进 程 乙 间 会 达成 协议 将 一 个 信号 量 与 一 种 共 孚 资源 天 
联 起 来 ， 如 一 块 共 至 内 存 区 域 。 信 与 量 还 有 其 他 用 途 ， 如 在 fork0O 之 后 同步 父 进程 和 子 进程 。 
(在 24.5 市 中 介绍 了 如 何 使 用 信号 量 来 完成 同样 的 任务 。) 
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进程 入 yB 


创建 信号 量 
将 信号 量 初始 化 为 0 | 
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47-1 ”使 用 信号 量 同 步 两 个 进程 
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47.1 概述 


使 用 System V 信号 量 的 季 规 步骤 如 下 。 

。 使 用 semgetO 创 建 或 打开 一 个 信号 量 集 。 

。 使 用 semctlO SETVAL 或 SETALL 操作 初始 化 集合 中 的 信号 量 。( 只 有 一 个 进程 需要 

完成 这 个 任务 。) 

。 使 用 semopO 操 作 信号 量 值 。 使 用 信和 号 量 的 进程 通 疝 会 使 用 这 些 操作 来 表示 一 种 共有 

资源 的 获取 和 释放 。 

e 当 所 有 进程 都 不 再 需要 使 用 信号 量 集 之 后 使 用 semctlü IPC RMID 操作 删除 这 个 集 

fre 《具有 一 个 进程 十 要 完成 这 个 任务 3) 

大 多 数 操作 系统 都 为 应 用 程序 提供 了 一 些 信 与 量 原 语 。 但 System V 信和 号 量 表现 出 了 不 同 
寻 当 的 复杂 性 ， 因 为 它们 的 分 配 是 以 备 称 为 信号 量 集 的 组 为 单位 进行 的 。 在 使 用 semgetO AR At 
调用 创建 集合 的 时 候 需 要 指定 集合 中 的 信号 量 数 量 。 虽 然 在 同一 时 刻 通 种 上 只 操作 一 个 信号 量 ， 
但 通过 semopO 系 统 调 用 可 以 原子 地 在 同一 个 集合 中 的 多 个 信号 量 乙 上 执行 一 组 操作 。 

由 于 System V 信号 量 的 创建 和 初始 化 是 在 不 同 的 步骤 之 后 完成 的 ， 因 此 当 两 个 进程 同时 
部 试图 执行 这 两 个 步 又 时 就 会 出 现 竞 争 条 件 。 要 描述 清楚 这 种 鄞 委 条 件 以 及 如 何 避 免 出 现 这 
种 情况 需要 先 对 semctO 进 行 介绍 ， 然 后 再 对 semop0 进 行 介 绍 ， 这 意味 着 在 掌握 完全 理解 信 
号 量 所 需 的 所 有 细节 信息 之 前 还 需要 对 很 多 材料 进行 和 学习。 

与 此 同时 , 程序 清单 47-1 给 出 了 一 个 简单 的 例子 , 它 演示 了 各 种 信号 量 系 统 调用 的 用 法 。 
这 个 程序 可 以 在 两 种 模式 下 运行 。 

。 当 在 命令 行 参数 中 传 入 一 个 整数 时 程序 会 创建 一 个 上 只 包含 一 个 信号 量 的 新 信号 量 集 并 将 

信号 量 值 初 始 化 为 通过 命令 行 参数 传 入 的 值 。 程 序 会 打印 出 这 个 新 信号 量 集 的 标识 符 。 

e 当 在 命令 行 参数 中 传 入 两 个 整数 时 程序 会 将 它们 看 成 是 〈 按 照 顺 序 ) 一 个 既 有 信和 号 量 

集 的 标识 符 和 一 个 将 被 加 到 集合 中 第 一 个 信号 量 〈 序 号 为 0) 上 的 值 。 程 序 会 在 该 信 
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号 量 上 执行 指定 的 操作 。 为 了 能 够 监控 信号 量 操 作 ， 程 序 在 操作 之 前 和 之 后 都 会 打印 
出 消息 。 每 条 消息 都 以 进程 ID 打头 ， 这 样 就 可 以 对 这 个 程序 的 多 个 实例 所 产生 的 输 
出 进行 区 分 本 
下 面 的 shell 会 话 日 六 演示 了 程序 清单 47-1 中 的 程序 的 用 法 。 下 面 首 先 创 建 一 个 信号 量 并 
将 其 初始 化 为 0。 


$ ./svsem demo 0 
Semaphore ID - 98307 ID of new semaphore set 


然后 执行 一 个 后 合 命令 将 信和 号 量 值 减 去 2。 

$ ./svsem demo 98307 -2 & 

23338: about to semop at 10:19:42 

[1] 23338 

xvm HH, AATAKE SERIEN NT: 0. BUCETAAT 7 1 in o Te EEE 3。 
$ ./svsem demo 98307 +3 

23339: about to semop at 10:19:55 

23339: semop completed at 10:19:55 


23338: semop completed at 10:19:55 
[1]+ Done ./svsem demo 98307 -2 


这 个 信号 量 增加 操作 会 立即 成 功 ， 并 且 会 导致 后 台 命 令 中 的 信号 量 缩减 操作 能 够 辣 前 执 
行 ， 因 为 在 执行 该 操作 之 后 不 会 导致 信号 量 值 小 于 0。 


程序 清单 47-1: 创建 和 操作 System V 信号 量 



































svsem/svsem demo.c 


include <sys/types.h> 

#include «sys/sem.h» 

include «sys/stat.h» 

#include "curr time.h" /* Declaration of currTime() */ 
#include "semun.h" /* Definition of semun union */ 
include "tlpi hdr.h" 


int 


main(int argc, char *argv[]) 
1 
int semid; 
if (argc < 2 || argc > 3 || stremp(argv[1], "--help") == 0) 
usageErr("%s init-valueWn" 


" Or: Xs semid operationin", argv[0], argv[0]); 


if (argc == 2) 1 /* Create and initialize semaphore */ 
union semun arg; 


semid - semget(IPC PRIVATE, 1, S IRUSR | S IWUSR); 

if (semid -- -1) 
errExit("semid"); 

arg.val = getInt(argv[1], 0, "init-value"); 

if (semctl(semid, /* semnum- */ 0, SETVAL, arg) == -1) 
errExit("semctl"); 


printf("Semaphore ID = %d\n", semid); 


} else 1 /* Perform an operation on first semaphore */ 
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struct sembuf sop; /* Structure defining operation */ 
semid = getInt(argv[1], 0, "semid"); 

Sop.sem num = 0; /* Specifies first semaphore in set */ 
sop.sem op = getInt(argv[2], 0, "operation"); 

/* Add, subtract, or wait for O */ 
sop.sem flg - 0; /* No special options for operation */ 
printf("Xld: about to semop at %s\n", (long) getpid(), currTime("AXT")); 
if (semop(semid, &sop, 1) == -1) 


errExit("semop"); 


printf("Xld: semop completed at %s\n", (long) getpid(), currTime("AXT")); 
} 


exit(EXIT SUCCESS); 


svsem/svsem demo.c 


47.2 ”创建 或 打开 一 个 信号 量 集 


semgetO 系 统 调用 创建 一 个 新 信号 量 集 或 获取 一 个 既 有 集合 的 标识 符 。 














#include «sys/types.h» /* For portability */ 
include «sys/sem.h» 





int semget(key t key, int msems, int semfle); 
Returns semaphore set identifier on success, or -1 on error 


key JU T 452 市 中 揪 述 的 其 中 一 种 方法 生成 的 键 (通常 使 用 值 IPC. PRIVATE 或 由 











ftok() 返 回 的 键 )。 

如 果 使 用 semgetO0 创 建 一 个 新 信号 量 集 ， 那么 nsems 会 指定 集合 中 信号 量 的 数量 , 并 日 其 
值 必须 大 于 0。 如 果 使 用 semgetO 来 获取 一 个 既 有 集 的 标识 符 ， 那 么 nsems 必须 要 小 于 或 等 于 
集合 的 大 小 (否则 会 发 生 EINVAL 错误 )。 无 法 修改 一 个 既 有 集中 的 信号 量 数量 。 

semflg 参数 是 一 个 位 掩 码 ， 它 指定 了 施加 于 新 信号 量 集 之 上 的 权限 或 需 检查 的 一 个 既 有 
集合 的 权限 。 指 定 权 限 的 方式 与 为 文件 指定 权限 的 方式 是 一 样 的 ( 表 15-4)。 此 外 ， 在 semflg 
中 可 以 通过 对 下 列 标 记 中 的 零 个 或 多 个 取 OR 来 控制 semgetO 的 操作 。 















































IPC_CREAT 
如 条 不 存在 与 指定 的 key 相关 联 的 信和 与 量 集 ， 那 么 束 创 建 一 个 新 集合 。 
IPC_EXCL 








如 果 同 时 指定 了 IPC CREAT 并 且 与 指定 的 key 关联 的 信号 量 集 已 经 存在 ， 那 么 返回 
EEXIST 错误 。 

45.1 市 对 这 些 标记 进行 了 更 加 深入 的 介绍 。 

semget0 在 成 功 时 会 返回 新 信号 量 集 或 赋 有 信号 量 集 的 标识 人 符 。 后 续 引 用 单个 信号 量 的 系统 调 
用 必须 要 同时 指定 信号 量 集 标 识 符 和 信和 号 量 在 集合 中 的 序号 。 一 个 集合 中 的 信和 号 量 从 0 开始 计数 。 
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zz Ed Jj ün 
47.3 ”信号 量 控制 探 作 
semctl0 系 统 调用 在 一 个 信号 量 集 或 集合 中 的 单个 信号 量 上 执行 各 种 控制 操作 。 


#include «sys/types.h» /* For portability */ 
include «sys/sem.h» 

















int semctl(int semid, int semmum, int cmd, ... /* union semun arg */); 


Returns nonnegative integer on success (see text); returns -1 on error 


semid 参数 是 操作 押 施 加 的 信号 量 集 的 标识 待 。 对 于 那些 在 单个 信号 量 上 执行 的 操作 ， 
semnum 参数 标识 出 了 集合 中 的 具体 信号 量 。 对 于 其 他 操作 则 会 忽略 这 个 参数 ， 并 且 可 以 将 其 
设置 为 0。cmd 参 效 指定 了 需 执 行 的 操作 。 

一 些 特定 的 操作 需要 问 semctl0 传 入 第 四 个 参数 ， 在 本 市 余下 的 部 分 中 将 这 个 参数 命名 为 
arg。 这 个 参数 是 一 个 union， 程 序 清单 47-2 给 出 了 其 定义 。 在 程序 中 必须 要 显 式 地 定义 这 个 
union。 程 序 清单 47-2 中 的 示例 程序 通过 包含 这 个 头 文 件 来 完成 这 个 任务 。 









































虽然 将 semun union 的 定义 放 在 标准 头 文件 中 是 比较 明智 的 做 法 ， 但 SUSv3 要 求 程序 
员 显 式 地 定义 这 个 union。 然而， 一 些 UNIX 实现 在 <sys/sem.h> 中 提供 了 这 个 定义 。sglibc 
较 早 以 前 的 版 本 (2.0 以 下 ， 包 括 2.0) 也 提供 了 这 个 定义 。 为 了 与 SUSv3 保持 一 致 ，glibc 
最 近 的 版 本 并 没有 提供 这 个 定义 , 并 且 通 过 将 <sys/sem.h> 中 的 _SEM_SEMUN_UNDEFINED 
宏 的 值 定义 为 工 来 表明 这 个 事实 〈 即 使 用 glibc 编译 的 应 用 程序 可 以 通过 测试 这 个 宏 来 确定 


程序 自己 是 否 需 要 定义 semun union). 


























程序 清单 47-2:， semun union 的 定义 
svsem/semun.h 


#ifndef SEMUN H 
#define SEMUN H /* Prevent accidental double inclusion */ 


#include «sys/types.h» /* For portability */ 
#include <sys/sem.h> 


union semun { /* Used in calls to semctl() */ 
int val; 
struct semid ds * buf; 
unsigned short * array; 
tif defined( linux ) 
struct seminfo * _ buf; 
#endif 


j5 


ttendif 
svsem/semun.h 


SUSv2 和 SUSv3 规定 semctl0 的 最 后 一 个 参数 是 可 选 的 。 但 一 些 (主要 是 较 早 之 前 的 ) 
UNIX 实现 (以 及 glibc 的 早期 版 本 ) 将 semct10 的 原型 定义 如 下 。 


int semctl(int semid, int semnum, int cmd, union semun arg); 


这 意味 看 第 四 个 参数 是 必需 的 ， 即 使 在 那 坚 不 需要 用 到 这 个 参数 的 情况 下 也 是 如 此 《如 
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下 面 描述 的 IPC RMID 和 GETVAL 操作 )。 为 使 程序 能 够 完全 可 移植 ， 在 那些 无 需 最 后 一 个 
参数 的 smctO 调 用 中 需要 传 入 一 个 哑 参 数 。 

在 本 节余 下 的 部 分 中 将 介绍 通过 cmd 参数 可 指定 的 各 种 控制 操作 。 
单 规 控 制 操 作 

下 面 的 操作 与 可 应 用 于 其 他 类 型 的 System V IPC 对 象 上 的 操作 是 一 样 的 。 所 有 这 些 操作 都 会 久 
略 semnum 参数 。45.3 节 提 供 了 有 关 这 些 操作 的 更 多 细节 ， 包 括 调用 进程 所 需 的 特权 和 权限 。 
IPC RMID 


立即 删除 信号 量 集 及 其 关联 的 semid_ds 数据 结构 。 所 有 因 在 semop0 调 用 中 等 待 这 个 集合 中 的 信 
号 量 而 阻塞 的 进程 都 会 立即 被 唤醒 ，semop0 会 报告 错误 EIDRM。 这 个 操作 无 需 arg 参数 。 









































IPC STAT 
在 arg.buf 指 同 的 缓冲 坪 中 放置 一 份 与 这 个 信号 量 集 相 关联 的 semid_ds 数据 结构 的 副本 。 
47.4 节 将 对 semid ds 结构 进行 介绍 。 








IPC SET 
使 用 arg.buf 指向 的 缓冲 器 中 的 值 来 更 刹 与 这 个 信号 量 集 相 关联 的 semid. ds 数据 结构 中 选 
Hs 








获取 和 初始 化 信号 量 值 
下面 的 操作 可 以 获取 或 初始 化 一 个 集合 中 的 单个 或 所 有 信号 量 的 值 。 获 取 一 个 信号 量 的 
值 需 其 备 在 信号 量 上 的 该 权限 ， 而 初始 化 该 值 则 需要 修改 “号 ) BUR. 






































GETVAL 

semctl()i& [Hl HH semid 指定 的 信号 量 集中 第 semnum 个 信号 量 的 值 。 这 个 操作 无 需 arg 参数 。 
SETVAL 

将 由 semid 指定 的 信号 量 集中 第 semnum 个 信号 量 的 值 初始 化 为 arg.val。 
GETALL 








获取 由 semid 指 问 的 信号 量 集中 所 有 信号 量 的 值 并 将 它们 放 在 arg.array 指 问 的 数组 中 。 
程序 员 必 须要 确保 该 数组 具备 足够 的 空间 。( 通 过 由 IPC STAT 操作 返回 的 semid_ds 数据 结构 
中 的 sem_nsems 字段 可 以 获取 集合 中 的 信号 量 数量 。) 这 个 操作 将 忽略 semnum 参数 。 程 序 清 
单 47-3 给 出 了 一 个 使 用 GETALL 操作 的 例子 。 


SETALL 

使 用 arg.array 指向 的 数组 中 的 值 初始 化 semid 指向 的 集合 中 的 所 有 信和 号 量 。 这 个 操作 将 
忽略 semnum 参数 。 程 序 清单 47-4 演示 了 SETALL 操作 的 用 法 。 

如 果 存 在 一 个 进程 正在 等 竺 在 由 SETVAL 或 SETALL 操作 所 修改 的 信号 量 上 执行 一 个 操 
作 并 且 对 信号 量 所 做 的 变更 将 允许 该 操作 继续 向 前 执行 ， 那 么 内 核 就 会 唤醒 该 进程 。 

使 用 或 SETALL 修改 一 个 信号 量 的 值 会 在 所 有 进程 中 清除 该 信号 量 的 撤销 条 目 。 在 47.8 
节 中 将 会 对 信和 号 量 撤销 条 目 予 以 介绍 。 

注意 GETVAL 和 GETALL 返回 的 信息 在 调用 进程 使 用 它们 时 可 能 已 经 过 期 了 。 所 有 依赖 
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由 这 些 操作 返回 的 信息 保持 不 变 这 个 条 件 的 程序 都 可 能 会 遇 到 检查 时 Ctime-of-check) 和 使 用 
时 Ctime-of-use) 的 竞争 条 件 〈 人 参见 38.6). 





获取 单个 信号 量 的 信息 

下 面 的 操作 返回 (通过 函数 结果 值 》semid 引用 的 集合 中 第 semnum 个 信号 量 的 信息 。 所 
有 这 些 操作 都 需要 在 信和 号 量 集合 中 具备 读 权限 ， 并 且 无 需 arg 参数 。 
GETPID 

返回 上 一 个 在 该 信号 量 上 执行 smopO 的 进程 的 进程 ID; 这 个 值 和 被 称 为 smpid fH. WMR 
还 没有 进程 在 该 信号 量 上 执行 过 semopO, JA ok IW] 0。 









































GETNCNT 
返回 当前 等 每 该 信号 量 的 值 增 长 的 进程 数 ， 这 个 值 馈 称 为 smncnt fH. 
GETZCNT 





返回 当前 等 竺 该 信号 量 的 值 变 成 0 的 进程 数 ， 这 个 值 被 称 为 semzent 值 。 

与 上 面 介绍 的 GETVAL 和 GETALL 操作 一 样 ，GETPID、GETNCNT 以 及 GETZCNT 操 
作 返 回 的 信息 在 调用 进程 使 用 它们 时 可 能 已 经 过 期 了 。 

程序 清单 47-3 演示 了 这 三 个 操作 的 用 法 。 


47.4 TR s ABBAS at 
每 个 信号 量 集 都 有 一 个 关联 的 semid ds 数据 结构 ， 其 形式 如 下 。 


struct semid ds { 

















struct ipc perm sem perm; /* Ownership and permissions */ 
time t sem otime; /* Time of last semop() */ 

time t sem ctime; /* Time of last change */ 
unsigned long sem nsems; /* Number of semaphores in set */ 


lE 


/. SUSvà 要 求实 现 定义 上 面 的 semid ds 结构 中 给 出 的 所 有 字段 。 其 他 一 些 UNIX 实现 包 
侣 了 额外 的 非 标准 字段 。 在 Linux 2.4 以 及 之 后 的 版 本 上 , sem_nsems 字段 的 类 型 为 unsigned 
long, SUSv3 将 这 个 字段 的 类 型 规定 为 unsigned short, Jt HE Linux 2.2 以 及 大 多 数 其 他 
UNIX 实现 上 也 是 这 么 定义 的 。 


各 种 信号 量 系 统 调用 会 隐 式 地 更 新 semid ds 结构 中 的 字段 ， 使 用 semctlO IPC SET 操作 
能 够 显 式 地 更 新 sem. perm 字段 中 的 特定 子 池 段 ， 其 细节 信息 如 下 。 


sem perm 
在 创建 信号 量 集 时 按照 45.3. 中 所 描述 的 那样 初始 化 这 个 子 结构 中 的 字段 。 通 过 IPC SET 
能 够 更 新 uid、gid 以 及 mode 子 字 段 。 


sem otime 

在 创建 信号 量 集 时 会 将 这 个 字段 设置 为 0， 然后 在 每 次 成 功 的 semopO 调 用 或 当 信 号 量 值 
SEM UNDO 操作 而 发 生变 更 时 将 这 个 字段 设置 为 当前 时 间 〈 人 参见 47.8 节 )。 这 个 字段 和 
sem ctime 的 类 型 为 time t， 它 们 存储 目 新 纪元 到 现在 的 秒 数 。 
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sem ctime 
在 创建 信号 量 时 以 及 每 个 成 功 的 IPC SET. SETALL 和 SETVAL 操作 执行 完毕 之 后 将 这 个 字 
段 设 置 为 当前 时 间 。( 在 一 些 UNIX 实现 上 ，SETALL 和 SETVAL 操作 不 会 修改 sem ctime。) 


sem nsems 
在 创建 集合 时 将 这 个 字段 的 值 初始 化 为 集合 中 信和 号 量 的 数量 。 
本 三 后 面 将 介绍 两 个 使 用 semid ds 数据 结构 和 一 些 在 47.3 节 中 描述 的 semet BRE HI 
子 。 在 47.6 节 中 将 演示 这 两 个 程序 的 用 法 。 














监控 一 个 信号 量 和 


程序 清单 47-3 使 用 了 各 种 semctl0 操 作 来 显示 标识 符 为 命令 行 参数 值 的 既 有 信号 量 集 的 
信息 。 这 个 程序 首先 显示 了 semid ds 数据 结构 中 的 时 间 字 段 ， 然 后 显示 了 集合 中 各 个 信号 量 
的 当前 值 及 其 sempid、semncnt 和 semzent fH» 


程序 清单 47-3: 一 个 信号 量 监控 程序 











svsem/svsem mon.c 


include <sys/types.h> 

include «sys/sem.h» 

include «time.h» 

include "semun.h" /* Definition of semun union */ 
#include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


struct semid ds ds; 
union semun arg, dummy; /* Fourth argument for semctl() */ 
int semid, j; 
if (argc != 2 || stremp(argv[1], "--help") == 0) 
usageErr("Xs semidWn", argv[0]); 


semid = getInt(argv[1], 0, "semid"); 
arg.buf = &ds; 


if (semctl(semid, O, IPC STAT, arg) == -1) 
errExit("semct1"); 


printf("Semaphore changed: Xs", ctime(&ds.sem ctime)); 
printf("Last semop(): 4s", ctime(8ds.sem otime)); 


/* Display per-semaphore information */ 


arg.array - calloc(ds.sem nsems, sizeof(arg.array[0])); 
if (arg.array -- NULL) 
en dt aloe 
if (semctl(semid, O, GETALL, arg) == -1) 
errExit("semctl-GETALL") ; 


printf("Sem # Value SEMPID SEMNCNT SEMZCNT\n"); 
for (j = 0; j < ds.sem nsems; j++) 


printf("43d %5d %5d %5d %5d\n", j, arg.array[j], 
semctl(semid, j, GETPID, dummy), 
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semctl(semid, j, GETNCNT, dummy), 
semctl(semid, j, GETZCNT, dummy)); 


exit(EXIT SUCCESS); 


svsem/svsem mon.c 


初始 化 一 个 集合 中 的 所 有 信号 量 














程序 清单 47-4 为 初始 化 一 个 既 有 集合 中 的 所 有 信号 量 提 供 了 一 个 命令 行 界面 。 第 一 个 命 








令 行 参数 是 竺 初始 化 的 信号 量 集 的 标识 符 。 剩 下 的 命令 行 参数 指定 了 每 个 信号 量 所 初始 化 的 
值 〈 参 数 的 数量 必须 要 与 集合 中 信和 号 量 的 数量 一 致 )。 


程序 清单 47-4: 使 用 SETALL 操作 初始 化 一 个 System V 信号 量 集 
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svsem/svsem setall.c 


include <sys/types.h> 

include «sys/sem.h» 

include "semun.h" /* Definition of semun union */ 
include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


struct semid ds ds; 
union semun arg; /* Fourth argument for semctl() */ 
int j, semid; 
if (argc < 3 || stremp(argv[1], "--help") == 0) 
usageErr("%s semid val...Wn", argv[0]); 
semid = getInt(argv[1], 0, "semid"); 


/* Obtain size of semaphore set */ 


arg.buf = &ds; 
if (semctl(semid, 0, IPC STAT, arg) -- -1) 
errExit("semct1"); 


if (ds.sem nsems !- argc - 2) 
cmdLineErr("Set contains %ld semaphores, but 4d values were suppliedWn", 
(long) ds.sem nsems, argc - 2); 


/* Set up array of values; perform semaphore initialization */ 
arg.array - calloc(ds.sem nsems, sizeof(arg.array[0])); 


if (arg.array -- NULL) 
ert alloc"): 


for (j = 2; j < argc; j++) 
arg.array[j - 2] = getInt(argv[j], 0, "val"); 


if (semctl(semid, O, SETALL, arg) == -1) 
errExit("semctl-SETALL"); 
printf("Semaphore values changed (PID=%ld)\n", (long) getpid()); 


exit(EXIT SUCCESS); 


svsem/svsem setall.c 
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47.5 ”信号 量 初 始 化 

根据 SUSv3 的 要 求 ， 实 现 无 需 对 由 semgetO 创 建 的 集合 中 的 信和 号 量 值 进行 初始 化 。 相 反 ， 
程序 员 必 须要 使 用 semctlO 系 统 调 用 显 式 地 初始 化 信号 量 。( 在 Linux 上 ，semgetO 返 回 的 信号 
量 实 际 上 会 被 初始 化 为 0， 但 为 取得 移植 性 就 不 能 依赖 于 此 。) 前面 曾经 提 及 过 ， 信 和 写 量 的 创 
建 和 初始 化 必须 要 通过 单独 的 系统 调用 而 不 是 单个 原子 步骤 来 完成 的 事实 可 能 会 导致 在 初始 
化 一 个 信号 量 时 出 现 竞 争 条 件 。 本 克 将 详细 介绍 竞 委 的 本 质 并 考虑 一 种 基于 [Stevens, 1999] 提 
出 的 思想 来 避免 出 现 这 种 情况 的 方法 。 

假设 一 个 应 用 程序 由 多 个 地 位 平等 的 进程 构成 ， 这 些 进 程 使 用 一 个 信号 量 来 协调 相互 之 
间 的 动作 。 由 于 无 法 保证 哪个 进程 会 首先 使 用 信号 量 〈( 这 束 是 地 位 平等 的 含义 )， 因 此 每 个 进 
程 都 必须 要 做 好 在 信号 量 不 存在 时 创建 和 初始 化 信号 量 的 准备 。 基 于 此 ， 可 以 考虑 使 用 程序 
清单 47-5 中 给 出 的 代码 。 


程序 清单 47-5: 错误 地 初始 化 了 一 个 System V 信号 量 









































from svsem/svsem bad init.c 
/* Create a set containing 1 semaphore */ 


semid = semget(key, 1, IPC CREAT | IPC EXCL | perms); 


if (semid !- -1) { /* Successfully created the semaphore */ 
union semun arg; 


/* XXXX */ 


arg.val - 0; /* Initialize semaphore */ 
if (semctl(semid, 0, SETVAL, arg) -- -1) 
errExit("semctl"); 


] else { /* We didn't create the semaphore */ 
if (errno !- EEXIST) { /* Unexpected error from semget() */ 
errExit("semget"); 


semid = semget(key, 1, perms); /* Retrieve ID of existing set */ 
if (semid -- -1) 
errExit("semget"); 


j 


/* Now perform some operation on the semaphore */ 


sops[0].sem op = 1; 7 Add! deos t7 
sops[0].sem num = 0; /* to semaphore O */ 
sops[0].sem flg = 0; 


if (semop(semid, sops, 1) == -1) 
errExit("semop"); 
-from svsem/svsem bad init.c 


程序 清单 47-5 中 的 代码 存在 的 问题 是 如 果 两 个 进程 同时 执行 ， 如 果 第 一 个 进程 的 时 间 片 
在 代码 中 标记 为 XXXX 处 期 满 ， 那 么 就 可 能 会 出 现 图 47-2 中 给 出 的 顺序 。 这 个 顺序 之 所 以 存 
在 问题 有 两 个 原因 。 首 先 ， 进 程 B 在 一 个 未 初始 化 的 信号 量 〈 即 其 值 是 一 个 任意 值 ) 上 执行 
了 一 个 ssmopO。 其 次 ， 进 程 A 中 的 semctl0 调 用 履 盖 了 进程 B 所 做 出 的 变更 。 
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进程 A 进程 B 


第 一 个 sempet() 成 功 





| 
| 
| 
| 
(因为 信号 量 集 不 存在 ) | 
| 
| 
| 
| 


时 间 片 耗 尽 | | 时 间 片 开始 
一 一 


| 第 -个 semget() 失败 (所 以 该 进 
程 知道 信号 = 最 集 存 在 ) 


S5 T semget() WI) 





执行 semop( ) 


时 间 片 开始 I 时 间 片 结 
| à 


semctl( ) 初始 化 信号 量 





图 例 说 明 
在 CPU 上 执行 等 待 CPU 


执行 semop() 





47-2: 两 个 进程 竞争 初始 化 同一 个 信号 量 


这 个 问题 的 解决 方案 依赖 于 一 个 现 已 成 为 标准 的 特性 ， 即 与 这 个 信号 量 集 相 关联 的 
semid ds 数据 结构 中 的 sem otime 字段 的 初始 化 。 在 一 个 信号 量 集 首 次 被 创建 时 ，sem_otime 
字段 会 被 初始 化 为 0， 并 且 只 有 后 续 的 smopO 调 用 才 会 修改 这 个 字段 的 值 。 因 此 可 以 利用 这 
个 特性 来 消除 上 面 描述 的 竞 争 条 件 ， 即 只 需要 插入 额外 的 代码 来 强制 第 二 个 进程 《〈《 即 没有 创 
建 信号 量 的 那个 进程 ) 等 竺 直到 第 一 个 进程 既 初 始 化 了 信和 号 量 又 执行 了 一 个 更 新 sem otime 
字段 但 不 修改 信号 量 的 值 的 smopO 调 用 为 止 。 程 序 清单 47-6 给 出 了 修改 之 后 的 代码 。 


遗憾 的 是 ， 正 文中 描述 的 初始 化 问题 的 解决 方案 无 法 在 所 有 UNIX. 实现 上 正常 工作 。 
在 一 些 现代 BSD 衍生 版 中 ，semop0O 不 会 更 新 sem otime 字段 。 


























序 清单 47-6: 初始 化 一 个 System V 信号 量 


from. svsem/svsem good init.c 
semid - semget(key, 1, IPC CREAT | IPC EXCL | perms); 


if (semid !- -1) ( /* Successfully created the semaphore */ 
union semun arg; 
struct sembuf sop; 


arg.val - 0; /* So initialize it to 0 */ 
if (semctl(semid, 0, SETVAL, arg) == -1) 
errExit("semctl"); 
/* Perform a "no-op" semaphore operation - changes sem otime 
so other processes can see we've initialized the set. */ 


802 Linux/UNIX 系统 编程 手册 ( 下 册 ) 
异步 社区 会 员 flyman150(2410757683 (9 qq.com) EF 尊重 版 权 


Sop.sem num = 0; /* Operate on semaphore O */ 


sop.sem op - 0; /* Wait for value to equal 0 */ 
sop.sem flg - 0; 
if (semop(semid, &sop, 1) == -1) 


errExit("semop"); 


} else { 
const int MAX TRIES = 
int j; 
union semun arg; 
struct semid ds ds; 


~ 


if (errno !- EEXIST) { /* Unexpected error from semget() */ 
errExit("semget"); 


semid = semget(key, 1, perms); /* Retrieve ID of existing set */ 
if (semid -- -1) 
errExit("semget"); 


/* Wait until another process has called semop() */ 


arg.buf = &ds; 
for (j = 0; j < MAX TRIES; j++) { 
if (semctl(semid, 0, IPC STAT, arg) == -1) 
errExit("semctl"); 


if (ds.sem otime !- O) /* semop() performed? */ 
break; /* Yes, quit loop */ 
sleep(1); /* If not, wait and retry */ 
} 
if (ds.sem otime == 0) /* Loop ran to completion! */ 


fatal("Existing semaphore not initialized"); 


j 


/* Now perform some operation on the semaphore */ 


from swsem/svsem good init.c 


* We didn't create the semaphore set */ 








使 用 程序 清单 47-6 中 给 出 的 技术 的 各 种 变 体能 够 确保 一 个 集合 中 的 多 个 信号 量 正 确 地 被 


初始 化 以 及 一 个 信号 量 被 初始 化 为 一 个 非 零 值 。 





并 不 是 所 有 应 用 程序 都 需要 使 用 这 个 及 其 负责 的 解决 方案 来 解决 竞争 问题 。 如 朱 能 够 确 

















保 一 个 进程 在 其 他 进程 使 用 信和 号 量 乙 前 创建 和 初始 化 信和 号 量 惑 无 需 使 用 这 个 解决 方案 。 








如 父 


进程 在 创建 与 其 共享 信号 量 的 子 进程 之 前 先 创建 和 初始 化 信号 量 。 在 这 种 情况 中 ， 让 第 一 





进程 在 调用 完 semget0 之 后 执行 一 个 semctl SETVALSETALL REME J. 


47.6 ”信号 量 操 作 





semop() 系 统 调 用 在 semid 标识 的 信号 量 集中 的 信号 量 上 执行 一 个 或 多 个 操作 。 





#include «sys/types.h» /* For portability */ 
include «sys/sem.h» 


int semop(int semid, struct sembuf *sops, unsigned int nsops); 
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Returns 0 on success, or -1 on error 
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sops 参数 是 一 个 指 同 数组 的 指针 ， 数 组 中 包含 了 需要 执行 的 操作 ，nsops 参数 给 出 了 数组 
的 大 小 (数组 至 少 需 包含 一 个 元 素 )。 操 作 将 会 按照 在 数组 中 的 顺序 以 原子 的 方式 被 执行 。sops 
数组 中 的 元 系 是 形式 如 下 的 结构 。 


struct sembuf { 








unsigned short sem num; /* Semaphore number */ 
short sem op; /* Operation to be performed */ 
short sem flg; /* Operation flags (IPC NOWAIT and SEM UNDO) */ 


}; 

sem num 字段 标识 出 了 在 集合 中 的 哪个 信号 量 上 执行 操作 。sem_op 字段 指定 了 需 执行 的 
BRE. 

e 如 果 sem op 大 于 0， 那 么 就 将 sem op 的 值 加 到 信和 号 量 值 上 ， 其 结果 是 其 他 等 待 减 小 

言 号 量 值 的 进程 可 能 会 被 唤醒 并 执行 它们 的 操作 。 调 用 进程 必须 要 具备 在 信号 量 上 的 
修改 〈 写 ) 权限 。 

。 如 果 sem_op 等 于 0， 那 么 就 对 信和 号 量 值 进行 检查 以 确定 它 当前 是 否 等 于 0。 如 果 等 于 

0， 那 么 操作 将 立即 结束 ， 和 否则 semop0 就 会 阻塞 直到 信号 量 值 变 成 0 为止。 调用 进程 
必须 要 有 具备 在 信号 量 上 的 读 权 限 。 

e 如 果 sem op 小 于 0， 那么 就 将 信号 量 值 减 去 sem op。 如 果 信 和 号 量 的 当前 值 大 于 或 等 

T sem op 的 绝对 值 ， 那 么 操作 会 立即 结束 。 否 则 semopO 会 阻塞 直到 信号 量 值 增 长 到 
在 执行 操作 之 后 不 会 导致 出 现 负 值 的 情况 为 止 。 调 用 进程 必须 要 具备 在 信号 量 上 的 修 
改 权限 。 

从 语义 上 来 讲 ， 增 加 信号 量 值 对 应 于 使 一 种 资源 变 得 可 用 以 便 其 他 进程 可 以 使 用 它 ， 而 
减 小 信号 量 值 则 对 应 于 预 留 〈 互 斥 地 ) 进程 需 使 用 的 资源 。 在 减 小 一 个 信号 量 值 时 ， 如 果 信 
导 量 的 值 太 低 一 一 即 其 他 一 些 进程 已 经 预 留 了 这 个 资源 一 一 那么 操作 就 会 被 阻塞 。 

当 semopO 调 用 阻 守 时 ， 进 程 会 保持 阻塞 直到 发 生 下 列 某 种 情况 为 止 。 

e 田 一 个 进程 修改 了 信号 量 值 使 得 待 执行 的 操作 能 够 继续 问 前 。 

e 一 个 信号 中 汤 了 semopO 调 用 。 发 生 这 种 情况 时 会 返回 EINTR 错误 。( 在 21.5 节 中 指 

出 过 semopO 在 被 一 个 信号 处 理 器 中 断 之 后 是 不 会 自动 重启 的 。) 

e 男 一 个 进程 删除 了 semid 引用 的 信号 量 。 发 生 这 种 情况 时 semop0 会 返回 EIDRM 错误 。 

在 特定 信号 量 上 执行 一 个 操作 时 可 以 通过 在 相应 的 sem flg 字段 中 指定 IPC NOWAIT 标 
记 来 防止 smop0 阻 塞 。 此 时 ， 如 果 semopO 本 来 要 发 生 阻 塞 的 话 区 会 返回 EAGAIN 错误 。 

尽管 通常 一 次 只 会 操作 一 个 信号 量 , 但 也 可 以 通过 一 个 smopO 调 用 在 一 个 集合 中 的 多 个 
言 写 量 上 执行 操作 。 这 里 需要 指出 的 关键 一 点 是 这 组 操作 的 执行 是 原子 的 ， 即 semopO 要 么 立 
即 执行 所 有 操作 ， 要 么 就 阻塞 直到 能 够 同时 执行 所 有 操作 。 


尽管 作者 所 知晓 的 系统 上 的 semopO 都 按照 数组 中 顺序 来 执行 操作 ， 但 一 些 系统 仍然 通 
过 文档 显 式 地 规定 了 这 种 行为 ， 并 且 一 些 应 用 程序 也 依赖 于 这 种 行为 。SUSv4 在 文中 显 式 
地 规定 了 这 种 行为 。 


程序 清单 47-7 演示 了 如 何 使 用 semopO 在 一 个 集合 中 的 三 个 信号 量 上 执行 操作 。 根 据 信 号 
量 的 当前 值 不 同 ， 在 信号 量 0 和 2 之 上 的 操作 可 能 无 法 立即 往 前 执行 。 如 果 无 法 立即 执行 在 
言 号 量 0 上 的 操作 ， 那 么 所 有 请 求 的 操作 都 不 会 被 执行 ，semopO 会 被 阻塞 。 另 一 方面 ， 如 采 
可 以 立即 执行 在 信号 量 0 上 的 操作 ， 但 无 法 立即 执行 在 信号 量 2 上 的 操作 ， 那 么 一 一 由 于 指定 了 
IPC NOWAIT 标记 一 一 所 有 请 求 的 操作 都 不 会 被 执行 ， 并 且 semopO 会 立即 返回 EAGAIN 错误 。 
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semtimedopO 系 统 调用 与 semop0 执 行 的 任务 一 样 ， 但 它 多 了 一 个 timeout 参数 ， 通 过 这 个 
参数 可 以 指定 调用 所 阻 窒 的 时 间 上 限 。 





#define GNU SOURCE 
#include «sys/types.h» /* For portability */ 
#include <sys/sem.h> 


int semtimedop(int semid, struct sembuf *sops, unsigned int msofs, 
struct timespec *timeout); 


Returns 0 on success, or -1 on error 








timeout 参数 是 一 个 指 问 timespec 结构 (参见 23.4.2 $W) 的 指针 ， 通 过 这 个 结构 能 够 将 一 
个 时 间 间 隔 表 示 为 秒 数 和 纳 秒 数 。 如 末 在 信号 量 操作 完成 乙 前 所 等 竺 的 时 间 已 经 超过 了 规定 
的 时 间 间 隔 ， 那 么 semtimedop0 会 返回 EAGAIN 错误 。 如 果 将 timeout 指定 为 NULL, WMA 
semtimedopO 3. E smopO 完 全 一 样 了 。 

与 使 用 setitimer() 和 semopO 相 比 ，semtimedopO 系 统 调 用 提供 了 一 种 更 加 高 效 的 方式 来 为 
信号 量 操作 设 定 一 个 超时 时 间 。 对 于 那些 需要 经 常 执行 此 类 操作 的 应 用 程序 (特别 是 一 些 数 
据 库 系 统 ) 来 讲 ， 这 种 方式 所 市 来 的 性 能 上 的 提升 是 非常 显著 的 。 但 SUSv3 并 没有 规定 
semtimedopO0， 并 且 只 有 其 他 一 些 UNIX 实现 提供 了 这 个 函数 。 


semtimedopO 系 统 调用 作为 一 个 独特 性 出 现在 了 Linux 2.6 E, ERNA] y Linux 
2.4， 从 内 核 2.4.22 开始 束 存 在 这 个 函数 了 。 






































程序 清单 47-7: 使 用 semop0) 在 多 个 System V 信号 量 上 执行 操作 





struct sembuf sops[3]; 


~™ 


sops[0].sem num = 0; 
sops[0].sem op = -1; 
sops[0].sem flg = 0; 


* Subtract 1 from semaphore O */ 


sops[1].sem num = 1; /* Add 2 to semaphore 1 */ 
sops[1].sem op - 2; 
sops[1].sem flg = 0; 


sops[2].sem num = 2; /* Wait for semaphore 2 to equal O */ 
sops[2].sem op = 0; 
sops[2].sem flg - IPC NOWAIT; /* But don't block if operation 
can't be performed immediately */ 
if (semop(semid, sops, 3) -- -1) ( 
if (errno -- EAGAIN) /* Semaphore 2 would have blocked */ 
printf("Operation would have blockedWn"); 
else 
errExit("semop"); /* Some other error */ 
} 
示例 程序 





程序 清单 47-8 为 smopO 系 统 调用 提供 了 一 个 命令 行 界面 。 这 个 程序 接收 的 第 一 个 参数 是 
操作 所 施加 的 信号 量 集 的 标识 符 。 
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剩余 的 命令 行 参 数 指定 了 在 单个 smopO 调 用 中 需要 执行 的 一 组 信和 号 量 操 作 。 单 个 命令 行 
参数 中 的 操作 便 用 运 志 分 隔 。 每 个 操作 的 形式 为 下 面 中 的 一 个 。 


e Semnum+value: 将 value 加 到 第 semnum 个 信号 量 上 。 














e semnum-value: 从 第 semnum 个 信号 量 上 减 去 value. 

e semnum-0: 测试 第 semnum 信号 量 以 人 硝 定 它 是 人 否 等 于 0。 

在 每 个 操作 的 最 后 可 以 可 选 地 包含 一 个 n、 一 个 u 或 同时 包含 两 者 。 字母 n 表示 在 这 个 操 
作 的 sem flg 值 中 包含 IPC NOWAIT。 字 和 母 u 表示 在 sem flg 中 包含 SEM UNDO。( 在 47.8 
节 中 将 会 对 SEM UNDO 标记 进行 介绍 。) 

下 和 面 的 命令 行 在 标识 符 为 0 的 信号 量 集 上 执行 了 两 个 semopO 调 用 。 

$ ./svsem op 0 0=0 0-1,1-2n 

第 一 个 命令 行 参数 规定 smopO 调 用 等 待 再 到 第 一 个 信号 量 什 等 于 0 为 止 。 第 二 个 参数 规 
定 semop(O 调 用 从 信和 号 量 0 中 减 去 1 以 及 从 信和 号 量 1 中 减 去 2。 信 和 号 量 0 上 的 操作 的 sem flg 
为 0， 信和 号 量 1 上 的 操作 的 sem flg 是 IPC NOWAIT。 


程序 清单 47-8: 使 用 semop0) 执 行 System V 信号 量 操作 
































svsem/svsem op.c 


#include «sys/types.h» 

#include «sys/sem.h» 

#include «ctype.h» 

#include "curr time.h" /* Declaration of currTime() */ 
include "tlpi hdr.h" 


define MAX SEMOPS 1000 /* Maximum operations that we permit for 
a single semop() */ 


static void 
usageError(const char *progName) 


fprintf(stderr, "Usage: %s semid op[,op...] ...\n\n", progName); 
fprintf(stderr, "'op' is either: «semi»(«|-)J«value»[n][u]Nn"); 


fprintf(stderr, " or: «semit»-O[n] Wn"); 
fprintf(stderr, " V'nV" means include IPC NOWAIT in 'op' An"); 
fprintf(stderr, " \"u\" means include SEM UNDO in 'op'\n\n"); 


fprintf(stderr, "The operations in each argument are 
"performed in a single semop() callinin"); 
fprintf(stderr, "e.g.: ^s 12345 041,1-2unWn", progName); 
fprintf(stderr, " 4S 12345 0-0n 141,2-1U 1-0 An", progName); 
exit(EXIT FAILURE); 
} 


/* Parse comma-delimited operations in 'arg', returning them in the 
array 'sops'. Return number of operations as function result. */ 


static int 
parseOps(char *arg, struct sembuf sops[]) 


char *comma, *sign, *remaining, *flags; 
int numOps; /* Number of operations in 'arg' */ 


for (numOps = O, remaining = arg; ; numOps++) { 


if (numOps »- MAX SEMOPS) 
cmdLineErr("Too many operations (maximum-Xd): \"%s\"\n", 
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MAX SEMOPS, arg); 
, arg); 


if (*remaining == '\0') 
fatal("Trailing comma or empty argument: \"%s\"" 


if (lisdigit((unsigned char) *remaining)) 
cmdLineErr("Expected initial digit: \"%s\"\n", arg); 


strtol(remaining, &sign, 10); 


sops[numOps].sem num 
if (*sign == 'No' || strchr("+-=", *sign) == NULL) 
cmdLineErr("Expected '&', '-', or '-' in V'AsV"Nn", arg); 
if (lisdigit((unsigned char) *(sign + 1))) 
cmdLineErr("Expected digit after 'Xc' in \"%s\"\n", *sign, arg); 
sops[numOps].sem op = strtol(sign + 1, &flags, 10); 
/* Reverse sign of operation */ 


if (*sign == '-') 
sops[numOps].sem op = - sops[numOps].sem op; 
ES /* Should be '-0' */ 


else if (*sign -- 
if (sops[numOps].sem op !- 0) 
cmdLineErr("Expected \"=0\" in \"%s\"\n", arg); 


sops[numOps].sem flg = O; 
for (;; flags++) { 
if (*flags -- 'n' 
sops[numOps].sem flg |= IPC NOWAIT; 
'u') 


else if (*flags -- 
sops[numOps].sem flg |= SEM UNDO; 


else 
break; 
} 
if (*flags !- ',' && *flags !- '\0') 
cmdLineErr("Bad trailing character (Ac) in \"%s\"\n", *flags, arg); 
comma = strchr(remaining, ','); 
if (comma -- NULL) 
break; /* No comma --» no more ops */ 
else 


remaining = comma + 1; 


} 


return numOps + 1; 
} 


int 
main(int argc, char *argv[]) 


struct sembuf sops[MAX SEMOPS]; 


int ind, nsops; 
if (argc < 2 || stremp(argv[1], "--help") == 0) 
usageError(argv[0]); 
for (ind = 2; argv[ind] !- NULL; ind++) { 
nsops - parseOps(argv[ind], sops); 
[4s]Nn", (long) getpid(), 


printf("%5ld, %s: about to semop() 
currTime("XT"), argv[ind]); 


if (semop(getInt(argv[1], 0, "semid"), sops, nsops) == -1) 
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errExit("semop (PID-$1d)", (long) getpid()); 


printf("251d, ^s: semop() completed [%s]\n", (long) getpid(), 
currTime(" 4T"), argv[ind]); 


j 


exit(EXIT SUCCESS); 
) 


svsem/svsem op.c 
使 用 程序 清单 47-8 中 的 程序 以 及 本 章 中 给 出 的 其 他 程序 可 以 研究 System. V 信号 量 的 操 
作 ， 如 下 面 的 shell 会 话 所 示 。 下 面 首先 使 用 一 个 进程 创建 了 一 个 包含 两 个 信号 量 的 信号 量 和 
并 将 这 两 个 信号 量 的 值 分 别 初始 化 为 1 和 0。 
$ ./svsem create -p 2 
32769 ID of semaphore set 


$ ./svsem setall 32769 1 0 
Semaphore values changed (PID-3658) 











本 章 并 没有 给 出 svsem/svsem create.c 程序 的 代码 ， 读 者 可 以 在 本 章 随 融 的 源 代 人 码 中 找 
到 这 个 程序 的 代码 。 这 个 程序 在 信号 量 上 执行 的 功能 与 程序 清单 46-1 中 的 程序 在 消息 队列 
上 执行 的 功能 一 样 ， 即 它 创 建 了 一 个 信号 量 集 。 唯 一 值得 注意 的 差别 是 svsem create.c 额外 
接收 了 一 个 参数 ， 该 参数 规定 了 所 创建 的 信号 量 集 的 大 小 。 





























接 下 来 在 后 侣 局 动 三 个 程序 清单 47-8 中 给 出 的 程序 实例 来 在 信号 量 集 上 执行 smopO 操 
作 。 程 序 会 在 执行 每 个 信号 量 操 作 之 前 和 之 后 都 打印 出 消息 。 这 些 消息 包括 时 间 《“ 这 样 就 能 
够 看 到 每 个 操作 何 时 开始 和 何 时 结束 〉 和 进程 ID 〈 这 样 就 能 够 跟踪 程序 的 多 个 实例 的 操作 )。 
第 一 个 命令 要 求 将 两 个 信和 号 量 值 都 减 去 1。 





























$ ./svsem op 32769 0-1,1-1 & Operation 1 
3659, 16:02:05: about to semop() [0-1,1-1] 
[1] 3659 





从 上 面 的 输出 中 可 以 看 出 这 个 程序 打印 出 了 一 条 消息 ， 指 出 就 要 执行 semop0 操 作 了 ， 但 
并 设 有 打印 出 更 多 的 消息 ， 这 是 因为 smopO 调 用 被 阻 于 了 。 这 个 调用 之 所 以 被 阻 豆 是 因为 信 
FE 1 的 值 为 0。 

接 看 执行 一 个 命令 要 求 将 信 与 量 1 的 值 减 去 1. 























$ ./svsem op 32769 1-1 & Operation 2 
3660, 16:02:22: about to semop() [1-1] 

[2] 3660 

x^g IHE. RERI T is m SED B EOBBS-T 0。 

$ ./svsem op 32769 0-0 & Operation 5 
3661, 16:02:27: about to semop() [0-0] 

[3] 3661 








AAMER, KENAA sm 0 的 值 当前 为 1。 
现在 使 用 程序 清单 47-3 中 的 程序 来 检查 信和 号 量 旨 


$ ./svsem mon 32769 
Semaphore changed: Sun Jul 25 16:01:53 2010 








Last semop(): Thu Jan 1 01:00:00 1970 
Sem # Value SEMPID SEMNCNT  SEMZCNT 

0 1 0 1 1 

1 0 0 2 0 
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企 一 个 信号 量 集 被 创建 之 后 ， 其 关联 semid ds 数据 结构 的 sem. otime 字段 会 被 初始 化 为 
0。 日 历时 间 值 0 对 应 于 新 纪元 的 起 点 (参见 10.1 节 )， 并 且 ctimeO 会 将 这 个 值 显示 为 1AM, 1 
January 1970， 这 是 因为 本 地 时 区 为 Central Europe， 它 比 UTC 早 一 个 小 时 。 

更 仔细 地 检查 一 下 输出 可 以 发 现 信号 量 0 的 semnent 值 为 1, 这 是 因为 操作 1 正在 等 待 减 小 
信号 量 值 ， 而 semzent 值 为 1， 这 是 因为 操作 3 正在 等 竺 这 个 信号 量 的 值 等 于 0。 信号 量 1 的 
semnent 值 为 2， 它 反映 出 了 操作 1 和 操作 2 正在 E 量 值 的 事实 。 

接 独 在 信号 量 集 上 答 试 执行 一 个 非 阻 赛 操 作 。 这 个 操作 等 于 信号 量 0 的 值 等 于 0。 由 于 无 
法 立即 执行 这 个 操作 ， 因 此 semop0 会 返回 EAGAIN 错误 。 

$ ./svsem op 32769 0=0n Operation 4 


3673, 16:03:13: about to semop() [0-0n] 
ERROR [EAGAIN/EWOULDBLOCK Resource temporarily unavailable] semop (PID-3673) 


SLE IRI S iE JL ET. AFFA AANER CIL 3) 能够 继续 往 前 执行 。 









































$ ./svsem op 32769 1+1 Operation 5 

3674, 16:03:29: about to semop() [1+1] 

3659, 16:03:29: semop() completed [0-1,1-1] Operation 1 completes 
3661, 16:03:29: semop() completed [0-0] Operation 3 completes 
3674, 16:03:29: semop() completed [1+1] Operation 5 completes 
[1] Done ./svsem op 32769 0-1,1-1 

[3]- Done ./svsem op 32769 0-0 














当 使 用 监控 程序 来 观察 信号 量 集 的 状态 时 可 以 发 现 其 关联 semid ds 数据 结构 的 
sem otime ^E Ez OG Ze Vr IT. JP HIA fii se] sempid 值 也 被 更 新 了 。 上 此外， 还 可 以 看 出 
信号 量 1 的 semncnt 值 为 1， 这 是 因为 操作 2 仍然 被 阻 杜 痢 ， 它 等 竺 减 小 这 个 信号 量 的 值 。 


$ ./svsem mon 32769 
Semaphore changed: Sun Jul 25 16:01:53 2010 





Last semop(): Sun Jul 25 16:03:29 2010 
Sem # Value SEMPID SEMNCNT  SEMZCNT 

0 0 3661 0 0 

1 0 3659 1 0 








从 上 面 的 输出 中 可 以 看 出 sem otime 字段 的 值 已 经 被 更 新 过 了 。 此 外 , 还 可 以 看 出 最 近 操 
作 信 和 号 量 0 的 进程 的 进程 ID 为 3661 (操作 3)， 最 近 操 作 信 和 号 量 1 的 进程 的 进程 ID 为 3659 
(操作 1). 

最 后 删除 信号 量 集 。 这 将 会 导致 仍 被 阻 绪 的 操作 2 返回 EIDRM 错误 。 


$ ./svsem rm 32769 
ERROR [EIDRM Identifier removed] semop (PID-3660) 








本 章 并 没有 给 出 svsem/svsem rm.c 程序 的 源 代码 ， 读 者 可 以 在 本 划 附 市 的 源 代码 中 找 
到 这 个 程序 的 代码 。 这 个 程序 删除 通过 命令 行 参数 指定 的 信号 量 


47.7 多 个 阻塞 信号 量 操 作 的 处 理 


如 果 多 个 因 减 小 一 个 信号 量 值 而 友 生 阻 徐 的 进程 对 该 信号 量 减 去 的 值 是 一 样 的 ， 那 么 当 

条 件 允 许 时 到 撒 哪 个 进程 会 首先 被 允许 执行 操作 是 不 确定 的 〈“ 即 哪个 进程 能 够 执行 操作 依赖 
于 各 个 内 核 目 己 的 进程 调度 算法 )。 

为 一 方面 ， 如 果 多 个 因 减 小 一 个 信号 量 值 而 发 生 阻 窒 的 进程 对 该 信号 量 减 去 的 值 丰 个 同 

的 ， 那 么 会 按照 先 满足 条 件 先 服务 的 顺序 来 进行 。 假 设 一 个 信号 量 的 当 值 为 0， 进 程 A 请 求 
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将 信号 量 值 减 去 2, 然后 进程 B 请 求 将 信和 号 量 值 减 去 1。 如 果 第 三 个 进程 将 信号 量 值 加 上 了 1, 
那么 进程 B 首先 会 被 解除 阻塞 并 执行 它 的 操作 ， 即 使 进程 A 首先 请 求 在 该 信号 量 上 执行 操作 
也 一 样 。 在 一 个 粳 糕 的 应 用 程序 设计 中 ， 这 种 场景 可 能 会 导致 饿 死 情况 的 发 生 ， 即 一 个 进程 
因 信号 量 的 状态 无 法 满足 所 请 求 的 操作 继续 往 前 执行 的 条 件 而 永远 保持 阻塞 。 回 到 本 节 的 例 
To 考虑 多 个 进程 交 蔡 地 调整 信号 量 值 使 其 值 永远 不 会 出 现 大 于 1 的 情况 , 这 就 会 导致 进程 A 
永远 保持 阻塞 。 

当 一 个 进程 因 试 网 在 多 个 信号 量 上 执行 操作 而 发 生 阻 塞 时 也 可 能 会 出 现 猴 死 的 情况 。 考 
碟 下 面 的 这 些 在 一 组 信号 量 上 执行 的 操作 ， 两 个 信号 量 的 初始 值 都 为 0。 

1. 进程 A 请 求 将 信号 量 0 和 1 的 值 减 去 1 (阻塞 )。 

2. 进程 B 请 求 将 信号 量 0 的 值 减 去 1 阻塞 )。 

3. 进程 C 将 信号 量 0 的 值 加 上 I. 

此 刻 ， 进 程 B 解除 阻塞 并 完成 了 它 的 请 求 ， 即 使 它 发 出 请 求 的 时 间 要 晚 于 进程 A。 同 样 ， 
也 可 以 设计 出 一 个 让 进程 A 猴 死 的 同时 让 其 他 进程 调整 和 阻塞 于 单个 信号 量 值 的 场景 。 













































































47.8 ”信号 量 撤 销 值 

假设 一 个 进程 在 调整 完 一 个 信号 量 值 (如 减 小 信号 量 值 使 之 等 于 0) 之 后 终止 了 ,不 管 是 
有 意 终 止 还 是 意外 终止 。 在 默认 情况 下 ， 信 与 量 值 将 不 会 发 生变 化 。 这 样 就 可 能 会 给 其 他 使 
用 这 个 信号 量 的 进程 带 来 问题 ， 因 为 它们 可 能 因 等 待 这 个 信和 号 量 而 被 阻塞 着 一 一 即 等 待 已 经 
被 终止 的 进程 撤销 对 信和 号 量 所 做 的 变更 。 

为 避免 这 种 问题 的 发 生 , 在 通过 semopO 修 改 一 个 信号 量 值 时 可 以 使 用 SEM_UNDO 标记 。 
当 指 定 这 个 标记 时 ， 内 核 会 记录 信和 号 量 操作 的 效果 ， 然 后 在 进程 终止 时 撤销 这 个 操作 。 不 管 
进程 是 正常 终止 还 是 非 正 常 终止 ， 撤 销 操作 都 会 发 生 。 

内 核 无 需 为 所 有 使 用 SEM UNDO 的 操作 都 保存 一 份 记录 。 只 需要 记录 一 个 进程 在 一 个 
信号 量 上 使 用 SEM UNDO 操作 所 作出 的 调整 总 和 即 可 ， 它 是 一 个 被 称 为 semadj〈 信 和 号 量 调 
整 ) 的 整数 。 当 进程 终止 之 后 ， 所 有 需要 做 的 就 是 从 信和 号 量 的 当前 值 上 减 去 这 个 总 和 。 


H Linux 2.6 起 , 当 指定 了 CLONE SYSVSEM 标记 之 后 使 用 cloneO0 创 建 的 进程 (线程 ) 
会 共享 semadj 值 。 之 所 以 这 样 做 是 为 了 与 POSIX 线程 的 实现 保持 一 致 。NPTL 线程 实现 在 
pthread createO0 的 实现 中 使 用 了 CLONE. SYSVSEML。 


当 使 用 semctlO SETVAL 或 SETALL 操作 设置 一 个 信号 量 值 时 , 所 有 使 用 这 个 信号 量 的 进 
程 中 相应 的 semadj 会 被 清空 〈《 即 设置 为 0)。 这 样 做 是 合理 的 ， 因 为 直接 设置 一 个 信号 量 的 值 
ACA Ej semadj 中 维护 的 历史 记录 相关 联 的 值 。 

通过 forkO 创 建 的 子 进程 不 会 继承 其 父 进程 的 semadj 值 ， 因 为 对 于 子 进程 来 讲 撤销 其 父 进 
程 的 信号 量 操作 曼 无 意义 。 夯 一 方面 ，semadj 值 会 在 exec0 中 得 到 保留 。 这 样 束 能 在 使 用 
SEM UNDO 调整 一 个 信号 量 值 之 后 通过 exec0 执 行 一 个 个 操作 该 信号 量 的 程序 ,同时 在 进程 终 
止 时 原子 地 调整 该 信号 量 。( 这 项 扩 术 可 以 允许 万 一 个 进程 发 现 这 个 进程 何 时 终止 。) 






















































































SEM_UNDO 的 效果 举例 


下 面 的 shell 会 话 日 志 显 示 了 在 两 个 信号 量 上 执行 操作 的 效果 : 一 个 操作 使 用 了 
SEM UNDO 标记 ， 另 一 个 没有 使 用 。 下 面 首先 创建 一 个 包含 两 个 信和 号 量 的 集合 。 
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$ ./svsem create -p 2 
131073 


接着 执行 一 个 命令 在 两 个 信号 量 上 都 加 上 1， 然 后 终止 。 信 号 量 0 上 的 操作 指定 了 
SEM UNDO 标记 。 


$ ./svsem op 131073 0+1u 1+1 
2248, 06:41:56: about to semop() 
2248, 06:41:56: semop() completed 


现在 使 用 程序 清单 47-3 中 的 程序 检查 信号 量 的 状态 。 
$ ./svsem mon 131073 
Semaphore changed: Sun Jul 25 06:41:34 2010 

















Last semop(): Sun Jul 25 06:41:56 2010 
Sem # Value SEMPID SEMNCNT  SEMZCNT 

0 0 2248 0 0 

1 1 2248 0 0 








从 上 面 输出 的 最 后 两 行 中 的 信号 量 值 可 以 看 出 信号 量 0 上 的 操作 被 撤销 了 ， 但 信号 量 1 
上 的 操作 没有 被 撤销 。 


SEM UNDO 的 限制 


最 后 需要 指出 的 是 ，SEM_UNDO 其 实 并 没有 其 一 开始 看 起 来 那样 有 用 ， 原 因 有 两 个 。 一 
个 原因 是 由 于 修改 一 个 信号 量 通常 对 应 于 请 求 或 释放 一 些 共 享 资 源 ， 因 此 仅仅 使 用 
SEM UNDO 可 能 不 足以 允许 一 个 多 进程 应 用 程序 在 一 个 进程 异常 终止 时 恢复 。 除 非 进程 终止 
会 原子 地 将 共享 资源 的 状态 返回 到 一 个 一 致 的 状态 (在 很 多 情况 下 是 不 可 能 的 )， 否 则 撤销 一 
个 信和 号 量 操作 可 能 不 足以 允许 应 用 程序 恢复 。 

第 二 个 影响 SEM UNDO 的 实用 性 的 因素 是 在 一 些 情 况 下 ， 当 进程 终止 时 无 法 对 信和 号 量 
td 考虑 下 面 应 用 于 一 个 初始 值 为 0 的 信号 量 上 的 操作 。 

1. 进程 A 将 信号 量 值 增加 2， 并 为 该 操作 指定 了 SEM UNDO 标记 。 

2. 进程 B 将 信号 量 值 减 去 1， 因 此 信号 量 的 值 将 变 成 1。 

3. 进程 A 终止 。 

此 时 束 无 法 完全 撤销 进程 A 在 第 一 步 中 的 操作 中 所 产生 的 效果 , 因为 信号 量 的 值 太 小 了 。 
解决 这 个 问题 的 潜在 方法 有 三 种 。 

e 强制 进程 阻塞 直到 能 够 完成 信号 量 调整 。 

e 尺 可 能 地 减 小 信号 量 的 值 ( 即 减 到 0) 并 退出 。 

e 退出 ， 不 执行 任何 信号 量 调整 操作 。 

第 一 个 解决 方案 是 不 可 行 的 ， 因 为 它 可 能 会 导致 一 个 即将 终止 的 进程 永远 阻塞 。Linux 采 
用 了 第 二 种 解决 方案 。 其 他 一 些 UNIX 实现 采纳 了 第 三 种 解决 方案 。SUSv3 并 没有 规定 一 个 
实现 应 该 采用 哪 种 解决 方案 。 


































































































试图 将 一 个 信号 量 值 提 升 到 其 许可 的 最 大 值 32767( 第 47.10 T fH] SEMVMX 限制 》 
的 撤销 操作 也 会 导 八 异常 行为 的 发 生 。 在 这 种 情况 下 ,内核 总 是 会 执行 这 个 调整 ， 从 而 ( 非 
法 地 ) 导致 信号 量 的 值 大 于 SEMVMX。 





47.9 ”实现 一 个 二 元 信号 量 协 议 
System V 信号 量 的 API 是 比较 复杂 的 ， 之 所 以 会 这 样 既 因为 对 信号 量 值 的 调整 量 可 以 是 
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任意 的 ， 又 因为 信号 量 的 分 配 和 操作 是 以 几何 为 单位 的 。 但 也 正 因 为 这 些 特 性 ，System V 信 
号 量 提供 的 功能 要 多 于 常规 应 用 程序 所 需 的 功能 ， 因 此 以 System V 信和 号 量 为 基础 实现 一 个 更 
加 简单 的 协议 CAPIs) 则 是 非常 有 用 的 。 

一 种 常见 的 协议 是 二 元 信号 量 。 一 个 二 元 信和 号 量 有 两 个 值 : 可 用 〈 空 用 ) 或 预 留 (使 用 
中 )。 二 元 信和 号 量 有 两 个 操作 。 

e Tui: 试图 预 留 这 个 信和 号 量 以 便 互 斥 地 使 用 。 如 果 信 号 量 已 经 被 另 一 个 进程 预 留 了 ， 

那么 将 会 阻塞 直到 信和 号 量 被 释放 为 止 。 
e 释放 : 释放 一 个 当前 被 预 留 的 信号 量 ， 这 样 另 一 个 进程 就 可 以 预 留 这 个 信号 量 了 。 



























































在 学 校 教授 的 计算 机 科学 中 ， 这 两 个 操作 通常 被 称 为 了 和 V， 即 这 两 个 操作 在 荷兰 语 
中 的 首 学 母 。 这 种 命名 方式 后 来 由 集 兰 计算 机 科学 家 Edsger Dijkstra 所 确定 ， 他 完成 了 很 多 
有 关 信 号 量 方面 的 早期 理论 工作 。 术 语 down ( 减 小 信号 量 ) 和 up〈 增 大 信号 量 ) 也 会 被 用 
到 。POSIX 将 这 两 个 操作 称 为 wait 和 post。 

















有 了 时候 还 会 定义 第 三 个 操作 。 
e 有 条 件 地 预 留 : 非 阻 豆 地 答 试 预 留 这 个 信号 量 以 便 互 斥 地 使 用 。 如 果 信 号 量 已 经 被 了 预 
留 了 ， 那 么 立即 返回 一 个 状态 标示 出 这 个 信号 量 不 可 用 。 

在 实现 二 元 信号 量 时 必须 要 选择 如 何 表示 可 用 和 预 留 状态 以 及 如 何 实现 上 面 的 操作 。 读 
者 稍微 思考 一 下 驳 会 发 现 表 示 这 些 状态 的 最 佳 方式 是 使 用 值 1 表示 空 采 和 值 0 表示 预 留 ， 同 
时 预 留 和 释放 操作 分 别 为 将 信号 量 的 值 减 1 和 加 1。 

程序 清单 47-9 和 程序 清单 47-10 给 出 了 使 用 System V 信和 号 量 实现 二 元 信号 量 的 一 个 实现 。 
程序 清单 47-9 中 的 头 文件 除了 给 出 了 实现 中 的 函数 的 原型 之 外 还 声明 了 实现 将 会 用 到 的 两 个 
全 局 布尔 变量 。bsUseSemUndo 变量 控制 实现 是 人 否 在 smopO 调 用 中 使 用 SEM UNDO 标记 。 
bsRetryOnEintr 变量 控制 实现 是 否 在 semop0O 调 用 被 信号 中 断 之 后 目 动 重启 该 调用 。 


程序 清单 47-9， binary sems.c 的 头 文件 






















































































svsem/binary sems.h 


#ifndef BINARY SEMS H /* Prevent accidental double inclusion */ 
#define BINARY SEMS H 


#include "tlpi hdr.h" 

/* Variables controlling operation of functions below */ 

extern Boolean bsUseSemUndo; /* Use SEM UNDO during semop()? */ 

extern Boolean bsRetryOnEintr; /* Retry if semop() interrupted by 
signal handler? */ 

int initSemAvailable(int semId, int semNum); 

int initSemInUse(int semId, int semNum); 

int reserveSem(int semId, int semNum); 


int releaseSem(int semId, int semNum); 


#endif 
svsem/binary_sems.h 
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程序 清单 47-10 给 出 了 二 元 信号 量 函 数 的 实现 。 这 些 实现 中 的 每 个 函数 都 接收 两 个 参数 ， 
它们 分 别 标识 出 了 信号 量 集 和 信号 量 在 该 集合 中 的 序号 。( 这 些 函 数 既 没有 处 理 信号 量 集 的 创 
建 和 删除 ， 也 没有 处 理 47.5 市 中 搬 述 的 竞争 条 件 。〉 在 48.4 节 中 给 出 的 示例 程序 将 会 使 用 这 
HG p A o 
































程序 清单 47-10: 使 用 System V 信号 量 实现 二 元 信号 量 
svsem/binary sems.c 


include <sys/types.h> 

include «sys/sem.h» 

include "semun.h" /* Definition of semun union */ 
include "binary sems.h" 


Boolean bsUseSemUndo = FALSE; 
Boolean bsRetryOnEintr - TRUE; 


int /* Initialize semaphore to 1 (i.e., "available") */ 
initSemAvailable(int semId, int semNum) 
{ 


union semun arg; 


arg.val - 1; 
return semctl(semId, semNum, SETVAL, arg); 


j 


int /* Initialize semaphore to O (i.e., "in use") */ 
initSemInUse(int semId, int semNum) 


{ 


union semun arg; 


arg.val - 0; 
return semctl(semId, semNum, SETVAL, arg); 


j 


/* Reserve semaphore (blocking), return O on success, or -1 with 'errno' 
set to EINTR if operation was interrupted by a signal handler */ 


int /* Reserve semaphore - decrement it by 1 */ 
reserveSem(int semId, int semNum) 
{ 


struct sembuf sops; 


sops.sem num = semNum; 
sops.sem op = -1; 
sops.sem flg = bsUseSemUndo ? SEM UNDO : O; 


while (semop(semId, &sops, 1) == -1) 
if (errno !- EINTR || !bsRetryOnEintr) 
return -1; 


return 0; 


j 


int /* Release semaphore - increment it by 1 */ 
releaseSem(int semId, int semNum) 


{ 


struct sembuf sops; 
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Sops.sem num = semNum; 
Sops.sem op - 1; 
sops.sem flg = bsUseSemUndo ? SEM UNDO : O; 


return semop(semId, &sops, 1); 


svsem/binary sems.c 


47.10 信号 量 限 制 
大 多 数 UNIX 实现 都 对 System V 信号 量 的 操作 进行 了 各 种 各 样 的 限制 。 下 面 列 出 了 Linux 上 
信和 号 量 的 限制 。 括 号 中 给 出 了 当 限 制 达 到 时 会 受 影 响 的 系统 调用 及 其 所 返回 的 错误 。 


SEMAEM 
在 semadj 总 和 中 能 够 记录 的 最 大 值 。SEMAEM 的 值 与 SEMVMX ( 稍 后 介绍 ) 的 值 是 一 
样 的 。(semop(), ERANGE ) 























SEMMNI 
这 是 系统 级 别 的 一 个 限制 ， 它 限制 了 所 能 创建 的 信号 量 标识 符 的 数量 ( 换 句 话说 是 信号 
量 集 )。(semget(), ENOSPC) 











SEMMSL 
一 个 信号 量 集中 能 分 配 的 信号 量 的 最 大 数量 。(semget0, EINVAL) 




















SEMMNS 

这 是 系统 级 别 的 一 个 限制 ， 它 限制 了 所 有 信和 号 量 集中 的 信号 量 数量 。 系 统 上 信和 号 量 的 数 
量 还 受 SEMMNI 和 SEMMSL 的 限制 。 实 际 上 ，SEMMNS 的 默认 值 是 这 两 个 限制 的 默认 值 的 
来 积 。(semeget(), ENOSPC) 



































SEMOPM 
每 个 semop0O 调 用 能 够 执行 的 操作 的 最 大 数量 。(semop0), E2BIG ) 
SEMVMX 





一 个 信号 量 能 取 的 最 大 值 。(semop0, ERANGE) 
大 多 数 UNIX 实现 都 定义 了 上 面 列 出 的 限制 。 一 些 UNIX 实现 (不 包括 Linux) 在 信号 量 
撤销 操作 方面 (参见 47.8 节 ) 还 定义 了 下 面 的 限制 。 


SEMMNU 
这 是 系统 级 别 的 一 个 限制 ， 它 限制 了 信号 量 撤销 结构 的 总 数量 。 撤 销 结构 是 分 配 用 来 存 
fit semadj 值 的 。 


SEMUME 

每 个 信号 量 撤销 结构 中 撤销 条 目的 最 大 数量 。 

在 系统 启动 时 ， 信 号 量 限制 会 被 设置 成 默认 值 。 不同 的 内 核 版 本 中 的 默认 值 可 能 会 不 同 。 
(一 些 内 核 厂 商 设 置 的 默认 值 与 vanilla 内 核 设置 的 默认 值 可 能 会 不 同 。 〉 其 中 一 些 限制 可 以 通 
过 修改 存储 在 Linux 特有 的 /proc/sys/kernel/sem 文件 中 的 值 来 改变 。 这 个 文件 包含 了 四 个 用 空 
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格 分 隔 的 数字 ， 它 们 按 序 定义 了 SEMMSL. SEMMNS, SEMOPM 以 及 SEMMNI 限制 。 
(SEMVMX 和 SEMAEM 限制 是 无 法 修改 的 ， 它 们 的 值 都 被 定义 成 32767。) 下 和 面 是 x86-32 系 
统 上 Linux 2.6.31 定义 的 默认 限制 。 

$ cd /proc/sys/kernel 


$ cat sem 
250 32000 32 128 


Linux/proc 文件 系统 在 三 种 System V IPC 机 制 上 所 使 用 的 格式 是 不 一 致 的 。 对 于 消息 队 
列 和 共有 至 内 存 ， 每 个 可 配 管 的 铬 限制 是 通过 单个 文件 来 控制 的 。 对 于 信号 量 则 是 由 一 个 文件 
来 保存 所 有 可 配置 的 限制 。 之 所 以 这 样 是 因为 在 这 些 API 的 开发 过 程 中 发 生 了 一 个 历史 性 意 
外 事件 ， 并 且 由 于 兼容 性 的 原因 ， 这 种 现状 已 经 很 难 改变 了 。 






































K 47-1 给 出 了 x86-32 染 构 上 每 个 限制 所 能 取 的 最 大 值 。 有 关 这 张 表格 需要 注意 下 列 辅 助 





表 47-1: System V 信号 量 限制 


限 制 最 大 值 ( x86-32 ) 
SEMMNI 32768 (IPCMND 
SEMMSL 65536 

SEMMNS 2147483647 (INT MAX) 
SEMOPM 参见 正文 








。 可 以 将 SEMMSL 的 值 设置 为 一 个 大 于 65536 的 值 , 并 且 所 创建 的 信号 量 集 中 最 多 可 包含 
该 数量 的 信号 量 。 但 无 法 使 用 semop0O 调 整 集合 中 第 65536 PERZIJI - 

















由 于 在 当前 实现 中 存在 一 些 限制 ， 因 此 在 实践 中 建议 将 一 个 信号 量 集 容量 的 上 限 值 设 
置 为 8000 左右 。 








。 SEMMNS 实际 最 大 值 是 由 系统 上 可 用 的 RAM 来 控制 的 。 
。 SEMOPM 限制 的 最 大 值 是 由 内 核 所 使 用 的 内 存 分 配 原 语 来 确定 的 ， 建 议 的 最 大 值 是 
1000。 在 实际 使 用 中 ， 在 单个 smopO 调 用 中 执行 过 多 的 操作 没有 太 大 的 用 处 。 
Linux 特有 的 semctlO IPC INFO 操作 返回 一 个 类 型 为 seminfo 的 结构 , 它 包含 了 各 种 信号 
量 限制 的 值 。 


union semun arg; 
struct seminfo buf; 








arg. buf = &buf; 

semctl(O0, 0, IPC INFO, arg); 

相关 的 Linux EH HJ SEM. INFO 操作 会 返回 包含 与 信号 量 对 象 实际 消耗 的 资源 相关 的 信息 的 
seminfo 结构 。 本 书 随 带 的 源 代 但 中 svsem/svsem info.c 文件 给 出 了 一 个 使 用 SEM INFO 的 例子 。 

AX IPC INFO, SEM INFO 以 及 seminfo 结构 的 细节 信息 可 以 在 semctl(2) 手 册 中 找到 。 























47.11 System V 信和 号 量 的 缺点 
System V 信号 量 存在 的 很 多 缺点 与 消息 队列 〈 参 见 46.9 节 ) 的 缺点 是 一 样 的 ， 包 括 以 下 几 点 。 


> O EH 
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e 信号 量 是 通过 标识 符 而 不 是 大 多 数 UNIX UO 和 IPC 所 采用 的 文件 描述 符 来 引用 的 。 
这 使 得 执行 诸如 同时 等 待 一 个 信号 量 和 文件 描述 符 的 输入 之 类 的 操作 吏 会 变 得 比较 
困难 。( 通 过 创建 一 个 子 进程 或 线程 来 操作 这 个 信号 量 并 使 用 第 63 章 中 介绍 的 其 中 一 
种 方法 将 消息 写 入 一 个 被 监控 的 管道 以 及 其 他 文件 描述 符 束 可 以 解决 这 个 难题 。) 
。 使 用 键 而 不 是 文件 名 来 标识 信号 量 增 加 了 额外 的 编程 复杂 上 度 。 
e 创建 和 初始 化 信号 量 需 要 使 用 单独 的 系统 调用 意味 着 在 一 些 情况 下 必须 要 做 一 些 额 
外 的 编程 工作 来 防止 在 初始 化 一 个 信号 量 时 出 现 竞 争 条 件 。 
。 内 核 不 会 维护 引用 一 个 信号 量 集 的 进程 数量 。 这 就 给 确定 何 时 删除 一 个 信和 号 量 集 增加 
了 难度 并 且 难 以 确保 一 个 不 再 使 用 的 信号 量 集会 被 删除 。 
。 System V 提供 的 编程 接口 过 于 复杂 。 在 通常 情况 下 ， 一 个 程序 只 会 操作 一 个 信号 量 。 
同时 操作 集合 中 多 个 信号 量 的 能 力 有 时 候 是 多 余 的 。 
e 信号 量 的 操作 存在 诸多 限制 。 这 些 限制 是 可 配置 的 ， 但 如 果 一 个 应 用 程序 超出 了 默认 
限制 的 范围 ， 那 么 在 安装 应 用 程序 时 就 需要 完成 额外 的 工作 了 。 
不 管 怎样 ， 与 消息 队列 所 面临 的 情况 不 同 ， 奉 代 System V 信号 量 的 方案 不 多 ， 其 结果 是 
在 很 多 情况 下 都 必须 要 用 到 它们。 信和 号 量 的 一 个 奉 代 方 案 是 记录 锁 ， 在 第 55 章 中 将 会 对 此 了 予 
以 介绍 。 此 外 ， 从 内 核 2.6 以 及 之 后 的 版 本 开始 ，Linux 支持 使 用 POSIX 信和 号 量 来 进行 进程 同 


步 。 第 53 章 将 会 介绍 POSIX 信号 量 。 
















































































47.12 总 结 


System V 信和 号 量 允 许 进 程 同步 它们 的 动作 。 这 在 当 一 个 进程 必须 要 获取 对 某 些 共享 资源 
《如 一 块 共享 内 存 区 域 ) 的 互 斥 性 访问 时 是 比较 有 用 的 。 

言 号 量 的 创建 和 操作 是 以 集合 为 单位 的 ， 一 个 集合 包含 一 个 或 多 个 信号 量 。 集 合 中 的 每 
个 信和 号 量 都 是 一 个 整数 ， 其 值 永远 大 于 或 等 于 0。semopO 系 统 调 用 人 允许 调用 者 在 一 个 信和 号 量 
上 加 上 一 个 整数 、 从 一 个 信号 量 中 减 去 一 个 整数 、 或 等 待 一 个 信号 量 等 于 0。 后 两 个 操作 可 能 
会 导致 调用 者 阻塞 。 

言 写 量 实现 无 需 对 一 个 新 信号 量 集 中 的 成 员 进 行 初始 化 , 因此 应 用 程序 束 必 须要 在 创建 
完 之 后 对 它们 进行 初始 化 。 当 一 些 地 位 平等 的 进程 中 任意 一 个 进程 试图 创建 和 初始 化 信和 号 量 
时 就 需要 特别 小 心 以 防止 因 这 两 个 步骤 是 通过 单独 的 系统 调用 来 完成 的 而 可 能 出 现 的 竞争 
条 件 。 

如 果 多 个 进程 对 该 信号 量 减 去 的 值 是 一 样 的 ， 那 么 当 条 件 允 许 时 到 底 哪个 进程 会 首先 被 
允许 执行 操作 是 不 确定 的 。 但 如 果 多 个 进程 对 信和 号 量 减 去 的 值 是 不 同 的 ， 那 么 会 按照 先 满足 
条 件 先 服务 的 顺序 来 进行 并 且 需 要 小 心 避 免 出 现 一 个 进程 因 信 和 号 量 永远 无 法 达到 人 允许 进程 操 
作 继 续 往 前 执行 的 值 而 饿 死 的 情况 。 

SEM UNDO 标记 人 允许 一 个 进程 的 信号 量 操作 在 进程 终止 时 自动 撤销 。 这 对 于 防止 出 现 进 
程 意 外 终止 而 引起 的 信号 量 处 于 一 个 会 导致 其 他 进程 因 等 竺 已 终止 的 进程 修改 信号 量 值 而 永 
远 阻 塞 情况 来 讲 是 比较 有 用 的 。 

System V 信号 量 的 分 配 和 操作 是 以 集合 为 单位 的 ， 并 且 对 其 增加 和 减 小 的 数量 可 以 是 任 
意 的 。 它 们 提供 的 功能 要 多 于 大 多 数 应 用 程序 所 需 的 功能 。 对 信号 量 常 见 的 要 求 是 单个 二 元 
信和 号 量 ， 它 的 取 值 只 能 是 0 和 1。 本 章 介 绍 了 如 何以 System V 信和 号 量 为 基础 实现 一 个 二 元 信 
号 
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更 多 信息 








[Bovet & Cesati, 2005] 和 [Maxwell, 1999] 提 供 了 一 些 有 关 Linux 上 信号 量 实现 的 背景 信息 。 
[Dijkstra, 1968] 是 早期 有 关 信 号 量 理论 的 一 片 经 典 论文 。 


47.13 


47-1. 
47-2. 


47-3. 


47-4. 


47-5. 


47-6. 


47-7. 





2] gb 


试验 程序 清单 47-8 中 的 程序 〈(svsem_ op.c) 来 确认 对 semopO 系 统 调 用 的 理解 。 
修改 程序 清单 24-6 中 的 程序 (fork sig sync.c) 使 之 使 用 信号 量 来 替代 信号 完成 父 
进程 和 子 进程 之 间 的 同步 。 

试验 程序 清单 47-8 中 的 程序 (svsem_op.c) 和 本 章 中 提供 的 其 他 有 关 信 和 号 量 的 程序 
来 检查 当 一 个 既 有 进程 对 一 个 信号 量 执行 了 一 个 SEM_UNDO 调整 时 sempid 值 会 
发 生 什 么 情况 。 

在 程序 清单 47-10 给 出 的 代码 (binary sems.c) 中 增加 一 个 reserveSsemNBO PA coe 
使 用 IPC NOWAIT 标记 实现 有 条 件 的 预 留 操作 。 

在 VMS HERRE, Digital 提供 了 一 种 类 似 于 二 元 信号 量 的 同步 方法 ， 筷 被 称 为 
事件 标记 Cevent flag)。 一 个 事件 标记 可 以 取 两 个 值 clear 和 set， 并 且 在 其 之 上 可 
以 执行 下 面 4 种 操作 : setEventFlag 来 设置 标记 ; clearEventFlag 来 清除 标记 :; 
waitForEventFlag 阻塞 直到 标记 被 设置 ，getFlaggState 获取 标记 的 当前 状态 。 使 用 
System V 信号 量 为 事件 标记 设计 一 种 实现 。 这 个 实现 要 求 上 面 每 个 函数 都 接收 两 个 
参数 : 一 个 是 信号 量 标识 符 ， 一 个 是 信号 量 序 号 。( 在 考虑 waitForEventFlag 操作 
时 将 会 发 现 为 clear 和 set 状态 取 值 不 是 一 件 容 易 的 事情 。) 

使 用 命名 管道 实现 一 个 二 元 信号 量 协议 。 提 供 函 数 来 预 留 、 释 放 以 及 有 条 件 地 预 留 
信号 量 。 

编写 一 个 与 程序 清单 46-6 中 给 出 的 程序 (svmsg_ 1s.c) 类 似 的 程序 使 之 使 用 semctlQ 
SEM INFO 和 SEM STAT 操作 来 获取 和 显示 系统 上 所 有 信号 量 集 列 表 。 
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EH 


System V 共享 内 存 


本 草 将 介绍 System V 共享 内 存 。 共 享 内 存 允 许 两 个 或 多 个 进程 共享 物理 内 存 的 同一 块 区 
域 (通常 被 称 为 段 )。 由 于 一 个 共享 内 存 段 会 成 为 一 个 进程 用 户 空 间 内 存 的 一 部 分 ， 因 此 这 种 
IPC 机 制 无 需 内 核 介入 。 所 有 需 ;要 做 的 就 是 让 个 进程 将 数据 复制 进 共 圣 内 存 中 ， 并 且 这 部 分 
数据 会 对 其 他 所 有 共享 同一 个 段 的 进程 可 用 。 与 管道 或 消息 队列 要 求 发 送 进 程 将 数据 从 用 户 

宇 间 的 绥 剖 区 复制 进 内 核 内 存 和 接收 进程 将 数据 从 内 核 内 存 复制 进 用 户 衬 间 的 组 种 区 的 做 法 
相 比 ， 这 种 IPC 技术 的 速度 更 快 。( 每 个 进程 也 存在 通过 系统 调用 来 执行 复制 操作 的 开销 。) 

另 一 方面 ， 共 孚 内 存 这 种 IPC 机 制 不 由 内 核 控制 意味 看 通 第 需要 通过 有 些 同 步 方 法 使 得 
进程 不 会 出 现 同 时 访问 共享 内 存 的 情况 《〈 如 两 个 进程 同时 执行 更 新 操作 或 者 一 个 进程 在 从 共 
享 内 存 中 获取 数据 的 同时 另 一 个 进程 正在 更 新 这 些 数据 )。System V 信和 号 量 天 生 就 是 用 来 完成 
这 种 同步 的 一 种 方法 。 当然, 还 可 以 使 用 其 他 方法 , 如 POSIX 信号 量 (第 53 E) 和 文件 锁 ( 第 
55 $); 


















































在 mmapO NE F, —BÉRUAMWE POSU AMOBUS 8) 38b, ME System V 术语 中 ， 一 个 共 
享 内 存 段 是 被 附加 到 一 个 地 址 上 的 。 这 些 术 语 是 等 价 的 ， 它 们 在 术语 上 之 所 以 存在 差异 是 
因为 这 两 组 API 的 起 源 不 同 。 








48.1 概述 


为 使 用 一 个 共 且 内 存 段 通 利 需 要 执行 下 面 的 步骤 。 

调用 shmgei0 创 建 一 个 新 共 至 内 存 段 或 取得 一 个 妹 有 共 至 内 存 段 的 标识 符 ( 即 由 其 他 进程 
创建 的 共 孚 内 存 段 )。 这 个 调用 将 返回 后 续 调 用 中 需要 用 到 的 共 孚 内 存 标识 符 

。 使 用 shmatO 来 附 上 共 孚 内 存 段 ， 即使 该 段 成 为 调用 进程 的 虚拟 内 存 的 一 部 分 ， 

° saperlo quA a EATE. JI HRREEN 
存 ， 程 序 需 要 使 用 由 shmatO 调 用 返回 的 addr 值 ， 它 是 一 个 指向 进程 的 虚拟 地 址 空间 
中 该 共计 内 存 段 的 起 后 的 指针 。 
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。 调用 shmdt0 来 分 离 共 享 内 存 段 。 在 这 个 调用 之 后 ， 进 程 束 无 法 再 引用 这 块 共享 内 存 
了 。 这 一 步 是 可 选 的 ， 并 且 在 进程 终止 时 会 目 动 完成 这 一 步 。 

。 调用 shmctl0 来 删除 共 圣 内 存 段 。 只 有 当当 前 所 有 附加 内 存 段 的 进程 部 与 之 分 离 之 后 
内 存 段 才 会 被 销毁 。 上 只 有 一 个 进程 需要 执行 这 一 步 。 


48.2 ”创建 或 打开 一 个 共享 内 存 段 


shmgetO 系 统 调用 创建 一 个 新 共 理 内 存 段 或 获取 一 个 既 有 段 的 标识 符 。 新 创建 的 内 存 段 中 
的 内 容 会 被 初始 化 为 0。 


#include «sys/types.h» /* For portability */ 
#include <sys/shm.h> 




















int shmget(key t key, size t size, int shmflg); 


Returns shared memory segment identifier on success, or -1 on error 











key 参数 是 使 用 在 45.2 PAPER HR -ATE CHI 46 IPC. PRIVATE 值 或 由 ftok( 
返回 的 键 ) 生成 的 键 。 

当 使 用 shmget0 创 建 一 个 新 共享 内 存 段 时 ，size 则 是 一 个 正 整 数 ， 它 表示 需 分 配 的 段 的 字 
节 数 。 内 核 是 以 系统 分 页 大 小 的 整数 倍 来 分 配 共享 内 存 的 ， 因 此 实际 上 size 会 被 提升 到 最 近 
的 系统 分 页 大 小 的 整数 倍 。 如 末 使 用 shmgetO 来 获取 一 个 既 有 段 的 标识 符 , 那么 size 对 段 不 会 
产生 任何 效果 ， 但 它 必 须要 小 于 或 等 于 段 的 大 小 。 

shmflg 参数 执行 的 任务 与 其 在 其 他 IPC get 调用 中 执行 的 任务 一 样 ， 即 指定 施加 于 新 共享 
内 存 段 上 的 权限 或 需 检查 的 既 有 内 存 段 的 权限 ( 表 15-4)。 此 外 ,在 shmflg 中 还 可 以 对 下 列 标 
记 中 的 零 个 或 多 个 取 OR 来 控制 shmgetO 的 操作 。 


IPC CREAT 
如 果 不 存在 与 指定 的 key 对 应 的 段 ， 那 么 就 创建 一 个 新 段 。 


IPC EXCL 

如 果 同 时 指定 了 IPC_CREAT 并 且 与 指定 的 key 对 应 的 段 已 经 存在 ， 那 么 返回 EEXIST 错误 。 

45.1 六 对 上 述 标记 进行 了 详细 的 介绍 。 此 外 ，Linux 还 允许 使 用 下 列 非 标准 标记 。 
SHM HUGETLB ( 自 Linux 2.6 起 ) 

特权 CAP IPC LOCK) 进程 能 够 使 用 这 个 标记 创建 一 个 使 用 巨 页 (huge page) 的 共享 内 存 
段 。 巨 页 是 很 多 现代 便 件 架构 提供 的 一 项 特性 用 来 管理 使 用 超大 分 页 尺寸 的 内 存 。( 如 x86-32 È 
许 使 用 4MB 的 分 页 大 小 来 蔡 代 4KB 的 分 页 大 小 。) 在 那些 拥有 大 量 内 存 的 系统 上 并 且 应 用 程序 需 
要 使 用 大 量 内 存 拱 时 ， 使 用 巨 页 可 以 降低 便 件 内 存 管 理 单元 的 超前 转换 缓冲 器 (translation 
look-aside buffer, TLB) 中 的 条 目 数量 。 这 之 所 以 会 带 来 益处 是 因为 TLB 中 的 条 目 通 常 是 一 种 稀 
缺 资 源 。 更 多 信息 可 参考 内 核 源 文件 Documentation/vm/ hugetlbpage.txt。 



























































SHM NORESERVE ( 自 Linux 2.6.15 i) 

这 个 标记 在 shmgetO 中 所 起 的 作用 与 MAP NORESERVE 标记 在 mmap0O 中 所 起 的 作用 一 
样 ， 具 体 可 参见 49.9 节 。 

shmgetO 在 成 功 时 返回 新 或 四 有 共享 内 存 段 的 标识 符 。 
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shmatO 系 统 调 用 将 shmid bci] s P fr Br B 81 58 H ERES] MEL RE ^ [8] H o 





include <sys/types.h> /* For portability */ 
include «sys/shm.h» 


void *shmat(int shm2d, const void *shmaddr, int shmflg); 


Returns address at which shared memory is attached on success, 
Or (void *) -1 on error 











shmaddr 参数 和 shmflg MA% SHM | RND 位 的 设置 控制 看 段 是 如 何 被 附加 上 去 的 。 

e 如果 shmaddr 是 NULL， 那 么 段 会 被 附加 a 到 内 核 所 选择 的 一 个 合适 的 地 址 处 。 这 是 附 
MATRITE A 

。 如 果 shmaddr 不 为 NULL 并 且 没 有 设置 SHM_RND, 那么 段 会 被 附加 到 由 shmaddr 指 
定 的 地 址 处 ， 它 必须 是 系统 分 页 大 小 的 一 个 倍数 《和 否则 会 发 生 EINVAL HX. 

e JIR shmaddr 不 为 NULL 并 且 议 置 了 SHM _RND， 那 么 段 会 被 映射 到 的 地 址 为 在 
shmaddr 中 提供 的 地 址 被 含 入 到 最 近 的 常量 SHMLBA (shared memory low boundary 
address) 的 倍数 。 这 个 第 量 等 于 系统 分 页 大 小 的 茶 个 倍数 。 将 一 个 段 附加 到 值 为 
SHMLBA 的 倍数 的 地 址 处 在 一 些 架 构 上 是 有 必要 的 ， 因 为 这 样 才能 够 提升 CPU 的 快 
速 绥 冲 性 能 和 防止 出 现 同一 个 段 的 不 同 附加 操作 在 CPU 快速 缓冲 中 存在 不 一 致 的 视 
图 的 情况 。 


TE x86 架构 上 ，SHMLBA 的 值 与 系统 分 页 大 小 是 一 样 的 ， 这 意味 看 此 关 绥 冲 不 一 致 性 
不 可 能 在 那些 淋 构 上 出 现 。 














为 shmaddr 指定 一 个 非 NULL 值 〈( 即 上 和 面 列 出 的 第 三 种 和 第 三 种 情况 ) 不 是 一 种 推荐 的 
做 法 ， 其 原因 如 下 。 
e 它 降低 了 一 个 应 用 程序 的 可 移植 性 。 在 一 个 UNIX 实现 上 有 效 的 地 址 在 另 一 个 实现 上 
可 能 是 无 效 的 。 

。 试图 将 一 个 共享 内 存 段 附加 到 一 个 正在 使 用 中 的 特定 地 址 处 的 操作 会 失败 。 例 如 ， 妆 
一 个 应 用 程序 〈 可 能 在 一 个 库 函 数 中 ) 已 经 在 该 地 址 处 附加 了 另 一 个 段 或 创建 一 个 内 
存 映 射 时 就 会 发 生 这 种 情况 。 

shmatO 的 函数 结果 是 返回 附加 共享 内 存 段 的 地 址 。 开 发 人 员 可 以 像 对 待 普通 的 C TREE 
样 对 竺 这 个 值 ， 段 与 进程 的 虚拟 内 存 的 其 他 部 分 看 起 来 蛙 无 差异 。 通 单 会 将 shmat0 的 返回 值 
威 给 一 个 指 同 某 个 由 程序 员 定 义 的 结构 的 指针 以 便 在 该 段 上 设 定 该 结构 〈 参 见 程序 清单 48-2 
中 给 出 的 例子 )。 

要 附加 一 个 共享 内 存 段 以 供 只 读 访 问 ， 那 么 就 需要 在 shmflg 中 指定 SHM_RDONLY 标记 。 
试图 更 新 只 读 段 中 的 内 容 会 导致 段 错 误 (SIGSEGV 信号 ) 的 发 生 。 如 果 没 有 指定 SHM 
RDONLY， 那 么 就 既 可 以 读 取 内 存 又 可 以 修改 内 存 。 

一 个 进程 要 附加 一 个 共享 内 存 段 就 需要 在 该 段 上 具备 读 和 写 权 限 ， 除 非 指 定 了 SHM 
RDONLY 标记 ， 那 样 的 话 台 只 需要 具备 谈 权 限 即 可 。 
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在 一 个 进程 中 可 以 多 次 附加 同一 个 共 圣 内 存 段 ， 即 使 一 个 附加 操作 是 只 读 的 而 为 一 个 
古 读 写 的 也 没有 关系 。 每 个 附加 把 上 内 存 中 的 内 容 都 是 一 样 的 ， 因 为 进程 虚拟 内 存 页 表 中 
的 不 同 条 目 引 用 的 是 同样 的 内 存 物理 负面 。 


最 后 一 个 可 以 在 shmflg 中 指定 的 值 是 SHM. REMAP. 在 指定 了 这 个 标记 之 后 shmaddr 的 值 
必须 为 非 NULL。 这 个 标记 要 求 shmatO 调 用 蔡 换 起 点 在 shmaddr 处 长 度 为 共 孚 内 存 段 的 长 度 的 
任何 既 有 共享 内 存 段 或 内 存 映 射 。 一 般 来 讲 ， 如 果 试 图 将 一 个 共享 内 存 段 附 加 到 一 个 已 经 在 用 
的 地 址 范围 时 将 会 导致 EINVAL 错误 的 发 生 。SHM REMAP 是 一 个 非 标准 的 Linux 扩展 。 

K 48-1 对 shmatO 的 shmflg 参数 中 能 取 OR 的 常量 进行 了 总 结 。 

表 48-1: shmat() 的 shmflg 位 掩 码 值 























值 描 XR 
SHM RDONLY 附加 只 读 段 
SHM_REMAP 蔡 换 位 于 shmaddr 处 的 任意 既 有 了 映射 
SHM RND 将 shmaddr 四 舍 五 入 为 SHMLBA 字 节 的 倍数 











当 一 个 进程 不 再 需要 访问 一 个 共 圣 内 存 段 时 就 可 以 调用 shmdt0 来 讲 该 段 分 离 出 其 虚拟 地 
址 空间 了 。shmaddr 参数 标识 出 了 待 分离 的 段 ， 它 应 该 是 由 之 前 的 shmat0 调 用 返回 的 一 个 值 。 














#include «sys/types.h» /* For portability */ 
include «sys/shm.h» 


int shmdt(const void *shmaddr); 


Returns 0 on success, or -1 on error 











4) 8 — P Ag V IEEE ER ES ZI E ER 3d 48.7 节 中 介绍 的 shmctlü IPC. RMID 
操作 来 完成 的 。 

通过 fork0 创 建 的 子 进程 会 继承 其 父 进程 附加 的 共 圣 内 存 段 。 因 此 ， 共 至 内 存 为 父 进 程 和 
子 进 程 之 间 的 通信 提供 了 一 种 简单 的 IPC 方法 。 

在 一 个 execO 中 ,所 有 附加 的 共 胖 内 存 段 都 会 被 分 离 。 在 进程 终止 乙 后 共 孚 内存 段 也 会 目 
SWAT Ae 


48.4 示例 : 通过 共 圣 内 存 传输 数据 


下 面 介 绍 一 个 使 用 System V 共享 内 存 和 信和 号 量 的 示例 程序 。 这 个 应 用 程序 由 两 个 程序 构 
成 : 写 者 和 读者 。 写 者 从 标准 输入 中 读 取 数据 块 并 将 数据 复制 (“ 写 ”) 到 一 个 共享 内 存 段 中 。 
读者 将 共享 内 存 段 中 的 数据 块 复制 ( 读 ”) 到 标准 输出 中 。 实 际 上 ， 程 序 在 某 种 程度 上 将 共 
享 内 存 当 成 了 管道 来 处 理 。 

两 个 程序 使 用 了 二 元 信和 号 量 协议 CE 479 节 中 定义 的 initSemAvailable0 、initSemInUseO、 
reserveSem() L] X releaseSemQ PAZ). 中 的 一 对 System V 信号 量 来 确保 : 

e 一 次 只 有 一 个 进程 访问 共享 内 存 段 ; 

e 进程 交 蔡 地 访问 段 〈 即 写 者 写 入 一 些 数据 ， 然 后 读者 读 取 这 些 数 据 ， 然 后 写 者 再 次 写 

入 数据 ， 以 此 类 推 )。 
图 48-1 概述 了 这 两 个 信号 量 的 使 用 。 注 意 写 者 对 两 个 信号 量 进行 了 初始 化 ， 这 样 它 束 成 
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为 两 个 程序 中 第 一 个 能 够 访问 共享 内 存 段 的 程序 了 ， 即 号 者 的 信号 量 初 始 时 是 可 用 的 ， 而 读 
者 的 信号 量 初始 时 是 正在 被 使 用 中 的 。 
写 者 进程 读者 进程 




















reserue*emn( WRITE SEM); reserveSem( READ NEM); 


i 共享 内 存 | 


将 数据 块 从 stdin 将 数据 块 从 共享 
拷贝 至 共享 内 存 —— EZ 内 存 拷贝 至 stdout 


release*em( READ SEM ); release*em( WRITE SEM); 


图 48-1: 使 用 信号 量 稍 保 对 共享 内存 的 互 斥 、 人 交 革 的 访问 


这 个 应 用 程序 的 源 代码 由 三 个 文件 构成 。 第 一 个 文件 是 由 读者 程序 和 写 者 程序 共 亨 的 头 
文件 ， 如 程序 清单 48-1 所 示 。 这 个 头 文件 定义 了 shmseg 结构 ， 程 序 使 用 了 这 个 结构 来 声明 指 
癌 共 孚 内 存 段 的 指针 ， 这 样 碘 能 给 共 孚 内 存 段 中 的 学 世 规 定 一 种 结构 。 


程序 清单 48-1:，， svshm xfr writer.c 和 svshm xfr reader.c 的 头 文件 

















svshm/svshm xfr.h 


include <sys/types.h> 

#include «sys/stat.h» 

include «sys/sem.h» 

include «sys/shm.h» 

include "binary sems.h" /* Declares our binary semaphore functions */ 
include "tlpi hdr.h" 


#define SHM KEY 0x1234 /* Key for shared memory segment */ 
#define SEM KEY 0x5678 /* Key for semaphore set */ 


#define OBJ PERMS (S IRUSR | S IWUSR | S IRGRP | S IWGRP) 
/* Permissions for our IPC objects */ 


#define WRITE SEM 0 /* Writer has access to shared memory */ 

#define READ SEM 1 /* Reader has access to shared memory */ 

#ifndef BUF SIZE /* Allow "cc -D" to override definition */ 

#define BUF SIZE 1024 /* Size of transfer buffer */ 

#endif 

struct shmseg { /* Defines structure of shared memory segment */ 
int cnt; /* Number of bytes used in 'buf' */ 
char buf[BUF SIZE]; /* Data being transferred */ 

}; 


svshm/svshm xfr.h 











程序 清单 48-2 是 写 者 程序 。 这 个 程序 按 序 完成 下 列 任务 。 

。 创建 一 个 包含 两 个 信号 量 的 集合 ， 写 者 和 读者 程序 会 使 用 这 两 个 信号 量 来 确保 它们 交 
谷地 访问 共 孚 闪存 段 中 。 信 号 量 被 初始 化 为 使 号 者 首先 访问 共 孚 内 存 段 。 由 于 十 由 与 
者 来 创建 信号 量 集 的 ， 因 此 必须 在 局 动 读者 之 前 局 动 写 者 。 

。 创建 共有 圣 内 存 段 并 将 其 附加 a 到 与 者 的 虚拟 地 址 空间 中 系统 所 选择 的 一 个 地 址 处 已 。 
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。 进入 一 个 循环 将 数据 从 标准 输入 传输 到 共享 内 存 段 包 。 每 个 循环 迭代 需要 按 序 完成 下 
面 的 任务 : 
-ME W BEPA SE 
_ 从 标准 输入 中 读 取 数据 并 将 数据 复制 到 共 ET PME ERO). 
-释放 增加 〉 读者 的 信号 量 

° 当 标准 输入 中 没有 可 用 的 数据 时 循环 终 I 目 (9。 在 最 后 一 次 循环 中 ， 写 者 通过 传递 一 个 
KEJ 0 的 数据 块 (shmp—>cnt 为 0) 来 通知 读者 没有 更 多 的 数据 了 。 

e 在 退出 循环 时 ， - E 
Hs. HTO. SS BEER T 253€ PE BUORMES S RERO. 

Be E A 

成 了 下 面 的 任务 。 

e 获取 与 者 程序 创建 的 信号 量 集合 共享 内 存 段 的 IDGD。 

° 附加 共 EA FRERE RO. 

。 进入 一 个 循环 从 共享 内 存 段 中 传输 数据 @)。 EAEAN ARE m TETEN FRES o 
-MA ORM 读者 的 信号 量 
-检查 shmp->cnt 是 否 为 0， "T 0 WE HERO. 
-将 共 圣 内 和 存 段 中 的 数据 块 写 入 标准 输出 中 @)。 
-释放 (增加 〉 写 者 的 信号 量 

。 在 退出 循环 之 后 分 诡 离 共享 内 存 段 加 并 释放 写 者 的 信号 量 @) 这 样 写 者 程序 就 能 够 删除 
IPC 对 象 了 。 


程序 清单 48-2. 将 stdin 中 的 数据 块 传输 到 一 个 System V 共享 内 存 段 中 


svshn/svshm xfr writer.c 







































































dinclude "semun.h" /* Definition of semun union */ 
include "svshm xfr.h" 


int 

main(int argc, char *argv[]) 

i 
int semid, shmid, bytes, xfrs; 
struct shmseg *shmp; 
union semun dummy; 


CD semid = SMe et EILEEN, 2, IPC CREAT | 0BJ PERMS); 
if (semid -- -1) 
errExit("semget") ; 
if (initSemAvailable(semid, WRITE SEM) -- -1) 
errExit("initSemAvailable"); 
if (initSemInUse(semid, READ SEM) -- -1) 
errExit("initSemInUse"); 


© shmid = shmget(SHM KEY, sizeof(struct shmseg), IPC CREAT | OBJ PERMS); 
if (shmid == -1) 
errExit("shmget"); 


shmp = shmat(shmid, NULL, O); 
if (shmp == (void *) -1) 


errExit("shmat"); 


/* Transfer blocks of data from stdin to shared memory */ 
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for (xfrs = 0, bytes = 0; ; xfrs++, bytes += shmp-»cnt) { 
if (reserveSem(semid, WRITE SEM) -- -1) /* Wait for our turn */ 
errExit("reserveSem"); 


( © 


(5) shmp-»cnt - read(STDIN FILENO, shmp-»buf, BUF SIZE); 
if (shmp-»cnt -- -1) 
errExit(" read"); 


(6) if (releaseSem(semid, READ SEM) -- -1) /* Give reader a turn */ 
errExit("releaseSem"); 


/* Have we reached EOF? We test this after giving the reader 
a turn so that it can see the 0 value in shmp-»cnt. */ 


JW) if (shmp-»cnt -- 0) 
break; 
} 


/* Wait until reader has let us have one more turn. We then know 
reader has finished, and so we can delete the IPC objects. */ 


(8) if (reserveSem(semid, WRITE SEM) -- -1) 
errExit("reserveSem"); 


(9) if (semctl(semid, o, IPC RMID, dummy) == -1) 
errExit("semct1"); 
if (shmdt(shmp) == -1) 
errExit("shmdt"); 
if (shmctl(shmid, IPC RMID, 0) == -1) 
errExit("shmct1"); 


fprintf(stderr, "Sent Xd bytes (Xd xfrs)Wn", bytes, xfrs); 
exit(EXIT SUCCESS); 


svshn/svshm xfr writer.c 


程序 清单 48-3: 将 一 个 System V 共享 内 存 段 中 的 数据 块 传输 到 stdout 中 


svshm/svshm xfr reader.c 


include "svshm xfr.h" 


int 
main(int argc, char *argv[]) 


int semid, shmid, xfrs, bytes; 
struct shmseg *shmp; 


/* Get IDs for semaphore set and shared memory created by writer */ 


(D semid = semget(SEM KEY, 0, O); 
if (semid -- -1) 
errExit("semget"); 


shmid = shmget(SHM KEY, O, 0); 
if (shmid -- -1) 
errExit("shmget") ; 


© shmp = shmat(shmid, NULL, SHM RDONLY); 
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if (shmp == (void *) -1) 
errExit("shmat"); 


/* Transfer blocks of data from shared memory to stdout */ 


© for (xfrs = 0, bytes = 0; ; xfrs++) { 

(4) if (reserveSem(semid, READ SEM) -- -1) /* Wait for our turn */ 
errExit("reserveSem"); 

(5) if (shmp-»cnt -- 0) /* Writer encountered EOF */ 
break; 

bytes += shmp-»cnt; 

(6) if (write(STDOUT FILENO, shmp-»buf, shmp-»cnt) !- shmp-»cnt) 
fatal("partial/failed write"); 

JW) if (releaseSem(semid, WRITE SEM) == -1) /* Give writer a turn */ 
errExit("releaseSem"); 

} 
(8) if (shmdt(shmp) -- -1) 


errExit("shmdt"); 
/* Give writer one more turn, so it can clean up */ 


(9) if (releaseSem(semid, WRITE SEM) -- -1) 
errExit("releaseSem"); 


fprintf(stderr, "Received Xd bytes (Xd xfrs)Wn", bytes, xfrs); 
exit(EXIT SUCCESS); 


svshm/svshm xfr reader.c 


下 面 的 shel 会 话 演示 了 如 何 使 用 程序 清单 48-2 和 程序 清单 46-9 中 的 程序 。 这 里 在 调 
用 读者 时 将 文件 /etc/services 作为 输入 ， 然 后 调用 了 读者 并 将 其 输出 定向 到 另 一 个 文件 中 。 


$ wc -c /etc/services Display size of test file 
764360 /etc/services 
$ ./svshm xfr writer « /etc/services & 











[1] 9403 

$ ./svshm xfr reader » out.txt 

Received 764360 bytes (747 xfrs) Message from reader 
Sent 764360 bytes (747 xfrs) Message from writer 
[1]- Done ./svshm xfr writer « /etc/services 

$ diff /etc/services out.txt 

$ 





diff 命令 不 产生 任何 输出 , 这 说 明 读 者 产生 的 输出 文件 中 的 内 容 与 写 者 使 用 的 输入 文件 中 
的 内 容 是 一 样 的 。 


48.5 ” 共 孚 内 存在 虚拟 内 存 中 的 位 置 


在 6.3 站 中 介绍 了 一 个 进程 的 各 个 部 分 在 虚拟 内 存 中 的 布局 。 现 在 在 介绍 附加 System V 
共享 内 存 段 的 时 候 重 温 一 下 这 个 主题 是 比较 有 帮助 的 。 如 果 遵 循 所 推荐 的 方法 ， 即 允许 内 核 
选择 在 何 处 附加 共 孚 内 存 段 , 那么 (在 x86-32 架构 上 ) 内 存 布 局 束 会 像 图 48-2 中 所 示 的 那样 ， 
段 们 附加 在 向上 增长 的 堆 和 癌 下 增长 的 栈 之 间 未 被 分 配 的 空间 中 。 为 给 堆 和 栈 的 增长 腾 出 空 
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间 ， 附 加 共享 内 存 段 的 虚拟 地 址 从 0x40000000 开始 。 内 存 映 射 (第 49 XE» MREZE CE 41 
和 42 章 ) 也 是 被 放置 在 这 个 区 域 中 的 。( 共 享 内 存 映 射 和 内 存 段 默认 被 放置 的 位 置 可 能 会 
些 不 同 ， 这 依赖 于 内 核 版 本 和 进程 的 RLIMIT STACK 资源 限制 的 设置 。) 


虚拟 肉 存 地 址 
(十 六 进 制 ) 


OxCOO00000 


共享 内 存 、 内 存 映 射 和 
共享 库 位 于 此 处 


0x40000000 
TASK UNMAPPED BASE 


为 堆 扩展 保留 





zi 未 初始 化 数据 (bss) 
E 初始 化 数据 
3s 文本 (程序 代码 ) 
l 0x08048000 
Ox00000000 


图 48-2: 共享 内 存 、 内 存 上 映射、 以 及 共享 库 的 位 置 ( x86-32 ) 





地 址 0x40000000 被 定义 成 了 内 核 常 量 TASK UNMAPPED BASE。 通 过 将 这 个 常量 定 
义 成 一 个 不 同 的 值 并 且 重 建 内 核 可 以 修改 这 个 地 址 的 值 。 

如 过 在 调用 shmatO《 或 mmapO) 时 采用 了 不 推荐 的 方法 ， 即 显 陈 地 指定 一 个 地 址 ， 那 
么 一 个 共有 学 和 内存 段 〈 或 内 存 上 映射 ) 可 以 家 放置 在 低 于 TASK UNMAPPED BASE 的 地 址 处 。 




















通过 Linux 特有 的 /proc/PID/maps 文件 能 够 看 到 一 个 程序 映射 的 共享 内 存 段 和 共享 库 的 位 
置 ， 如 下 面 的 shell 会 话 所 示 。 


从 内 核 2.6.14 开始 ，Linux 还 提供 了 /proc/PID/smaps 文件 ， 它 给 出 了 有 关 一 个 进程 中 各 
个 映射 的 内 存 消耗 方面 的 更 多 信息 。 更 多 细节 可 参考 proc(5) 手 册 。 


TE FIBI shell 会 话 中 使 用 了 三 个 在 本 章 中 没有 给 出 的 程序 ， 读 者 可 以 在 本 书 随 带 的 源 代 

码 的 svshm 子 目 录 中 找到 这 三 个 程序 。 这 些 程序 执行 了 下 面 的 任务 。 
e svshm create.c 程序 创建 了 一 个 共享 内 存 段 。 这 个 程序 与 在 介绍 消息 队列 〈 程 序 清单 46-1) 
和 信和 号 量 时 给 出 的 相应 程序 接收 同样 的 命令 行 选项 ,但 它 包含 了 一 个 额外 的 用 来 规定 
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段 大 小 的 参数 。 

e svshm attach.c 程序 附加 通过 其 命令 行 参数 指定 的 共享 内 存 段 。 每 个 参数 都 由 一 对 用 分 号 
隔 开 的 数字 构成 ， 两 个 数字 分 别 是 共 亨 内存 标识 符 和 附加 地 址 。 将 附加 地 址 指定 为 0 表 

示 系 统 应 该 选择 地 址 。 程 序 会 显示 出 实际 附加 内 存 段 的 地 址 。 些 外， 为 提供 更 多 的 有 用 

信息 ， 程 序 还 显示 出 了 SHMLBA 常量 的 值 和 运行 这 个 程序 的 进程 的 进程 D. 

e svshm rm.c 程序 删除 通过 其 命令 行 参数 指定 的 共享 内 存 段 。 

AIE shell 中 创建 两 个 共 圣 内 存 段 (大 小 分 别 为 100kB 和 3200kB). 

$ ./svshm create -p 102400 

9633796 

$ ./svshm create -p 3276800 

9666565 

$ ./svshm create -p 102400 

1015817 

$ ./svshm create -p 3276800 

1048586 

然后 局 动 一 个 将 这 两 个 段 附加 到 由 内 核 选择 的 地 址 处 的 程序 。 


$ ./svshm attach 9633796:0 9666565:0 
SHMLBA - 4096 (0x1000), PID - 9903 
1: 9633796:0 ==> 0xb7f0d000 

2: 9666565:0 ==> Oxb7bedoo0 

Sleeping 5 seconds 


从 上 面 的 输出 中 可 以 看 出 附加 这 两 个 段 的 地 址 。 在 程序 完成 睡眠 之 前 挂 起 这 个 程序 ， 然 
后 检查 相应 的 /proc/PID/maps 文件 中 的 内 容 。 


Type Control-Z to suspend program 
[1]+ Stopped ./svshm attach 9633796:0 9666565:0 
$ cat /proc/9903/maps 


程序 清单 48-4 给 出 了 cat 命令 产生 的 输出 。 
程序 清单 48-4: 示例 /proc/PID/maps HAR 























$ cat /proc/9903/maps 

(D 08048000-0804a000 r-xp 00000000 08:05 5526989 /home/mtk/svshm attach 
0804a000-0804b000 r--p 00001000 08:05 5526989  /home/mtk/svshm attach 
0804b000-0804c000 rw-p 00002000 08:05 5526989  /home/mtk/svshm attach 

(2 b7bed000-b7fOdO00 rw-s 00000000 00:09 9666565 /SYSVoooooo00 (deleted) 
b7f0do00-b7f26000 rw-s 00000000 00:09 9633796 /SYSV00000000 (deleted) 
b7f26000-b7f27000 rw-p b7f26000 00:00 0 

(3) b7f27000-b8064000 r-xp 00000000 08:06 122031  /lib/libc-2.8.so 
b8064000-b8066000 r--p 0013d000 08:06 122031  /lib/libc-2.8.so 
b8066000-b8067000 rw-p 0013f000 08:06 122031  /lib/libc-2.8.so 
b8067000-b806b000 rw-p b8067000 00:00 0 
b8082000-b8083000 rw-p b8082000 00:00 0 

(4 b8083000-b809e000 r-xp 00000000 08:06 122125  /lib/ld-2.8.so 
b809e000-b809f000 r--p 0001a000 08:06 122125  /lib/ld-2.8.so 
b809f000-b80a0000 rw-p 0001b000 08:06 122125  /lib/ld-2.8.so 

(5 bfd8ao00-bfdao000 rw-p bffea000 00:00 0 | stack | 

© ffffeooo-fffffOO0 r-xp 00000000 00:00 0 [vdso] 


从 程序 清单 48-4 中 给 出 的 /proc/PID/maps 文件 的 输出 可 以 看 出 : 
e 有 三 行 是 与 主 程序 shm attach 相关 的 。 它 们 对 应 于 程序 的 文本 和 数据 段 (0， 其 中 第 二 
行 是 一 个 保存 程序 所 使 用 的 字符 串 和 常量 的 只 读 分 页 。 
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。 有 两 行 是 与 被 附加 的 System V 共享 内 存 段 相关 的 @。 

e 有 儿 行 与 两 个 共享 库 的 段 对 应 。 其 中 一 行 是 标准 C 库 〈libc-version.so) (3， 其 他 的 则 
是 在 41.4.3 节 中 介绍 的 动态 链接 器 Cld-version.so) ©. 

。 一 行 密 标记 为 [stack]， 它 对 应 于 进程 栈 (3)。 

一行 包含 的 标签 [vdso](@)。 它 是 用 来 表示 linux-gate EMUEFA (DSO) 的 一 个 
条 目 。 这 个 条 目 只 出 现在 了 2.6.12 以 及 之 后 的 内 核 中 。 有 关 这 个 条 目的 更 多 信息 可 参 
考 http://www.trilithium.com/johan/2005/08/linux-gate/, 

下 面 是 /proc/PID/maps 文件 中 每 行 所 包含 的 列 ， 其 顺序 为 从 左 至 右 。 

1l. 一 对 用 连 字 符 隔 开 的 数字 , 它们 分 别 表示 内 存 段 被 上 映射 到 的 虚拟 地 址 范围 《以 十 六 进 
制 表示 ) 和 段 络 尾 之 后 第 一 个 学 和 的 地 址 。 

2. 内 和 存 段 的 保护 位 和 标记 位 。 前 三 个 字母 表示 段 的 保护 位 : BE GO. "o OwO 以 及 执行 
GO. EHETI CO 来 蔡 换 其 中 任意 字母 表示 共用 相应 的 保护 位 。 最 后 一 个 字母 表 
示 内 存 段 的 映射 标记 ， 其 取 值 要 么 是 私有 (p)， 要 么 是 共享 (S)。 有 关 这 些 标记 的 详 
细 解 释 可 参见 第 49.2 节 中 对 MAP PRIVATE 和 MAP SHARED Erw HIHA o (System 
V 共 孕 内存 段 总 是 被 标记 为 共 孚 。) 

3. 段 在 对 应 的 映射 文件 中 的 十 六 进 制 侦 移 量 〈 以 学 和 计数 )。 这 个 列 以 及 随后 的 两 列 的 
含义 在 第 49 章 中 介绍 mmapO 系 统 调用 时 会 变 得 更 加 清晰 。 对 于 System V 共享 内 存 
段 来 讲 ， 侦 移 量 总 是 为 0。 

4.， 相 应 的 映射 文件 所 位 于 的 设备 的 设备 号 《〈 主 要 和 次 要 ID). 

5. BAS CTEIT] i-node Ek System V 共 孚 内 存 段 的 标识 符 。 

6. 与 这 个 内 存 段 相 关联 的 文件 名 或 其 他 标识 标签 。 对 于 System V 共 孚 内 存 段 来 讲 ， 这 一 列 由 
FITE SYSV 后 面 接 上 这 个 的 段 的 shmget0 键 (以 十 六 进 制 表示 ) 构成 。 在 本 例 中 ，SYSV 
后 面 跟着 零 ， 这 是 因为 在 创建 段 时 使 用 了 IPC PRIVATE 键 〈 其 值 为 0)。System V 共享 内 
存 段 的 SYSYV 字段 后 面 的 字符 串 〈deleted) 是 共享 内 存 段 实 现 的 产物 。 这 种 段 会 被 创建 成 
不 可 见 的 tmpfs 文件 系统 (14.10 752. 中 的 映射 文件 ， 然 后 再 被 解除 链接 。 共 孚 匿名 内 存 映 
射 也 是 采用 同样 的 方式 实现 的 。( 在 第 49 草 中 将 会 介绍 映射 文件 和 共享 匿名 内 存 映射 。) 


48.6 ”在 共 圣 内 存 中 存储 指针 


每 个 进程 都 可 能 会 用 到 不 同 的 共享 库 和 内 存 映 射 ， 并 且 可 能 会 附加 不 同 的 共有 这 内 存 段 集 。 
此 如 果 章 循 推荐 的 做 法 ， 让 和 内核 来 选择 将 共 孚 内存 段 附 加 到 何 处 ， 那 么 一 个 段 在 各 个 进程 

























































































中 可 能 会 被 附加 到 不 同 的 地 址 上 。 正 因为 这 个 原因 ， 在 共 KENGER 
享 内 存 段 中 存储 指向 段 中 其 他 地 址 的 引用 时 应 该 使 用 ( 相 
xD 偏 移 量 ， 而 不 是 〈 绝 对 ) 指针 。 


例如 , 假设 一 个 共享 内 存 段 的 起 始 地 址 为 baseaddr( 即 
baseaddr 的 值 为 shmatO 的 返回 值 )。 再 假设 需要 在 I 
的 位 置 处 存储 一 个 指针 ， 访 指针 指 问 的 位 置 与 target 指 问 
的 位 置 相 同 ， 如 图 48-3 所 示 。 如 果 在 段 中 构建 一 个 链表 或 baseaddr —— 
本义 树 ， 那 么 这 种 操作 就 是 非常 典型 的 一 种 操作 。 在 C 中 图 48-3: 在 共享 内 存 段 中 使 用 指针 
设置 *p 的 传统 做 法 如 下 所 示 。 
*p = target; /* Place pointer in *p (WRONG!) */ 


p-- 
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Eri BEI E BI Ie Ui 23 24 5 PLE BUB 053 — SERE HP target 指 癌 的 位 置 可 
能 会 位 于 一 个 不 同 的 虚拟 地 址 处 ， 这 意味 看 在 那个 进程 中 那个 策划 中 存储 在 *p 中 的 值 是 是 无 
意义 的 。 正 确 的 做 法 是 在 *p 中 存储 一 个 偏 移 量 ， 如 下 所 示 。 











*p = (target - baseaddr); /* Place offset in *p */ 
在 解 引 用 这 种 指针 时 需要 其 倒 上 面 的 步 又 。 
target = baseaddr + *p; /* Interpret offset */ 


这 里 假设 在 各 个 进程 中 baseaddr JE 8) 5 EE BERE Bv EE AEEA shmatO 的 返 
EHE). ERPE, XA SILBE 183806] f EP HECECUETT TUER — MERE N TBA WEE E: 
的 虚拟 地 址 空间 中 的 何 处 。 

或 者 如 末 古 将 一 组 固定 大 小 的 结构 链接 起 来 的 话 残 可 以 将 共 至 内 存 段 (或 部 分 共 圣 
内 存 段 ) 强制 转换 成 一 个 数组 ， 然 后 使 用 下 标 数 作 为 “指针 ”来 在 一 个 结构 中 引用 万 一 
个 结构 。 


48.7 ” 共 圣 内 存 控制 操作 


shmctl0 系 统 调用 在 shmid 标识 的 共 圣 内 存 段 上 执行 一 组 控制 操作 。 


#include «sys/types.h» /* For portability */ 
#include «sys/shm.h» 




















int shmctl(int shmid, int cmd, struct shmid ds *buf); 


Returns 0 on success, or -1 on error 











cmd 参数 规定 了 竺 执行 的 控制 操作 。buf 参数 是 IPC_STAT JI IPC SET HIE GK ENHA) 
会 用 到 的 ， 并 且 在 执行 其 他 操作 时 需要 将 这 个 参数 的 值 指定 为 NULL。 
在 本 市 余下 的 部 分 中 将 介绍 通过 cmd 可 指定 的 各 种 操作 。 


吊 规 控制 操作 
下 列 操作 与 其 他 System V IPC 对 象 上 的 操作 是 一 样 的 。 有 关 这 些 操作 的 细 克 信息 ， 包 丘 
调用 进程 所 需 的 特权 和 权限 ， 可 参考 45.3 节 中 的 描述 。 


IPC_RMID 

标记 这 个 共 诗 内 存 段 及 其 关联 shmid ds 效 据 结 构 以 便 删 除 。 如 宋 当 前 没有 进程 附加 该 段 ， 那 
么 隐 会 执行 删除 操作 , 否则 残 在 所 有 进程 部 已 经 与 该 段 分 离 ( 即 当 shmid ds 数据 结构 中 shm_nattch 
字段 的 值 为 0 时 ) 之 后 再 执行 删除 操作 。 在 一 些 应 用 程序 中 可 以 通过 在 所 有 进程 将 共享 内 存 段 附 
加 到 其 虚拟 地 址 空间 之 后 立即 使 用 shmatO 将 共享 和 内存 段 标记 为 删除 来 确保 在 应 用 程序 退出 时 干 
次 地 请 除 共 孚 内 存 段 。 这 种 做 法 与 在 打开 一 个 文件 乙 后 立即 断 开 到 该 文件 的 链接 的 做 法 是 关 似 的 。 


在 Linux 上 ， 如 果 已 经 使 用 IPC RMID 将 一 个 共享 段 标 记 为 删除 ， 但 因为 还 存在 一 些 
进程 仍然 附加 了 该 段 而 没有 删除 该 段 ， 那 么 其 他 进程 还 能 够 附加 该 段 。 但 这 种 行为 是 不 可 
移植 的 : 大 多 数 UNIX 实现 会 阻止 进程 将 被 标记 为 删除 的 段 附 加 到 上 自己 的 地 址 空间 中 。 
(SUSv3 并 没有 对 这 种 情况 的 处 理 方 式 进行 规定 。) 一 些 Linux 应 用 程序 已 经 依赖 了 这 种 行 
为 ， 这 也 是 Linux 为 何不 改变 这 种 行为 以 与 其 他 UNIX 实现 匹配 的 原因 。 
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IPC STAT 
Tí Ex HCEPWEBCXHXBU shmid ds 数据 结构 的 一 个 副本 防止 到 buf 指 问 的 绥 冲 区 中 。 
CE 48.8 市 中 将 介绍 这 个 数据 结构 。) 


IPC_SET 
使 用 buf 指 问 的 绥 冲 区 中 的 值 来 更 新 与 这 个 共 于 内 存 段 相关 联 的 shmid_ds 数据 结构 中 被 
选中 的 字段 。 


加 锁 和 解锁 共享 内 存 

一 个 共享 内 存 段 可 以 被 锁 进 RAM 中 ， 这 样 它 就 永远 不 会 被 交换 出 去 了 。 这 种 做 法 能 够 囊 
来 性 能 上 的 提升 ， 因 为 一 旦 段 中 的 所 有 分 页 都 驻 留 在 内 存 中 ， 就 能 够 确保 一 个 应 用 程序 在 访问 
分 页 时 永远 不 会 因 发 生 分 页 故障 而 被 延迟 。 通 过 shmct0O 可 以 完成 两 种 锁 操 作 。 

。 SHM LOCK 操作 将 一 个 共享 内 存 段 锁 进 内 存 。 

。 SHM UNLOCK 操作 为 共享 内 存 段 解锁 以 允许 它 被 交换 出 去 。 

SUSv3 并 没有 规定 这 些 操 作 ， 并 且 所 有 UNIX 实现 也 都 没有 提供 这 些 操 作 。 

在 版 本 号 小 于 2.6.10 的 Linux. 上 只 有 特权 (CAP IPC. LOCK) 进程 才能 够 将 一 个 共享 内 存 段 
锁 进 内 存 。 自 Linux 2.6.10 开始 ， 非 特权 进程 能 够 在 一 个 共享 内 存 段 上 执行 加 锁 和 解锁 操作 ， 其 
前 提 是 进程 的 有 效用 户 D 与 段 的 所 有 者 或 创建 者 的 用 户 ID 匹配 并 且 (在 执行 SHM_LOCK 操作 
的 情况 下 ) 进程 具备 足够 高 的 RLIMIT MEMLOCK 资源 限制 ， 细 节 信 息 可 参考 50.2 市。 

锁 住 一 个 共享 内 存 段 无 法 确保 在 shmctl0 调 用 结束 时 段 的 所 有 分 页 都 驻 留 在 内 存 中 。 非 驻 
留 分 页 会 在 附加 该 共享 内 存 段 的 进程 引用 这 些 分 页 时 因 分 页 故障 而 一 个 一 个 地 被 锁 进 内 存 。 
一 旦 分 页 因 分 页 故障 而 被 锁 进 了 内 存 ， 那 么 分 页 就 会 一 直 驻 留 在 内 存 中 直到 被 解锁 为 止 ， 即 
使 所 有 进程 都 与 该 段 分 离 之 后 也 不 会 发 生 改 变 。( 换 名 话说 ，SHM LOCK 操作 为 共享 内 存 段 
设置 了 一 个 属性 ， 而 不 是 为 调用 进程 设置 了 一 个 属性 。) 

因 分 页 故障 而 加 载 进 内 存 表示 当 进 程 引 用 了 一 个 非 驻 留 页 面 时 会 发 生 一 个 分 页 故障 。 
这 时 如 果 分 页 在 交换 区 域 中 ， 那 么 它 将 会 被 重新 加 载 进 内 存 。 如 果 分 页 是 首次 被 引用 ， 那 
么 在 交换 文件 中 就 不 存在 对 应 的 分 足 。 因 此 内 核 会 在 物理 内 存 中 分 配 一 个 新 分 页 并 调整 进 
程 的 页 表 以 及 共享 内 存 段 的 短 记 数据 结构 。 


作为 给 内 存 加 锁 的 一 种 奉 代 方法 , 可 以 使 用 mlock0, 它 的 语义 与 内 存 加 锁 稍 微 有 些 不 同 ， 
50.2 市 对 此 进行 了 介绍 。 


48.8 ” 共 于 内存 关联 数据 结构 
每 个 共享 内 存 段 都 有 一 个 关联 的 shmid ds 数据 结构 ， 其 形式 如 下 。 


struct shmid ds { 
struct ipc perm shm perm; /* Ownership and permissions */ 



















































































size t  shm segsz; /* Size of segment in bytes */ 
time t shm atime; /* Time of last shmat() */ 

time t shm dtime; /* Time of last shmdt() */ 

time t shm ctime; /* Time of last change */ 

pid t shm cpid; /* PID of creator */ 

pid t shm lpid; /* PID of last shmat() / shmdt() */ 
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shmatt t shm nattch; /* Number of currently attached processes */ 
) 
SUSv3 要 求实 现 提 供 上 面 给 出 的 所 有 字段 。 其 他 一 些 UNIX 实现 在 shmid ds 结构 中 包含 
了 额外 的 非 标准 学 段 。 
各 种 共享 内 存 系 统 调用 会 隐 式 地 更 新 shmid ds 结构 中 的 字段 ， 使 用 shmctlü IPC SET 操 
fEuJ EA SE XJ SET shm perm € ECPBJRrXE- Ex. ZH fs UP. 











shm perm 

在 创建 共 圣 内 存 段 之 后 会 像 45.3 和 中 摘 述 的 那样 对 这 个 子 结构 中 的 字段 进行 初始 化 。uid、 
gid 以 及 〈 低 9 位 ) mode 子 字段 是 通过 IPC SET 来 更 新 的 。 除 了 常规 的 权限 位 之 外 ，shm_ 
perm.mode 匀 段 还 有 两 个 只 读 位 掩 人 码 标 记 。 其 中 第 一 个 是 SHM_DEST《〈 销 毁 )， 它 表示 当 所 有 
进程 的 地 址 空间 部 与 该 段 分 离 之 后 古人 耕 将 该 段 标记 为 删除 通过 shmctl) IPC RMID 操作 )。 
另 一 个 标记 是 SHM_LOCKED， 它 表示 是 耕 将 段 尔 进 物理 内 存 中 (通过 shmctlO SHM LOCK 
操作 )。 这 两 个 标记 部 没有 在 SUSv3 中 被 标准 化 , 并 且 只 有 一 些 UNIX 实现 提供 了 与 这 两 个 标 
记 等 价 的 标记 ， 同 时 有 些 实现 上 的 名 称 也 是 不 同 的 。 
































shm segsz 

7E B) £E 3E 7 A fF BEISEIUT TRARA EE ET i ITI ACC shmgetO 调 用 中 size 参数 
的 值 )。 在 48.2 节 中 提 到 过 共享 内 存 是 以 分 页 为 单位 来 分 配 的 ， 因 此 上 段 所 需 的 实际 大 小 可 能 会 
a ed 


shm atime 

在 创建 共享 内 存 段 时 会 将 这 个 字段 设置 为 0， 当 一 个 进程 附加 该 段 时 (shmatO ) 会 将 这 个 
字段 设置 为 当前 时 间 。 这 个 字段 以 及 shmid. ds 结构 中 的 另 一 个 时 间 锥 字段 的 类 型 为 tme t, 
它们 存储 夺目 独 纪 元 到 现在 的 秒 数 。 
shm dtime 

在 创建 共享 内 存 段 时 会 将 这 个 字段 设置 为 0， 当 一 个 进程 与 该 段 分 离 (shmdt()) 之 后 会 将 
这 个 字段 设置 为 当前 时 间 。 








shm ctime 

当 段 被 创建 时 以 及 每 个 成 功 的 IPC SET 操作 都 会 将 这 个 字段 设置 为 当前 时 间 。 
shm cpid 

这 个 字段 会 被 设置 成 使 用 shmsgetO 创 建 这 个 段 的 进程 的 进程 ID。 


shm lpid 
在 创建 共享 内 存 段 时 会 将 这 个 字段 设置 为 0， 后 续 每 个 成 功 的 shmat0 或 shmdtO 调 用 会 将 
这 个 字段 设置 成 调用 进程 的 进程 ID。 





shm nattch 

这 个 字段 统计 当前 附加 该 段 的 进程 数 。 在 创建 段 时 会 将 这 个 字段 初始 化 为 0， 然后 每 次 成 
功 的 shmatO 调 用 会 递增 这 个 字段 的 值 ， 每 次 成 功 的 shmdtO 调 用 会 递减 这 个 字段 的 值 。 用 来 定 
义 这 个 字段 的 shmatt t 数据 类 型 是 一 个 无 符号 整 型 ，SUSv3 要 求 这 个 类 型 的 大 小 最 少 为 
unsigned short, (Æ Linux 上 这 个 类 型 被 定义 成 了 unsigned long.) 
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48.9 ”共享 内 存 的 限制 
大 多 数 UNIX 实现 会 对 System V 共享 内 存 施加 各 种 各 样 的 限制 。 下 面 是 一 份 Linux 共享 
内 存 的 限制 列表 。 括 号 中 列 出 了 当 限 制 达 到 时 受 影响 的 系统 调用 及 其 返回 的 错误 。 


SHMMNI 
这 是 一 个 系统 级 别 的 限制 ， 它 限制 了 所 能 创建 的 共享 内 存 标识 符 《〈 换 名 话说 是 共享 内 存 
段 ) 的 数量 。(shmegetO, ENOSPC) 

















SHMMIN 
这 个 一 个 共享 内 存 段 的 最 小 大 小 〈 字 节 数 )。 这 个 限制 的 值 被 定义 成 了 1 (无 法 修改 这 个 
值 )， 但 实际 的 限制 是 系统 分 页 大 小 CshmgetO, EINVAL). 


SHMMAX 
这 个 是 一 个 共享 内 存 段 的 最 大 大 小 〈 字 节 数 )。SHMMAX 的 实际 上 限 依赖 于 可 用 的 RAM 
和 交换 空间 。(shmsget0, EINVAL) 


SHMALL 

这 是 一 个 系统 级 别 的 限制 ， 它 限制 了 共 圣 内 存 中 的 分 页 总 数 。 其 他 大 多 数 UNIX 实现 并 
没有 所 供 这 个 限制 。SHMALL 的 实际 上 限 依 束 于 可 用 的 RAM 和 交换 空间 。(shmget()， 
ENOSPC) 

其 他 一 些 UNIX 实现 还 施加 了 下 列 限 制 (Linux 并 没有 实现 这 些 限 制 )。 


SHMSEG 

这 个 是 进程 级 别 的 限制 ， 它 限制 了 所 能 附加 的 共 孚 内 存 段 数量 。 

在 系统 启动 时 共享 内 存 限制 会 被 设置 成 默认 值 。( 这 些 默 认 值 在 不 同 的 内 核 版 本 中 可 能 存 
在 差 开 ， 一 些 发 行 厂商 发 行 的 内 核 中 的 默认 设置 与 vanilla 内 核 中 的 默认 设置 是 不 同 的 。) 在 
Linux 上 ， 可 以 通过 /proc 文件 系统 中 的 文件 来 查看 其 中 一 些 限 制 。 表 48-2 列 出 了 与 各 个 限制 
对 应 的 /proc 文件 。 下 面 是 Linux 2.6.31 在 x86-32 系统 上 的 默认 限制 。 


$ cd /proc/sys/kernel 
$ cat shmmni 

4096 

$ cat shmmax 

33554432 

$ cat shmall 

2097152 


Linux 特有 的 shmctl) IPC INFO 操作 返回 一 个 类 型 为 shminfo WAE, CAR T 4e 255 
内 存 限制 的 值 。 


struct shminfo buf; 




















shmctl(0, IPC INFO, (struct shmid ds *) &buf); 

相关 的 Linux 特有 的 SHM. INFO 操作 返回 一 个 类 型 为 shm info 的 结构 , ECAS T Cor 
存 对 象 押 消耗 的 实际 资源 相关 的 信息 。 本 书 随 市 的 源 代 码 的 svshm/svshm info.c 文件 中 提供 了 
一 个 使 用 SHM INFO 的 例子 。 
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有 关 IPC INFO, SHM INFO 以 及 shminfo 和 shm info 结构 的 细节 可 以 在 shmctl(2) 手 册 
中 找到 。 


表 48-2: System V 共享 内 存 限制 


限 制 最 大 值 ( x86-32 ) /proc/sys/kernel 中 对 应 的 文件 


SHMMNI 32768 (IPCMND shmmni 
SHMMAX 依赖 于 可 用 内 存 shmmax 
SHMALL 依赖 于 可 用 内 存 shmall 











48.10 &ü 


共 至 内 存 允 许 两 个 或 多 个 进程 并 ipai 个 分 页 。 通 过 共 训 内存 交 换 效 据 无 需 内 核 
干涉 。 一 旦 一 个 进程 将 数据 复制 进 一 个 共 圣 内 存 段 中 之 后 ， 数 据 将 会 立即 对 其 他 进程 可 见 。 
共 圣 内存 是 一 种 快速 的 IPC 机 制 ， " 这 种 速度 上 的 提升 通常 会 因 必 须要 使 用 茶 种 同步 技术 
而 被 抵消 挥 一 部 分 ， 如 使 用 一 个 System V 信号 量 来 同步 对 共 孚 内 存 的 访问 。 

在 附加 一 个 共 且 内存 段 时 推荐 的 做 法 是 允许 内 核 选择 将 段 附 加 在 进程 的 虚拟 地 址 空间 的 
何 处 。 这 总 味 看 段 在 不 同 进程 中 虚拟 地 址 可 能 是 不 同 的 。 正 因为 这 个 原因 ， 所 有 对 段 中 地 址 
的 引用 部 应 该 表示 成 为 相对 仿 移 量 ， 而 不 古 一 个 绝对 指针 。 


更 多 信息 
[Bovet & Cesati, 2005] 介 绍 了 了 Linux 内 存 管 理 模 式 和 一 些 共享 内 存 实现 方面 的 细节 。 



































48.11  2Ji 


48-1. 使 用 事件 标记 来 替换 程序 清单 48-2 Csvshm xfr writerc ) 和 程序 清单 48-3 
(svshm xfr reader.c) 中 的 二 元 信号 量 。 
48-2. 解释 为 何 程序 清单 48-3 在 for 循环 被 修改 成 如 下 形式 时 会 错误 地 报告 了 传输 字 





DEE 
for (xfrs = 0, bytes = 0; shmp-»cnt != 0; xfrs++, bytes += shmp-»cnt) { 
reserveSem(semid, READ SEM); /* Wait for our turn */ 


if (write(STDOUT FILENO, shmp-»buf, shmp-»cnt) !- shmp-»cnt) 
fatal("write"); 


i releaseSem(semid, WRITE SEM); /* Give writer a turn */ 

48-3. 尝试 为 程序 清单 48-2 Csvshm xfr writer.c) 和 程序 清单 48-3 (svshm xfr reader.c) 
中 的 程序 中 用 来 交换 数据 的 缓冲 区 指定 不 同 大 小 (由 常量 BUF_SIZE 定义 ) 并 编译 
这 两 个 程序 。 记 录 在 各 种 缓冲 区 大 小 下 svshm xfr reader.c 的 执行 时 间 。 

48-4. 编写 一 个 程序 显示 与 共 侍 内 存 段 关联 的 shmid ds 数据 结构 《48,8 T) 中 的 内 容 。 
段 的 标识 符 应 该 通过 命令 行 参 数 来 指定 。( 人 参见 程序 清单 47-3 中 的 程序 , 它 在 System 

V 信号 量 上 执行 了 一 个 类 似 的 任务 。) 
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编写 一 个 目录 服务 使 之 使 用 一 个 共享 内 存 段 来 发 布 名 称 - 值 对 。 程 序 需 要 提供 一 个 
API 来 允许 调用 者 创建 新 名 称 、 修 改 一 个 既 有 名 称 、 删 除 一 个 既 有 名 称 以 及 获取 与 
一 个 名 称 相 关联 的 值 。 使 用 信号 量 来 确保 一 个 执行 共享 内 存 段 更 新 操作 的 进程 能 够 
互 斥 地 访问 段 。 

编写 一 个 程序 〈 类 似 于 程序 清单 46-6 中 的 程序 ) 使 之 使 用 shmctO SHM INFO 和 
SHM STAT 操作 来 获取 和 显示 系统 中 所 有 共享 内 存 段 列表 。 
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本 章 将 介绍 如 何 使 用 mmapO 系 统 调用 来 创建 内 存 映 射 。 内 存 映 射 可 用 于 IPC 以 及 其 他 很 
多 方面 。 下 面 在 深入 介绍 mmap0 之 前 首先 概述 一 些 基础 概念 。 








49.1 概述 


mmap(O 系 统 调用 在 调用 进程 的 虚拟 地 址 空间 中 创建 一 个 新 内 存 映 射 。 上 映射 分 为 两 种 。 

。 文件 映射 : 文件 映射 将 一 个 文件 的 一 部 分 直接 映射 到 调用 进程 的 虚拟 内 存 中 。 一 旦 一 
个 文件 被 映射 乙 后 驶 可 以 通过 在 相应 的 内 存 区 域 中 操作 字 世 来 访问 文件 内 容 了 。 了 映射 
的 分 页 会 在 需要 的 时 候 从 文件 中 《有 目 动 ) 加 载 。 这 种 映射 也 衫 称 为 基于 文件 的 映射 或 
内 存 映 冉 文件 。 

e 匿名 映射 一 个 匿名 映射 没有 对 应 的 文件 。 相 反 ， 这 种 映射 的 分 页 会 被 初始 化 为 0。 




















— 。 另 一 种 看 待 匿名 映射 的 角度 〈 并 且 也 接近 于 事实 ) 是 把 它 看 成 是 一 个 内 容 总 是 被 初始 
化 为 0 的 虚拟 文件 的 映射 。 


一 个 进程 的 映射 中 的 内 存 可 以 与 其 他 进程 中 的 映射 共享 〈( 即 各 个 进程 的 页 表 条 目 指 问 
RAM 中 相同 分 页 )。 这 种 行为 会 在 两 种 情况 下 发 生 。 
e 当 两 个 进程 映射 了 一 个 文件 的 同一 个 区 域 时 它们 会 共享 物理 内 存 的 相同 分 页 。 
o 通过 forkO 创 建 的 子 进 程 会 继承 其 父 进程 的 映射 的 副本 ， 并 且 这 些 映射 所 引用 的 物理 
内 存 分 页 与 父 进程 中 相应 映射 所 引用 的 分 页 相同 。 
当 两 个 或 更 多 个 进程 共享 相同 分 页 时 ， 每 个 进程 都 有 可 能 会 看 到 其 他 进程 对 分 页 内 容 做 
出 的 变更 ， 当 然 这 要 取决 于 映射 是 私有 的 还 是 共享 的 。 
。 私有 了 映射 CMAP PRIVATE): 在 映射 内 容 上 发 生 的 变更 对 其 他 进程 不 可 见 ， 对 于 文件 
映射 来 讲 ， 变 更 将 不 会 在 底层 文件 上 进行 。 尽 管 一 个 私有 映射 的 分 页 在 上 面 介绍 的 情 
况 中 初始 时 是 共享 的 ， 但 对 映射 内 容 所 做 出 的 变更 对 各 个 进程 来 讲 则 是 私有 的 。 内 核 
使 用 了 写 时 复制 Ccopy-on-write) 技术 完成 了 这 个 任务 (参见 24.2.3 T) XARA f 
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当 一 个 进程 试图 修改 一 个 分 页 的 内 容 时 ， 内 核 衣 先 会 为 该 进程 创建 一 个 新 分 页 并 将 需 
修改 的 分 页 中 的 内 容 复 制 到 新 分 页 中 以 及 调整 进程 的 页 表 )。 正 因为 这 个 原因 ， 
MAP PRIVATE 映射 有 时 候 会 被 称 为 私有 、 写 时 复制 映射 。 

。 JEER] (MAP SHAREDO: 在 映 册 内容 上 发 生 的 变更 对 所 有 共 圣 同一 个 映 册 的 其 他 
进程 都 可 见 ， 对 于 文件 映射 来 讲 ， 变 更 将 会 发 生 在 撒 层 的 文件 上 。 

上 和 面 介绍 的 两 个 映射 特性 《文件 与 匿名 以 及 私有 和 共有 阐 ) 可 以 以 四 种 不 同 的 方式 加 以 组 





























， 表 49-1 对 此 进行 了 总 结 。 


表 49-1: 各 种 内 存 映射 的 用 途 
映射 类 型 
x 1 E € 


私有 根据 文件 内 容 初始 化 内 存 内 存 分 配 
共享 内 存 映 射 WO; 进程 间 共 享 内 存 (IPC) 进程 间 共 享 内 存 APC) 


这 四 种 不 同 的 内 存 映 射 的 创建 和 使 用 方式 如 下 所 述 。 

e 私有 文件 映射 : 映射 的 内 容 被 初始 化 为 一 个 文件 区 域 中 的 内 容 。 多 个 映射 同一 个 文件 
的 进程 初始 时 会 共享 同样 的 内 存 物理 分 页 ， 但 系统 使 用 写 时 复制 技术 使 得 一 个 进程 对 
映射 所 做 出 的 变更 对 其 他 进程 不 可 见 。 这 种 映射 的 主要 用 途 是 使 用 一 个 文件 的 内 容 来 
初始 化 一 块 内 存 区 域 。 一 些 常见 的 例子 包括 根据 二 进 制 可 执行 文件 或 共享 库 文件 的 相 
应 部 分 来 初始 化 一 个 进程 的 文本 和 数据 段 。 

。 私有 匿名 映射 每 次 调用 mmapO 创 建 一 个 私有 匿名 映射 时 都 会 产生 一 个 新 映射 ， 访 
映射 与 同一 《或 不 同 ) 进程 创建 的 其 他 匿名 映射 是 不 同 的 〈 即 不 会 共享 物理 分 页 )。 
尽管 子 进程 会 继承 其 父 进程 的 映射 ， 但 写 时 复制 语义 确保 在 forkO 之 后 父 进程 和 子 进 
程 不 会 看 到 其 他 进程 对 映射 所 做 出 的 变更 。 私 有 匿名 映射 的 主要 用 途 是 为 一 个 进程 分 
Hr HFEA) 内 存 〈 如 在 分 配 大 块 内 存 时 mallocO 会 为 此 而 使 用 mmapO )。 

e 共享 文件 映射 所 有 映射 一 个 文件 的 同一 区 域 的 进程 会 共享 同样 的 内 存 物理 分 页 ， 这 
些 分 页 的 内 容 将 被 初始 化 为 该 文件 区 域 。 对 映射 内 容 的 修改 将 直接 在 文件 中 进行 。 这 
种 映射 主要 用 于 两 个 用 途 。 第 一 ， 它 允许 内 存 映 册 WO， 这 表示 一 个 文件 会 被 加 载 到 
进程 的 虚拟 内 存 中 的 一 个 区 域 中 并 且 对 该 块 内 容 的 变更 会 自动 被 写 入 到 这 个 文件 中 。 
因此 , 内 存 映 射 IO 为 使 用 read0 和 write0 来 执行 文件 VO 这 种 做 法 提供 了 一 种 奉 代 方 
Ro 这 种 映射 的 第 三 种 用 途 是 允许 无 关 进 程 共享 一 块 内 容 以 便 以 一 种 类 似 于 System V 
共享 内 存 段 (第 48 E) 的 方式 来 执行 (快速 〉IPC。 

e jogEXE EG EZR — RH. FRH mmap0 创 建 一 个 共 圣 匿名 映射 时 都 
会 产生 一 个 新 的 、 与 任何 其 他 映射 不 共享 分 页 的 截然 不 同 的 映射 。 这 里 的 差别 在 于 映 
射 的 分 页 不 会 被 写 时 复制 。 这 意味 痢 当 一 个 子 进 程 在 fork0O 之 后 继承 映射 时 ， 父 进程 
和 子 进 程 共享 同样 的 RAM 分 页 ， 并 且 一 个 进程 对 映射 内 容 所 做 出 的 变更 会 对 其 他 进 
程 可 见 。 共 享 匿 名 映射 允许 以 一 种 类 似 于 System V 共享 内 存 段 的 方式 来 进行 IPC, 但 
只 有 相关 进程 之 间 才 能 这 么 做 。 

在 本 章 余 下 的 部 分 中 将 分 别 介绍 各 种 映射 的 细节 信息 。 

一 个 进程 在 执行 execO0 时 映射 会 丢失 ， 但 通过 fork0 创 建 的 子 进程 会 继承 映射 ， 映射 类 型 

































































(MAP PRIVATE 或 MAP SHARED) 也 会 被 继承 。 
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通过 Linux 特有 的 /proc/PID/maps 文件 能 够 但 看 在 48.5 丰 中 介绍 过 的 与 一 个 进程 的 映射 有 
天 的 所 有 信息 。 


mmapO 的 另 一 个 用 途 是 与 POSIX 共享 内 存 对 象 一 起 使 用 , 它 允 许 无 关 进 程 在 不 创建 关 
联 磁盘 文件 〈 共 享 文件 映射 需要 这 样 的 文件 ) 的 情况 下 共享 一 块 内 存 区 域 。 第 54 章 将 会 介 
绍 POSIX 共享 内 存 对 象 。 


49.2 ”创建 一 个 映射 : mmap() 


mmap(O 系 统 调用 在 调用 进程 的 虚拟 地 址 空间 中 创建 一 个 新 映射 。 





#include «sys/mman.h» 


void *mmap(void *addr, size t length, int prot, int flags, int fd, off t offset); 








Returns starting address of mapping on success, or MAP FAILED on error 


addr 参数 指定 了 映射 被 放置 的 虚拟 地 址 。 如 果 将 addr 指定 为 NULL， 那 么 内 核 会 为 映射 
选择 一 个 合适 的 地 址 。 这 是 创建 映射 的 首选 做 法 。 或 者 在 addr 中 指定 一 个 非 NULL 值 时 ， 内 
核 会 在 选择 将 映射 放置 在 何 处 时 将 这 个 参数 值 作为 一 个 提示 信息 来 处 理 。 在 实践 中 ， 内 核 至 
少 会 将 指定 的 地 址 舍 入 到 最 近 的 一 个 分 页 边界 处 。 不 管 采用 何 种 方式 ， 内 核 会 选择 一 个 不 与 
任何 既 有 映射 冲突 的 地 址 。(《 如 末 在 flags 包含 7 了 MAP FIXED， 那 么 addr 必须 是 分 页 对 章 的 。 
在 49.10 节 中 将 会 对 这 个 标记 进行 介绍 。) 

成 功 时 mmapO 会 返回 新 映射 的 起 始 地 址 。 发 生 错 误 时 mmap0 会 返回 MAP FAILED. 

















在 Linux (以 及 大 多 数 其 他 UNIX 实现 ) 上 ，MAP FAILED 常量 等 同 于 ((void *) -1)。 
但 SUSv3 规定 了 这 个 常量 值 ， 因 为 C 标准 无 法 确保 能 够 将 ((void *) -1 与 成 功 的 mmapO 调 
用 的 返回 值 区 分 开 来 。 


length 参数 指定 了 映射 的 学 节 数 。 尽 管 length 无 需 是 一 个 系统 分 页 大 小 〈sysconf(_ SC 
PAGESIZE) 返 回 值 ) 的 倍数 ， 但 内 核 会 以 分 页 大 小 为 单位 来 创建 映射 ， 因 此 实际 上 length 会 
被 加 上 提升 为 分 页 大 小 的 下 一 个 倍数 。 

prot 参数 是 一 个 位 掩 码 ， 它 指定 了 施加 于 映射 之 上 的 保护 信息 ， 其 取 值 要 么 是 
PROT NONE， 要 么 是 表 49-2 中 列 出 的 其 他 三 个 标记 的 组 合 〈 取 OR). 


表 49-2: 内 存 保护 值 











值 T 述 
PROT_NONE 区 域 无 法 访问 
PROT READ bx ALTE n] 1 BC 

PROT WRITE 区 域内 容 可 修改 
didi san 区 域内 容 可 执行 


flags 参数 是 一 个 控制 映 冉 操 作 各 个 方面 的 选项 的 位 掩 码 。 这 个 掩 人 码 必 须 只 包含 下 列 值 中 
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MAP PRIVATE 
GE — "RA HEBRUN S KERR WE EAE AEST AE EIEH 8] — BUR AAE EEA TULIT, 
对 于 文件 映射 来 讲 ， 所 发 生 的 变更 将 不 会 反应 在 哲 层 文件 上 。 


MAP SHARED 

创建 一 个 共享 映射 。 区 域 中 内 容 上 所 友 生 的 变更 对 使 用 MAP SHARED 特性 映射 同一 区 
域 的 进程 是 可 见 的 ， 对 于 文件 映射 来 讲 ， 所 发 生 的 变更 将 直接 反应 在 底层 文件 上 。 对 文件 的 
更 新 将 无 法 确保 立即 生效 ， 有 具体 可 参加 49.5 节 中 对 msyncO 系 统 调用 的 介绍 。 

除了 MAP PRIVATE 和 MAP SHARED 之 外 ， 在 flags 中 还 可 以 有 选择 地 对 其 他 标记 取 
OR。 在 49.6 fll 49.10 节 中 将 会 对 这 些 标记 进行 介绍 。 

剩余 的 参数 fd 和 offset 是 用 于 文件 映射 的 (匿名 映射 将 忽略 它们 )。fd 参数 是 一 个 标识 被 
映射 的 文件 的 文件 描述 符 。offset 参数 指定 了 上 映 射 在 文件 中 的 起 点 ， 它 必须 是 系统 分 页 大 小 的 
倍数 。 要 映射 整个 文件 束 需 要 将 offset 指定 为 0 并 且 将 length 指定 为 文件 大 小 。 在 49.5 和 中 
将 会 介绍 更 多 有 关 文 件 帅 射 的 内 容 。 
有 关内 存 保 护 的 更 多 细 市 

前 和 耐 提 过 mmapO prot 参数 指定 了 狐 内 存 映 射 上 的 保护 信息 。 这 个 参数 可 以 取 
PROT NONE 或 者 PROT READ, PROT WRITE, UK PROT EXEC 中 一 个 或 多 个 标记 的 掩 
码 。 如 果 一 个 进程 在 访问 一 个 内 存 区 域 时 违反 了 该 区 域 上 的 保护 位 ， 那 么 内 核 会 回 该 进程 发 
送 一 个 SIGSEGV 信号 。 





























AAE SUSv3 规定 SIGSEGV 应 该 被 用 来 通知 内 存 你 护 违 背 ， 但 在 一 些 实现 上 使 用 的 则 
是 SIGBUS, 


标记 为 PROT NONE 的 分 页 内 存 的 一 个 用 途 是 作为 一 个 进程 分 配 的 内 存 区 域 的 起 始 位 置 
或 结束 位 置 的 守护 分 页 。 如 条 进程 意外 地 访问 了 其 中 一 个 和 被 标记 为 PROT NONE 的 分 页 ， 那 
么 内 核 会 通过 生成 一 个 SIGSEGV 信号 来 通知 该 进程 这 样 一 个 事实 。 

内 存 保护 信息 驻 留 在 进程 私有 的 虚拟 内 存 表 中 。 因 此 ， 不 同 的 进程 可 能 会 使 用 不 同 的 保 
护 位 来 映射 同一 个 内 存 区 工 。 

使 用 mprotectO 系 统 调用 〈50.1 节 ) 能 够 修改 内 存 保 护 位 。 

在 一 些 UNIX 实现 上 ， 实 际 施加 于 一 个 映射 分 页 上 的 保护 位 于 在 prot 中 指定 的 信息 可 能 
不 完全 一 致 。 特 别 地 ， 砍 层 便 件 在 保护 粒度 上 的 限制 “如 老式 的 x86-32 架构 ) XU ER 
UNIX 实现 上 PROT READ 会 隐 含 PROT EXEC， 反 之 亦 然 ， 并 且 在 一 些 实现 上 指定 
PROT WRITE 会 隐 含 PROT READ。 但 应 用 程序 不 应 该 依赖 于 这 种 行为 ，prot 指定 的 信息 应 
该 总 是 与 所 需 的 内 存 保护 信息 一 致 。 


现代 x86-32 架构 为 将 页 表 标 记 为 NX (no execute) 提供 了 硬件 支持 ， 并 且 自 内 核 2.6.8 
起 ，Linux 利用 这 个 特性 来 合适 地 分 隔 Linux/x86-32 上 的 PROT READ 和 PROT EXEC 
权限 。 



































标准 中 规定 的 对 offset 和 addr 的 对 齐 约 束 
SUSv3 规定 mmapO 的 offset 参数 必须 要 与 分 页 对 章 ， 而 addr 参数 在 指定 了 MAP FIXED 的 情 
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况 下 也 必须 要 与 分 页 对 齐 。Linux 3$ AEk, (EXI SUSv3 的 要 求 与 乙 前 的 标准 提出 
的 要 求 是 不 同 的 ， 之 前 的 标准 对 这 些 参数 的 要 求 要 低 一 些 。SUSv3 中 的 措辞 会 〈 不 必要 地 ) 导致 一 
些 之 前 符合 标准 的 实现 变 得 不 符合 标准 了 。SUSv4 则 放宽 了 这 方面 的 要 求 : 
。 一 个 实现 可 能 会 要 求 offset 为 系统 分 页 大 小 的 倍数 。 
e 如 果 指 定 了 MAP FIXED， 那 么 一 个 实现 可 能 会 要 求 addr 是 分 页 对 齐 的 。 
e WRJ S MAP FIXED 并 日 addr 为 非 零 值 ， 那 么 addr 和 offset 除 以 系统 分 页 大 小 
所 得 的 余数 应 该 相等 。 














mprotect(), msync()E4 /€ munmapO 中 的 addr 参数 也 存在 类 似 的 情况 。SUSv3 规定 这 个 
参数 必须 是 分 页 对 齐 的 。SUSv4 表示 一 个 实现 可 以 要 求 这 个 参数 是 分 页 对 齐 的 。 





示例 程序 


程序 清单 49-1 演示 了 如 何 使 用 mmapO 来 创建 一 个 私有 文件 映 冉 。 这 个 程序 是 一 个 人 简 蛙 版 
本 的 cat(1)， 它 将 映射 通过 命令 行 参数 指定 的 (整个 ) 文件 ， 然 后 将 映射 中 的 内 容 写 入 到 标准 
输出 中 。 


程序 清单 49-1: 使 用 mmap0) 创 建 一 个 私有 文件 映射 





mmap/mmcat. c 
include «sys/mman.h» 
include «sys/stat.h» 
include «fcntl.h» 
#include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 
{ 

char *addr; 

int fd; 

struct stat sb; 


if (argc != 2 || stremp(argv[1], "--help") == 0) 
usageErr("Xs fileWn", argv[0]); 


fd = open(argv[1], O RDONLY); 
if (fd == -1) 
errExit("open"); 
/* Obtain the size of the file and use it to specify the size of 
the mapping and the size of the buffer to be written */ 


if (fstat(fd, &sb) == -1) 
errExit("fstat"); 


addr - mmap(NULL, sb.st size, PROT READ, MAP PRIVATE, fd, O); 
if (addr -- MAP FAILED) 
errExit("mmap"); 


if (write(STDOUT FILENO, addr, sb.st size) !- sb.st size) 


fatal("partial/failed write"); 
exit(EXIT SUCCESS); 


mmap/mmcat. c 
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49.3 ”解除 映射 区 域 : munmap() 


munmapO 系 统 调 用 执行 与 mmapO 相 反 的 操作 ,， 即 从 调用 进程 的 虚拟 地 址 空间 中 删除 一 个 
IU o 





#include «sys/mman.h» 


int munmap(void *addr, size t length); 








Returns 0 on success, or -1 on error 





addr 参数 是 竺 解除 映射 的 地 址 范围 的 起 始 地 址 ， 它 必须 与 一 个 分 页 边界 对 齐 。(SUSv3 规 
定 addr 必须 是 分 页 对 齐 的 。SUSv4 表示 一 个 实现 可 以 要 求 这 个 参数 是 分 页 对 并 的 。) 

length Ze — T PER, "ETE T RHIRERIBUM KIRIK CETSO. TRIB REGAT 
页 大 小 的 下 一 个 倍数 的 地 址 空间 将 会 被 解除 映射 。 

一 般 来 讲 通常 会 解除 整个 映射 。 因 此 可 以 将 addr 指定 为 上 一 个 mmapO 调 用 返回 的 地 址 ， 
并 且 length 的 值 与 mmapO 调 用 中 使 用 的 length 的 值 一 样 。 下 面 是 一 个 例子 。 


addr = mmap(NULL, length, PROT READ | PROT WRITE, MAP PRIVATE, fd, 0); 
if (addr == MAP FAILED) 
errExit("mmap"); 








/* Code for working with mapped region */ 


if (munmap(addr, length) -- -1) 

errExit("munmap"); 

Bude E n] EUER —1- IC P IRB, KERR EE MA EA LA) PA 
个 ， 这 取决 于 在 何 处 开始 解除 映射 。 还 可 以 指定 一 个 路 越 多 个 映射 的 地 址 范围 ， 这 样 的 话 所 
有 在 范 围 内 的 映射 都 会 被 解除 。 

如 果 在 由 addr 和 length 指定 的 地 址 范围 中 不 存在 映射 , 那么 munmap0 将 不 起 任何 作用 并 
返回 0 表示 成 功 )。 

在 解除 映射 期 间 ， 内 核 会 删除 进程 持 有 的 在 指定 地 址 范围 内 的 所 有 内 存 锁 。〈 内 存 锁 是 通 
过 mlock0O 或 mlockall0 来 建立 的 ，50.2 市 将 会 对 此 予以 介绍 。) 

当 一 个 进程 终止 或 执行 了 一 个 exec0 之 后 进程 中 所 有 的 映 财会 日 动 被 解除 。 

为 确 你 一 个 共 圣 文件 映射 的 内 容 会 补 与 入 到 上 撒 层 文件 中 ， 在 使 用 munmap(0 解 除 一 个 映射 
之 前 需要 调用 msyncO 参见 49.5 T). 


49.4 ”文件 映射 


要 创建 一 个 文件 映射 需要 执行 下 面 的 步骤。 

1. 获取 文件 的 一 个 描述 符 ， 通 利通 过 调用 open0 来 完成 。 

2. 将 文件 描述 符 作为 fd 参数 传 入 mmapO 调 用 。 

执行 上 述 步 又 之 后 mmapO 会 将 打开 的 文件 的 内 容 映 射 到 调用 进程 的 地 址 空间 中 。 一 旦 
mmap(O 被 调用 之 后 束 能 够 关闭 文件 描述 符 了 ， 而 不 会 对 映射 产生 任何 影响 。 但 在 一 些 情况 
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下 ， 将 这 个 文件 描述 符 保 持 在 打开 状态 可 能 是 有 用 的 一 一 如 参见 程序 清单 49-1 以 及 参见 第 
54 章 。 





除了 普通 的 做 盘 文 件 ， 使 用 mmapO 还 能 够 映射 各 种 真实 和 虚拟 设备 的 内 容 ， 如 便 检 、 
光盘 以 及 /devmem。 


EH AHRI fd 引用 的 文件 时 必须 要 具备 与 prot 和 flags 参数 值 匹 配 的 权限 。 特 别 地 , 文 
件 必须 总 是 被 打开 以 允许 读 取 ， 并 且 如 果 在 flags 中 指定 了 PROT WRITE 和 MAP. SHARED, 
那么 文件 必须 总 是 被 打开 以 允许 谈 取 和 写 入 。 

offset 参数 指定 了 从 文件 区 域 中 的 哪个 字 节 开始 映射 ， 它 必须 是 系统 分 页 大 小 的 倍数 。 将 
offset 指定 为 0 会 导致 从 文件 的 起 始 位 置 开始 映射 。length 参数 指定 了 映射 的 字 节 数 。offset 
和 length 参数 一 起 确定 了 文件 的 哪个 区 域 会 被 映射 进 内 存 ， 如 图 49-1 所 示 。 





进程 虚拟 内 存 


a 
ds nM COMMON s 
E-. ` 
3) 
也 映射 区 域 

mmapx ) 的 » ER EAE, 

返回 地 址 





| 
| 
| 
| 
^ | 
| 
| 
| 
| 


| 
#— offset — ,-— length — 





打开 文件 (fd) 
49-1: 内 人 存 映 射 文 件 概览 


在 Linux 上 上 ， 一 个 文件 映射 的 分 页 会 在 首次 被 访问 时 被 映射 进 内 存 。 这 意味 看 如 来 在 
mmap() 调 用 之 后 修改 了 文件 区 域 ， 但 映射 的 对 应 部 分 ( 即 分 页 》 还 没有 被 访问 过 ， 那 么 如 
果 相 应 分 页 还 没有 个 加载 进 内 存 的 话 ， 变 更 对 这 个 进程 可 能 是 可 见 的 。 这 个 行为 是 依赖 于 
实现 的 ， 可 移植 的 应 用 程序 应 该 避免 依赖 东 个 特定 内 核 在 这 种 场景 中 的 行为 。 











49.4.1 私有 文件 映射 
私有 文件 映射 最 各 见 的 两 个 用 途 如 下 所 述 。 
。 人 允许 多 个 执行 同一 个 程序 或 使 用 同一 个 共享 库 的 进程 共享 同样 的 (只 读 的 ) 文本 段 ， 
它 是 从 底层 可 执行 文件 或 库 文件 的 相应 部 分 映射 而 来 的 。 


尽管 可 执行 文件 的 文本 段 通 第 是 被 保护 成 只 允许 谈 取 和 执行 访问 CPROT. READ | 
PROT EXEC)， 但 在 被 上 映射 时 仍然 使 用 了 MAP. PRIVATE 而 不 是 MAP_ SHARED， 这 是 因 
为 调试 器 或 自修 改 的 程序 能 够 修改 程序 文本 (在 修改 了 内 存 上 的 保护 信息 之 后 )， 而 这 样 的 
变更 是 不 应 该 发 生 在 故 层 文件 上 或 影响 到 其 他 进程 的 。 
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e [RAS up T LAFAR EE SUR MAS Ets XXUPD UST s ABCAS PR RA f 306] BUS 
数据 段 内 容 的 变更 不 会 发 生 在 底层 文件 上 。 
mmapO 的 这 两 种 用 法 通常 对 程序 是 不 可 见 的 ， 因 为 这 些 映 射 是 由 程序 加 载 器 和 动态 链接 
器 创建 的 。 读 者 可 以 在 48.5 节 中 给 出 的 /proc/PID/maps 的 输出 中 发 现 这 两 种 映射 。 
私有 文件 映射 的 另 一 个 不 太 和 营 见 的 用 途 是 简化 程序 的 文件 输入 邮 辑 。 这 与 使 用 共享 文件 
映射 来 完成 内 存 映 轴 VJO《〈 下 一 而 将 予以 介绍 ) 类 似 ， 但 它 只 允许 文件 输入 。 


49.4.2 ”共享 文件 映射 

当 多 个 进程 创建 了 同一 个 文件 区 域 的 共享 映射 时 ， 它 们 会 共享 同样 的 内 存 物理 分 页 。 此 
外 ， 对 映射 内 容 的 变更 将 会 反应 到 文件 上 。 实 际 上 ， 这 个 文件 被 当成 了 该 块 内 存 区 域 的 分 页 
存储 ， 如 图 49-2 所 示 。( 这 幅 图 是 简化 过 的 ， 它 并 没有 指出 映射 分 页 在 物理 内 存 中 通常 是 不 连 
续 的 这 样 一 个 事实 。) 


























进程 A 页 表 物理 内 存 





打开 文件 


映射 区 域 的 


页 表 项 


XC FB IRE 


SR 射 区 域 


进程 及 页 表 


映射 区 域 的 
页 表 项 





49-2: 两 个 进程 和 一 个 文件 的 同一 区 域 的 共享 映射 
共享 文件 映射 存在 两 个 用 途 : 内 存 映射 WO 和 IPC。 下 面 将 分 别 介绍 这 两 种 用 途 。 


内 存 映 射 1/0 

由 于 共享 文件 映射 中 的 内 容 是 从 文件 初始 化 而 来 的 ， 并 且 对 映射 内 容 所 做 出 的 变更 都 会 
自动 反应 到 文件 上 ， 因 此 可 以 简单 地 通过 访问 内 存 中 的 学 市 来 执行 文件 WO， 而 依 徘 内 核 来 确 
保 对 内 存 的 变更 会 被 传递 到 映射 文件 中 。( 一 般 来 讲 ， 一 个 程序 会 定义 一 个 结构 化 数据 类 型 来 
与 磁盘 文件 中 的 内 容 对 应 起 来 ， 然 后 使 用 该 数据 类 型 来 转换 映射 的 内 容 。) 这 项 技术 被 称 为 内 
行 映 册 WO， 它 是 使 用 read0 和 write0 来 访问 文件 内 容 这 种 方法 的 奉 代 方案 。 

内 存 上 映射 VO 具备 两 个 潜在 的 优势 。 
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。 使 用 内 存 访问 来 取代 read0 和 writeO 系 统 调用 能 够 简化 一 些 应 用 程序 的 馆 辑 。 
。 在 一 些 情况 下 ， 它 能 够 比 使 用 传统 的 IO 系统 调用 执行 文件 VO 这 种 做 法 提供 更 好 的 
性 能 。 
ARIY TO 之 所 以 能 够 市 来 性 能 优势 的 原因 如 下 。 
。 下 第 的 read0 或 write0 需 要 两 次 传输 : 一 次 是 在 文件 和 内 核 高 速 缓冲 区 之 间 ， 另 一 次 
征 在 高 速 缓冲 区 和 用 户 空 间 缓冲 区 之 间 。 使 用 mmap0 束 无需 第 二 次 传输 了 。 对 于 输 
入 来 讲 ， 一 旦 内 核 将 相应 的 文件 块 映射 进 内 存 之 后 用 户 进 程 束 能 够 使 用 这 些 数 据 了 。 
对 于 输出 来 讲 ， 用 户 进 程 仅 仅 需要 修改 内 存 中 的 内 容 ， 然 后 可 以 依靠 内 核 内 存 管理 规 
来 目 动 更 新 确 层 的 文件 。 
e 除了 贡 省 了 内 核 裤 间 和 用 户 空 间 之 间 的 一 次 传输 之 外 , mmap0 还 能 够 通过 减少 所 需 使 
用 的 内 存 来 提升 性 能 。 当 使 用 read0 或 writeO0 时 ， 数 据 将 被 保存 在 两 个 缓冲 区 中 : 一 
个 位 于 用 户 空 间 ， 鸭 一 个 位 于 内 核 空间 。 当 使 用 mmapO 时 ， 内 核 空间 和 用 户 空 间 会 
共 至 同一 个 绥 冲 区 。 此 外 ， 如 果 多 个 进程 正在 在 同一 个 文件 上 执行 VO， 那么 它们 通 
过 使 用 mmapO 残 能 够 共 孚 同一 个 内 核 缓冲 区 ， 从 而 又 能 够 让 省 内 存 的 消耗 。 
内 存 映 射 VO 所 带 来 的 性 能 优势 在 在 大 型 文件 中 执行 重复 随机 访问 时 最 有 可 能 体现 出 来 。 
如 条 顺 序 地 访问 一 个 文件 , 并 假设 执行 VO 时 使 用 的 缓冲 区 大 小 足够 大 以 全 于 能 够 避免 执行 大 
量 的 IO 系统 调用 ， 那 么 与 read0 和 write0 相 比 ，mmap0 带 来 的 性 能 上 的 提升 就 非常 有 限 或 者 
说 根本 束 没 有 市 来 性 能 上 的 提升 。 性 能 提升 的 幅度 之 所 以 非 第 有 限 的 原因 是 不 管 使 用 何 种 拉 
术 ， 整 个 文件 的 内 容 在 人 磁盘 和 内 存 之 间 只 传输 一 次 ， 效 率 的 提 融 主要 得 苍 于 减少 了 用 户 空 间 
和 内 核 空间 之 间 的 一 次 数据 传输 ,， 并且 与 磁盘 IO 所 需 的 时 间 相 比 , 内存 使 用 量 的 降低 通常 是 
可 以 忽略 的 。 


Py fel IO 也 有 一 些 缺 点 。 对 于 小 数据 量 VO 来 讲 ， 和 内存 映射 UO 的 开销 《“ 即 映射 、 
分 页 故障 、 解 除 映 射 以 及 更 新 便 件 内 人 存 管 理 单 元 的 超前 转换 绥 冲 器 ) 实际 上 要 比 简单 的 
read() 或 writeO0 大 。 此 外 ， 有 些 时 候 内 核 难 以 局 效 地 处 理 可 写 入 映射 的 回 写 〈 在 这 种 情况 下 ， 
使 用 msyncO 2k sync file rangeO 有 助 于 提高 效率 )。 



































使 用 共享 文件 映射 的 IPC 


由 于 所 有 使 用 同样 文件 区 域 的 共享 映射 的 进程 共享 同样 的 内 存 物理 分 页 ， 因 此 共享 文件 映射 
的 第 二 个 用 途 是 作为 一 种 (快速 的 ) IPC 方法 。 这 种 共享 内 存 区 域 与 System V 共享 内 存 对 象 〈 第 
48 章 ) 之 间 的 区 别 在 于 区 域 中 内 容 上 的 变更 会 反应 到 底层 的 映射 文件 上 。 这 种 特性 对 那些 需要 共 
享 内 存 内 容 在 应 用 程序 或 系统 重启 时 能 够 持久 化 的 应 用 程序 来 讲 是 非常 有 用 的 。 





























示例 程序 


程序 清单 49-2 提供 了 一 个 人 简单 的 例子 来 演示 如 何 使 用 mmap(O 创 建 一 个 共享 文件 映射 。 这 
个 程序 首先 映射 一 个 名 称 通 过 第 一 个 命令 行 参数 指定 的 文件 ， 然 后 打印 出 映射 区 域 起 始 位 置 的 
字符 串 值 。 最 后 ， 如 采 提 供 了 第 二 个 命令 行 参数 ， 那 么 该 字符 串 会 被 复制 进 共 享 内 存 区 域 中 。 

下 面 的 shell 会 话 日 志 党 示 了 如 何 使 用 这 个 程序 ,下面 首先 创建 了 一 个 大 小 为 1024 FR 
文件 并 在 其 中 需 满 零 。 

$ dd if-/dev/zero of=s.txt bs=1 count-1024 


1024«0 records in 
1024-0 records out 
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dA Jr EH FEST R oC F R MP EAT REC BE DX o < 
$ ./t mmap s.txt hello 

Current string- 

Copied "hello" to shared memory 











程序 在 打印 当前 字符 串 时 不 会 显示 任何 内 容 ， 因 为 映射 文件 的 初始 值 是 以 null 子 市 打头 





的 《“ 即 长 度 为 零 的 字符 驯 )。 








接着 再 次 使 用 程序 映射 这 个 文件 并 复制 一 个 新 字符 串 到 映射 区 域 中 。 
$ ./t mmap s.txt goodbye 

Current string-hello 

Copied "goodbye" to shared memory 


最 后 通过 输出 文件 的 内 容 来 对 其 中 的 内 容 进 行 验证 ， 每 行 显示 了 8 个 字符 。 


$ od -c -w8 s.txt 
0000000 g o o d b y enul 
0000010 nul nul nul nul nul nul nul nul 








0002000 


个 简单 的 程序 没有 使 用 任何 机 制 来 同步 多 个 进程 对 映射 文件 的 访问 。 但 现实 世界 中 的 








应 用 程序 通常 需要 同步 对 共享 映射 的 访问 。 这 可 以 通过 使 用 各 种 技术 来 完成 , 包括 信号 量 (第 
47 和 53 3x) 和 文件 加 锁 (第 55 95D. 


在 49.5 市 中 将 会 对 程序 清单 49-2 中 用 到 的 msyncO 系 统 调用 进行 解释 。 


程序 清单 49-2. 使 用 mmap() 创 建 一 个 共享 文件 映射 


844 


mmap/t mmap.c 


#include «sys/mman.h» 
#include «fcntl.h» 
#include "tlpi hdr.h" 


#define MEM SIZE 10 


main(int argc, char *argv[]) 


char *addr; 
int fd; 


if (argc < 2 || stremp(argv[1], "--help") == 0) 
usageErr("Xs file [new-value]Wn", argv[0]); 


fd = open(argv[1], O RDWR); 
if (fd == -1) 
errExit("open"); 
addr = mmap(NULL, MEM SIZE, PROT READ | PROT WRITE, MAP SHARED, fd, O); 
if (addr -- MAP FAILED) 
errExit("mmap"); 


if (close(fd) == -1) /* No longer need 'fd' */ 
errExit("close"); 


printf("Current string-X.*sXn", MEM SIZE, addr); 
/* Secure practice: output at most MEM SIZE bytes */ 


if (argc > 2) 1 /* Update contents of region */ 
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if (strlen(argv[2]) »- MEM SIZE) 
cmdLineErr("'new-value' too large\n"); 


memset(addr, 0, MEM SIZE); /* Zero out region */ 

strncpy(addr, argv[2], MEM SIZE - 1); 

if (msync(addr, MEM SIZE, MS SYNC) -- -1) 
errExit("msync"); 


printf("Copied \"%s\" to shared memoryNn", argv[2]); 
} 


exit(EXIT SUCCESS); 
} 


mmap/t mmap.c 


49.4.3 边界 情况 

在 很 多 情况 下 ， 一 个 映射 的 大 小 是 系统 分 页 大 小 的 整数 倍 ， 并 且 映 射 会 完全 落 入 映射 
文件 的 范围 之 内 。 但 这 种 要 求 不 是 必需 的 ， 下 面 来 看 一 下 当 这 些 条 件 不 满足 时 会 发 生 什 么 
事情 。 

图 49-3 摘 绘 了 映射 完全 洲 入 了 映 射 文件 的 范围 乙 内 但 区 域 的 大 小 并 不 是 系统 分 页 大 小 的 一 
个 整数 倍 的 情况 在 这 个 讨论 中 假设 分 页 大 小 为 4096 FT). 


mmap(0, 6000, prot, MAP SHARED, fd, 0); 
字 节 偏 移 : 0 5999 6000 8191 8192 

















内 存 区 域 请 求 的 映射 尺寸 





产生 SIGSEGYV 


| 
可 访问 ; 映射 到 文件 | 
: 的 引用 
| 
| 


映射 文件 
(9500 字 节 ) 文件 的 真实 映射 区 域 





文件 偏 移 : 0 8191 8192 9499 
49-3: length 不 是 系统 分 页 大 小 的 整数 倍 的 内 存 映射 


由 于 映射 的 大 小 不 是 系统 分 页 大 小 的 整数 倍 ， 因 此 它 会 被 回 上 舍 入 到 系统 分 页 大 小 的 下 
一 个 整数 倍 。 由 于 文件 的 大 小 要 大 于 这 个 被 向 上 舍 入 的 大 小 , 因此 文件 中 对 应 字 节 会 像 图 49-3 
中 那样 被 映射 。 

试图 访问 映射 结尾 之 外 的 字 节 将 会 导致 SIGSEGYV 信号 的 产生 (假设 在 该 位 置 处 不 存在 其 
他 映射 )。 这 个 信号 的 默认 动作 是 终止 进程 并 打印 出 一 个 core dump. 

当 映 射 扩 充 过 了 底层 文件 的 结尾 处 时 参见 图 49-4) 情况 束 变 得 更 加 复杂 了 了。 与 之 前 一 
样 ， 由 于 映射 的 大 小 不 是 系统 分 页 大 小 的 整数 倍 ， 因 此 它 会 被 和 回 上 舍 入 。 但 在 这 种 情况 下 ， 
虽然 在 向 上 舍 入 区 域 ( 即 图 中 2200 字 节 和 4095 字 节 ) 中 的 字 节 是 可 访问 的 ， 但 它们 不 会 被 
映射 到 底层 文件 上 由 于 在 文件 中 不 存在 对 应 的 字 节 )， 并 且 它 们 会 被 初始 化 为 0 (SUSv3 对 
此 进行 了 规定 )。 当 然 ， 这 些 字 节 也 不 会 与 映射 同一 个 文件 的 其 他 进程 共享 ， 即 使 它们 指定 了 
足够 大 的 length 参数 。 对 这 些 字 市 做 出 的 变更 不 会 被 写 入 到 文件 中 。 
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mmap(0, 8192, brot, MAP. SHARED, fd, 0); 
"rwn O 2199 2200 — 4095 4096 8191 8192 





内 存 区 域 
可 人 | 本 和 人 
可 访问 ; 被 : 可 访问 : 没有 被 产生 SIGBUS 产生 SIGSEGV 
j 映射 到 文件 ”| 映射 到 文件 的 引用 的 引用 
| | 
| | 

映射 文件 

(2200 字 节 ) 
文件 偏 移 : O 2199 


49-4: 内 存 映射 扩充 过 了 映射 文件 的 结尾 


如 果 映 射 中 包含 了 超出 向 上 舍 入 区 域 中 ( 即 图 49-4 中 4096 以 及 之 后 的 字 节 ) 的 分 页 ， 
那么 试图 访问 这 些 分 页 中 的 地 址 将 会 导致 SIGBUS 信号 量 的 产生 , 即 警 告 进程 文件 中 没有 区 
域 与 这 些 地 址 对 应 。 与 之 前 一 样 ， 试 图 访问 超过 映射 结尾 处 的 地 址 将 会 导致 IGSEGYV 信号 
的 产生 。 

从 上 面 的 描述 中 可 以 看 出 ， 创 建 一 个 大 小 超过 底层 文件 大 小 的 映射 可 能 是 无 意义 的 。 但 
过 扩展 文件 的 大 小 《如 使 用 ftruncate0 或 write0)， 可 以 使 得 这 种 映射 中 之 前 不 可 访问 的 部 
变 得 可 用 。 


49.4.4 内 存 保护 和 文件 访问 模式 交互 


到 目前 为 止 还 没有 详细 解释 的 一 点 是 通过 mmap0 prot 参数 指定 的 内 存 保 护 与 映射 文件 被 
打开 的 模式 之 间 的 交互 。 从 一 般 原 则 来 讲 ，PROT_READ 和 PROT EXEC 保护 要 求 被 映射 的 
文件 使 用 O_RDONLY 或 O_RDWR 打开 ， 而 PROT WRITE 保护 要 求 被 映射 的 文件 使 用 
O WRONLY 或 O RDWR 打开 。 

然而 ， 由 于 一 些 便 件 架 构 提供 的 内 存 保护 粒度 有 限 , 因此 情况 会 变 得 复杂 起 来 (参见 49.2 
节 )。 对 于 这 种 染 构 ， 下 列 结论 是 适用 的 。 

e 所 有 内 存 保护 组 合 与 使 用 O RDWR 标记 打开 文件 是 兼容 的 。 

e 没有 内 存 保护 组 合 一 一 哪 介 仅仅 是 PROT_WRITE 一 一 与 使 用 O WRONLY 标记 打开 

的 文件 是 兼容 的 〈 导 致 EACCES 错误 的 发 生 )。 这 与 一 些 人 硬件 架构 不 允许 对 一 个 分 页 
的 只 写 访问 这 样 一 个 事实 是 一 致 的 。 在 49.2 节 中 指出 过 在 那些 架构 上 PROT WRITE 
隐 含 了 PROT READ, iXX UA uA. JJ Avg. BEBE 
O WRONLY 是 不 兼容 的 ， 该 操作 是 不 能 又 器 文件 的 初始 内 容 的 。 

e 使 用 O RDONLY 标记 打开 一 个 文件 的 结果 依赖 于 在 调用 mmap0 时 是 否 指定 了 
MAP PRIVATE 或 MAP SHARED。 对 于 一 个 MAP PRIVATE 映射 来 讲 ， 在 mmapO 
中 可 以 指定 任意 的 内 存 保护 组 合 一 一 因为 对 MAP PRIVATE 分 页 内 容 做 出 的 变更 不 会 
被 写 入 到 文件 中 ， 因 此 无 法 写 入 文件 不 会 成 为 问题 。 对 于 一 个 MAP SHARED 映射 来 
讲 ， 唯 一 与 O RDONLY 兼容 的 内 存 保 护 是 PROT REA 和 (PROT READ | 
PROT EXEC)。 这 是 符合 逻辑 的 ， 因 为 一 个 PROT WRITE, MAP SHARED 映射 允许 
更 新 被 映射 的 文件 。 

















S 
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49.5 同步 映射 区 域 : msync() 


内 核 会 目 动 将 发 生 在 MAP SHARED 映射 内 容 上 的 变更 写 入 到 撒 层 文件 中 ， 但 在 默认 情 
锅 焉 二 内 核 砂 保证 这 种 同步 换 作 会 在 何 时 发 生 。(SUSv3 要 求 一 个 实现 提供 这 种 保证 。) 

msync(O 系 统 调用 让 应 用 程序 能 够 显 式 地 控制 何 时 完成 共 孚 上 映射 与 映射 文件 乙 间 的 同步 。 
同步 一 个 映射 与 感 层 文件 在 多 种 情况 下 都 是 非常 有 用 的 。 如 ， 为 确保 数据 完整 性 ， 一 个 数据 
库 应 用 程序 可 能 会 调用 msync0 强 制 将 数据 号 入 到 磁盘 上 。 调 用 msync0 还 允许 一 个 应 用 程序 
确保 在 可 写 入 映 册 上 友 生 的 更 新 会 对 在 该 文件 上 执行 read0O 的 其 他 进程 可 见 。 























#include «sys/mman.h» 


int msync(void *addr, size t length, int flags); 








Returns 0 on success, or - 1 on error 


传 给 msyncO 的 addr 和 length 参数 指定 了 需 同步 的 内 存 区 域 的 起 始 地 址 和 大 小 。 在 addr 
中 指定 的 地 址 必须 是 分 页 对 齐 的 ，length 会 被 同上 伟 入 到 系统 分 页 大 小 的 下 一 个 整数 倍 。 
(SUSv3 规定 addr 必须 要 分 页 对 齐 。SUSv4 表示 一 个 实现 可 以 要 求 这 个 参数 是 分 页 对 齐 的 。) 
flags 参数 的 可 取 值 为 下 列 值 中 的 一 个 。 








MS SYNC 

执行 一 个 同步 的 文件 写 入 。 这 个 调用 会 阻塞 由 到 内 存 区 域 中 所 有 被 修改 过 的 分 页 被 写 入 
PRANIE. 
MS ASYNC 


AIT — AEEA. WEEDS HPHABUES NOSE BS) 4) 04 CE Js TREAT ES 3D E AN LEOTE 
立即 对 在 相应 文件 区 域 中 执行 readO 的 其 他 进程 可 见 。 

为 一 种 区 分 这 两 个 值 的 方式 可 以 表述 为 在 MS. SYNC 操作 之 后 ,内 存 区 域 会 与 磁盘 同步 ， 
而 在 MS ASYNC 操作 之 后 ， 购 存 区 域 仅仅 是 与 肉 核 高 速 缓冲 区 同步 。 


如 有 果 在 MS_ASYNC 操作 之 后 不 采取 进一步 的 动作 , 那么 内 存 区 域 中 被 修改 过 的 分 页 最 
终 会 作为 由 pdflush 内 核 线程 (在 Linux 2.4 以 及 之 前 的 版 本 上 是 kupdated) 执行 的 自动 缕 冲 
区 刷新 的 一 部 分 被 写 入 到 人 磁盘。 在 Linux 上 存在 两 种 更 快 的 友 动 输出 的 ( 非 标准 ) 方法 。 
在 msyncO 调 用 之 后 可 以 在 映射 对 应 的 文件 摘 述 符 上 调用 一 个 fsyncO (或 fdaatasyncO)。 这 个 
调用 会 阻塞 直到 快速 绥 冲 区 与 磁盘 同步 为 止 。 或 者 可 以 使 用 posix fadviseO 
POSIX FADV DONTNEED 操作 局 动 一 个 异步 的 分 页 号 入 。(Linux 特有 的 这 两 个 操作 并 没 
有 在 SUSv3 中 予以 规定 。) 


在 flags 参数 中 还 可 以 加 上 下 和 面 这 个 值 。 











MS INVALIDATE 

使 映射 数据 的 缓存 副本 失效 。 当 内 存 区 域 中 所 有 被 修改 过 的 分 页 被 同步 到 文件 中 之 后 ， 
内 存 区 域 中 所 有 与 后 层 文件 不 一 任 的 分 中 会 锐 标 记 为 无 效 。 当 下 次 引用 这 些 分 页 时 会 从 文件 
的 相应 位 置 处 复制 相应 的 分 中 内 容 ， 其 结果 古 其 他 进程 对 文件 做 出 的 所 有 更 新 将 会 在 内 存 区 
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域 中 可 见 。 

与 很 多 其 他 现代 UNIX 实现 一 样 ，Linux 提供 了 一 个 所 谓 的 同一 虚拟 内 存 系 统 。 这 表示 内 
存 映 射 和 高 速 绥 剖 区 块 会 尽 可 能 地 共 吾 同样 的 物理 内 存 分 页 。 因 此 通过 映射 获取 的 文件 视 各 
与 通过 IO 系统 调用 (read0、write0 等 ) 获得 的 文件 视图 总 是 一 致 的 ， 而 msyncO 的 唯一 用 途 
束 是 强制 将 一 个 映射 区 域 中 的 内 容 写 入 到 人 磁极。 

不 管 怎样 ，SUSv3 并 没有 要 求实 现 统一 虚拟 内 存 系统 ， 并 且 并 不 是 所 有 的 UNIX 实现 都 
提供 了 同一 虚拟 内 存 系 统 。 在 这 类 系统 上 需要 调用 msync() 来 使 得 一 个 映射 上 发 生 的 变更 对 其 
他 read0 访 文件 的 进程 可 见 ， 并 且 在 执行 提 操 作 时 需要 使 用 MS INVALIDATE 标记 来 使 得 其 
他 进程 对 文件 所 做 出 的 写 入 对 映射 区 域 可 见 。 使 用 mmapO 和 UO 系统 调用 操作 同一 个 文件 的 
多 进程 应 用 程序 如 果 和 希望 可 被 移植 到 不 具备 统一 虚拟 内 存 系统 的 系统 之 上 的 话 就 需要 恰当 使 
用 msyncO. 






































49.6 ”其 他 mmap0 标 记 


除了 MAP PRIVATE 和 MAP SHARED 之 外 , Linux 允许 在 mmap( flags 参数 中 包含 其 他 
一 些 值 ( 取 ORO, K 49-3 对 这 些 值 进 行 了 总 结 。 除了 MAP PRIVATE 和 MAP SHARED 之 外 ， 
在 SUSv3 中 仅 规定 了 MAP FIXED 标记 。 


X 49-3: mmap() flags 参数 的 位 掩 码 值 











值 SUSv3 

MAP ANONYMOUS 创建 一 个 匿名 映射 

MAP_FIXED 原样 解释 addr 参数 (49.10 17) 

MAP_LOCKED 将 映射 分 页 锁 进 内 存 ( 目 Linux 2.6 起 ) 

MAP_HUGETLB 创建 一 个 使 用 巨 页 的 映射 《 目 Linux 2.6.32 起 ) 

MAP_NORESERVE 控制 交换 空间 的 预 留 (49.9 市 ) 

MAP_NORESERVE 对 映射 数据 的 修改 是 私有 的 

MAP_POPULATE 填充 一 个 映射 的 分 页 ( 自 Linux 2.6 起 ) 

MAP_SHARED 发 生 在 映射 数据 上 的 变更 对 其 他 进程 可 见 并 会 被 反映 
到 底层 文件 上 (与 MAP PRIVATE 相反 ) 

MAP_UNINITIALIZED 不 清除 匿名 映射 〈 自 Linux 2.6.33 起 ) 





下 面 提供 了 与 表 49-3 中 列 出 的 flags 值 有 关 的 更 多 细节 信息 〈 不 包含 MAP PRIVATE 和 
MAP SHARED， 因 为 之 前 已 经 介绍 过 这 两 个 标记 了 )。 








MAP_ANONYMOUS 

创建 一 个 匿名 映射 ， 即 没有 底层 文件 对 应 的 映射 。 在 49.7 节 中 将 会 对 这 个 标记 进行 深入 
介绍 o 
MAP FIXED 

在 49.10 市 中 将 会 对 这 个 标记 进行 介绍 。 


MAP HUGETLB ( 自 Linux 2.6.32 起 ) 
这 个 标记 在 mmap0 所 起 的 作用 与 SHM_HUGETLB 标记 在 System V 共享 内 存 段 中 所 起 的 
作用 一 样 。 参 见 48.2 节 。 
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MAP LOCKED (Bi Linux 2.6 起 ) 
TRE. mlockO ff] 7 IRANRA 7) 94 JT BUR 2 DUBIE VI £f» 在 50.2 下 中 将 会 对 使 用 这 个 
标记 所 需 的 特权 以 及 管理 其 操作 的 限制 进行 介绍 。 


MAP NORESERVE 
jt bie Hoppe d ey A BUR EIAS et RIAVET TUS RE. HEUTE IZ A 49.9 T. 


MAP POPULATE (B Linux 2.6 起 ) 

填充 一 个 映射 的 分 页 。 对 于 文件 映射 来 讲 ， 这 将 会 在 文件 上 执行 一 个 超前 该 取 。 这 意味 
看 后 续 对 映射 内 容 的 访问 不 会 因 分 页 故障 而 发 生 阻 塞 〈 假 设 此 时 不 会 因 内 存 压 力 而 导致 分 页 
家 交换 出 去 )。 


MAP UNINITIALIZED ( 自 Linux 2.6.33 起 ) 

指定 这 个 标记 会 防止 一 个 匿名 映射 被 清 零 。 它 能 够 带 来 性 能 上 的 提升 ， 但 同时 也 带 来 了 
安全 风险 ， 因 为 已 分 配 的 分 页 中 可 能 会 包含 上 一 个 进程 留 下 来 的 敏感 信息 。 因 此 这 个 标记 一 
般 只 供 租 入 式 系 统 使 用 ， 因 为 在 这 种 系统 中 性 能 是 一 个 至 关 重 要 的 因素 ， 并 日 整 个 系统 都 处 于 骸 
入 式 应 用 程序 的 控制 之 下 。 这 个 标记 只 有 在 使 用 CONFIG MMAP ALLOW UNINITIALIZED 3X 
项 配置 内 核 时 才 会 生效 。 












































49.7 ”匿名 映射 


匿名 映 冉 是 没有 对 应 文件 的 一 种 映 册 。 本 太 将 介绍 如 何 创建 芽 名 映射 以 及 私有 和 共 圣 区 
名 映射 的 用 途 。 





MAP ANONYMOUS 和 /dev/zero 


Æ Linux 上 ， 使 用 mmapO 创 建 匿名 映射 存在 两 种 不 同 但 等 价 的 方法 。 

e 在 flags 中 指定 MAP ANONYMOUS 并 将 fd 指定 为 -=1。( 在 Linux 上 ， 当 指定 了 
MAP ANONYMOUS 之 后 会 忽略 fd 的 值 。 但 一 些 UNIX 实现 要 求 在 使 用 MAP 
ANONYMOUS 时 将 fd 指定 为 一 1， 因 此 可 移植 的 应 用 程序 应 该 确保 它们 这 样 做 了 。) 

















要 从 <sys/mman.h> 中 获得 MAP ANONYMOUS 的 定义 必须 要 定义 BSD SOURCE 特性 测 
试 宏 或 SVID SOURCE 特性 测试 宏 ,Linux 提供 了 常量 MAP ANON 作为 MAP ANONYMOUS 
的 一 个 同义词 ， 其 目的 是 为 了 与 其 他 一 些 采 用 这 种 命名 方式 的 UNIX 实现 保持 兼容 。 











e 打开 /dev/zero 设备 文件 并 将 得 到 的 文件 换 述 从 传递 给 mmap0。 





/dev/zero 是 一 个 虚拟 设备 ， 当 从 中 读 取 数据 时 它 总 是 会 返回 0， 而 写 入 到 这 个 设备 中 的 数据 
忌 会 被 丢弃 。/dev/zero 的 一 个 常见 用 途 是 使 用 0 来 组 装 一 个 文件 (如 使 用 dd(1) 命 令 )。 








ANE EH MAP ANONYMOUS 还 是 使 用 /dev/zero 技术 , 得 到 的 映射 中 的 字 贡 会 被 初始 
化 为 0。 在 两 种 技术 中 ，offset 参数 都 会 被 忽略 〈 因 为 没有 底层 文件 , 所 以 也 无 从 指定 偏 移 量 )。 
稍 后 将 会 介绍 使 用 这 两 种 技术 的 例子 。 
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MAP ANONYMOUS 和 /dev/zero 技术 并 没有 在 SUSv3 进行 规定 , 尽管 大 多 数 UNIX SE 
现 都 文 持 其 中 一 种 或 两 种 。 之 所 以 存在 两 种 不 同 的 技术 实现 同样 的 语义 的 原因 是 其 中 一 种 
(MAP ANONYMOUS) ) 源 日 BSD， 而 男 一 种 Cdev/zero) 则 源 目 System V。 








MAP PRIVATE 匿名 映射 


MAP PRIVATE 匿名 上 映射 用 来 分 配 进 程 私有 的 内 存世 并 将 其 中 的 内 容 初始 化 为 0。 下 面 的 
代码 使 用 /dev/zero 技术 创建 了 一 个 MAP_PRIVATE 匿名 映射 。 


fd = open("/dev/zero", O RDWR); 
if (fd -- -1) 
errExit("open"); 
addr - mmap(NULL, length, PROT READ | PROT WRITE, MAP PRIVATE, fd, 0); 
if (addr -- MAP FAILED) 
errExit("mmap"); 





glibc 中 的 mallocO 实 现 使 用 MAP PRIVATE 匿名 映射 来 分 配 大 小 大 于 MMAP 
THRESHOLD 字 节 的 内 存 块 。 这样 在 后 面 将 这 些 内 存 块 传递 给 free0 之 后 就 能 高 效 地 释放 这 
些 块 (通过 munmapO)。( 它 还 降低 了 重复 分 配 和 释放 大 内 存 块 而 导致 内 存 分 请 的 可 能 
YE.) MMAP THRESHOLD 在 默认 情况 下 是 128 KB， 但 可 以 通过 malloptO 库 函数 来 调整 这 
个 参数 。 





MAP SHARED 匿名 映射 


MAP SHARED 匿名 映射 允许 相关 进程 〈 如 父 进程 和 子 进程 ) 共享 一 块 内 存 区 域 而 无 需 
一 个 对 应 的 映射 文件 。 








MAP SHARED 匿名 映射 只 在 Linux 2.4 以 及 之 后 的 版 本 上 可 用 。 


下 面 的 代码 使 用 MAP_ ANONYMOUS 技术 创建 了 一 个 MAP_SHARED 匿名 映射 。 


addr = mmap(NULL, length, PROT READ | PROT WRITE, 
MAP SHARED | MAP ANONYMOUS, -1, 0); 
if (addr -- MAP FAILED) 
errExit("mmap"); 
如 果 在 上 面 的 代码 之 后 加 上 一 个 对 fork0 的 调用 ， 那 么 由 于 通过 forkO 创 建 的 子 进 程 会 继 
承 映 射 ， 两 个 进程 加 会 共享 内 存 区 域 。 


示例 程序 


程序 清单 49-3 演示 了 如 何 使 用 MAP ANONYMOUS 或 /dev/zero 技术 来 在 父 进程 和 子 进 
程 之 间 共 享 一 个 映射 区 域 。 人 至 于 到 奔 该 选择 何 种 技术 则 由 在 编译 程序 时 是 否定 义 了 
USE MAP ANON 来 确定 。 父 进程 在 调用 fork0 之 前 将 共 圣 区 域 中 的 一 个 整数 初始 化 为 1。 然 
后 子 进程 递增 这 个 共享 整数 并 退出 ， 而 父 进 程 则 等 待 子 进程 退出 ， 然 后 打印 出 该 整数 的 值 。 
运行 这 个 程序 之 后 能 看 到 下 和 而 这 样 的 输出 。 

$ ./anon mmap 


Child started, value - 1 
In parent, value - 2 
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程序 清单 49-3: 在 父 进程 和 子 进 程 之 间 共 享 一 个 匿名 映射 


mnap/anon mmap.c 


#ifdef USE MAP ANON 

#define BSD SOURCE /* Get MAP ANONYMOUS definition */ 
#endif 

#include «sys/wait.h» 

#include «sys/mman.h» 

#include «fcntl.h» 

#include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 
{ 
int *addr; /* Pointer to shared memory region */ 
#ifdef USE MAP ANON /* Use MAP ANONYMOUS */ 


addr = mmap(NULL, sizeof(int), PROT READ | PROT WRITE, 
MAP SHARED | MAP ANONYMOUS, -1, 0); 
if (addr -- MAP FAILED) 
errExit("mmap"); 


#else /* Map /dev/zero */ 
int fd; 


fd = open("/dev/zero", O RDWR); 
if (fd -- -1) 
errExit("open"); 


addr - mmap(NULL, sizeof(int), PROT READ | PROT WRITE, MAP SHARED, fd, O); 
if (addr -- MAP FAILED) 
errExit("mmap"); 


if (close(fd) == -1) /* No longer needed */ 
errExit("close"); 
#endif 
*addr = 1; /* Initialize integer in mapped region */ 
switch (fork()) ( /* Parent and child share mapping */ 
case -1: 


errExit(" fork"); 


case 0: /* Child: increment shared integer and exit */ 
printf("Child started, value = %d\n", *addr); 
(*addr)++; 


if (munmap(addr, sizeof(int)) == -1) 
errExit("munmap"); 
exit(EXIT_SUCCESS); 


default: /* Parent: wait for child to terminate */ 
if (wait(NULL) -- -1) 
errExit("wait"); 
printf("In parent, value = %d\n", *addr); 
if (munmap(addr, sizeof(int)) -- -1) 
errExit("munmap"); 
exit(EXIT SUCCESS); 
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851 


mmap/anon mmap.c 


49.8 重新 映射 一 个 映射 区 域 : mremap() 


在 大 多 数 UNIX 实现 上 一 旦 映射 被 创建 ,其 位 置 和 大 小 怠 无 法 改变 了 。 但 Linux 提供 了 (不 
可 移植 的 ) mremap0 〇 系统 调用 来 执行 此 类 变更 。 

















#define GNU SOURCE 
#include «sys/mman.h» 


void *mremap(void *oíd address, size t old size, size t mew size, int flags, ...); 


Returns starting address of remapped region on success, 
or MAP FAILED on error 


old address 和 old size AZRE Y mud he BACH BET BUT HABERI] o TE old. address 
中 指定 的 地 址 必须 是 分 页 对 齐 的 ， 并 且 通 单 是 一 个 由 之 前 的 mmapO 调 用 返回 的 仁 。 了 映射 预期 
的 新 大 小 会 通过 new size 参数 指定 。 在 old size 和 new size PFR XE B ECHB S I8] E 86 AN 81] ZR 
统 分 页 大 小 的 下 一 个 整数 倍 。 

在 执行 重 映射 的 过 程 中 内 核 可 能 会 为 映射 在 进程 的 虚拟 地 址 空间 中 重新 指定 一 个 位 置 ， 
而 是 个 允许 这 种 行为 则 是 由 flags 参数 来 控制 的 。 它 是 一 个 位 手 但 ， 其 值 要 么 是 0， 要么 包含 
下 列 几 个 值 。 


MREMAP MAYMOVE 

如 宋 指 定 了 这 个 标记 ， 那 么 根据 空间 要 求 的 指令 ， 内 核 可 能 会 为 映射 在 进程 的 虚拟 地 址 
空间 中 重新 指定 一 个 位 置 。 如 宁 没 有 指定 这 个 标记 ， 并 且 在 当前 位 置 处 没有 足够 的 空间 来 打 
展 这 个 映射 ， 那 么 驶 返回 ENOMEM 错误。 
































MREMAP FIXED (B Linux 2.4 id) 

这 个 标记 只 能 与 MREMAP MAYMOVE 一 起 使 用 。 它 在 mremapO 中 所 起 的 作用 与 
MAP FIXED 在 mmap() (49.10 市 ) 中 所 起 的 作用 类 似 。 如 果 指 定 了 这 个 标记 ， 那么 mremapO 
会 接收 一 个 额外 的 参数 void *new_address， 访 参数 指定 了 一 个 分 页 对 齐 的 地 址 ， 并 且 映 射 将 
会 被 迁移 至 该 地 址 处 .所 有 之 前 在 由 mnew_ address FH new size 确定 的 地 址 范围 之 内 的 映射 将 会 
伞 解 除 映 射 。 

mremapO 在 成 功 时 会 返回 映射 的 起 始 地 址 。 由 于 《〈 如 果 指 定 了 MREMAP MAYMOVE 标 
wW) 这 个 地 址 可 能 与 之 前 的 起 始 地 址 不 同 ， 从 而 导致 指 癌 这 个 区 域 中 的 指针 可 能 会 变 得 无 效 ， 
因此 使 用 mremapO 的 应 用 程序 在 引用 映射 区 域 中 的 地 址 时 应 该 只 使 用 信 移 量 (不 是 绝对 指针 ) 
(参见 48.6 节 )。 























在 Linux E, reallocQ PK Zi fii Hj. mremap0O 来 高 效 地 为 malloc0 之 前 使 用 mmapO 
MAP ANONYMOUS 分 配 的 大 内 存 块 重新 指定 位 置 。( 在 49.7 节 中 介绍 glibc mallocO 实 现 
的 时 候 曾 提 及 过 这 个 特性 。) 使 用 mremap(0 来 完成 这 种 任务 使 得 在 重新 分 配 空间 的 过 程 中 避 
免 复制 学 和 成 为 可 能 。 
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49.9 MAP NORESERVE 和 过 度 利 用 交换 空间 


一 些 应 用 程序 会 创建 大 〈 通 常 是 私有 匿名 的 ) 映射 ， 但 只 使 用 映射 区 域 中 的 一 小 部 分 。 
如 特定 的 科学 应 用 程序 会 分 配 非常 大 的 数组 ， 但 上 只 使 用 其 中 一 些 散 沙 在 数组 各 处 的 元 素 〈 所 
谓 的 千 蕊 数组 )。 

如 条 内 核 总 是 为 此 类 映射 分 配 〈 或 预 留 ) 足够 的 交换 空间 ， 那 么 很 多 交换 空间 可 能 会 家 
浪费 。 相 反 ， 内 核 可 以 只 在 需要 用 到 映射 分 页 的 时 候 《 即 当 应 用 程序 访问 分 页 时 ) 为 它们 预 
留 交 换 空 间 。 这 种 方法 被 称 为 懒 交 换 了 预 留 Clazy swap reservation)， 它 的 一 个 优点 是 应 用 程序 
总 共 使 用 的 虚拟 内 存量 能 够 超过 RAM Jon. EAS A [ROS] A E e 

换个 角度 来 看 ， 懒 交换 预 留 允许 交换 至 间 被 过 度 利 用 。 这 种 方式 能 够 很 好 地 工作 ， 只 要 
所 有 进程 都 不 试图 访问 整个 映射 。 但 如 果 所 有 应 用 程序 都 试图 访问 整个 映射 ,那么 RAM IA 
换 空间 束 被 耗 尽 。 在 这 种 情况 下 ， 内 核 会 通过 杀 死 系统 中 的 一 个 或 多 个 进程 来 降低 内 存 压 力 。 
在 理想 情况 下 ， 内 核 会 尝试 选择 引起 内 存 问题 的 进程 (参见 下 面 对 OOM 杀手 的 讨论 )， 但 这 
是 无 法 保证 的 。 正 因为 这 个 原因 ， 有 了 时候 可 能 会 选择 防止 懒 交 换 预 留 ， 转 而 强制 系统 在 映射 
被 创建 时 分 配 所 有 上 所 需 的 交换 空间 。 

内 核 如 何 处 理 交 换 空 间 的 预 留 是 由 调用 mmapO 时 是 否 使 用 了 MAP. NORESERVE 标记 
以 及 影 啊 系 统 层 面 的 交换 空间 过 度 利 用 操作 的 /proc 接口 来 控制 的 。 表 49-4 对 这 些 因 系 进 行 
Tag 


© FH o 












































R 49-4: E mmap() XA [a] ones 


是 否 在 mmapO 调 用 指定 了 MAP NORESERVE 
overcommit memory 值 


s 
0 拒绝 明显 的 过 度 利 用 允许 过 度 利用 
1 人 允许 过 度 利用 人 允许 过 度 利用 


2 CE Linux 2.6 起 ) T s Eas BERI H 


Linux 特有 的 /proc/sys/vm/overcommit memory 文件 包含 了 一 个 整数 值 ， 它 控制 着 内 核对 
交换 空间 过 度 利 用 的 处 理 。 在 2.6 之 前 的 Linux 上 这 个 文件 中 的 整数 只 能 取 两 个 值 : 0 表示 拒 
绝 明 显 的 过 度 利 用 〈 尊 从 MAP. NORESERVE 标记 的 使 用 )， 大 于 0 表示 在 所 有 情况 下 都 允许 
FERH 

B 26 XXE BERI RREK I oS 25 gif T H E N ALERT RU] Ze C AF. BAA Wo HI SÉ 
AXABOSEBERIH] CERA EMT RI Be S SELF ST IDE 4 )。 

从 Linux 2.6 起 ,1 的 含义 与 之 前 的 内 核 中 正 数 的 含义 一 样 , 但 2 (或 更 大 ) 则 会 导致 使 用 
来 用 严格 的 过 上 度 利用 。 在 这 种 情况 下 ， 内 核 会 在 所 有 mmap0 〇 分 配 上 执行 严格 的 记 账 并 将 系统 
中 此 类 分 配 的 总 量 控制 在 小 于 或 等 于 : 


[swap size] + [RAM size] * overcommit ratio / 100 


overcommit ratio 的 值 是 一 个 整数 一 一 用 百分比 表示 它 位 于 Linux 特 有 的 /proc/sys/vm/ 
overcommit ratio 文件 中 。 这 个 文件 中 包含 的 默认 值 是 50, 表示 内 核 最 多 可 分 配 的 容 间 为 系统 
RAM 总 量 的 S0%， 只 要 所 有 进程 不 同时 试 独 全 部 用 完 给 它们 分 配 的 内 存 ， 那 么 这 种 宇 间 的 分 
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配 束 不 会 有 问题 。 

注意 过 度 利 用 监控 只 适用 于 下 面 这 些 映射 。 

e 私有 可 写 映 射 (包括 文件 和 匿名 映射 ;， 这 种 映射 的 交换 “开销 ”等 于 所 有 使 用 该 映 

射 的 进程 为 该 映射 所 分 配 的 空间 总 和 。 

e 共享 匿名 映射 ， 这 种 映射 的 区 换 “ 开 销 ” 等 于 映射 的 大 小 《因为 所 有 进程 共享 该 映射 )。 

为 只 读 私 有 映射 预 留 交 换 空 间 是 没有 必要 的 ， 因 为 映射 中 的 内 容 是 不 可 变更 的 ， 从 而 无 
需 使 用 交换 空间 。 共 享 文件 映射 也 不 需要 使 用 交换 空间 ， 因 为 映射 文件 本 喘 担 当 了 映射 的 交 
换 空 间 。 

当 一 个 子 进程 在 forkO 调 用 中 继承 了 一 个 映射 时 ， 它 将 会 继承 该 映射 的 MAP NORESERVE 
设置 。MAP NORESERVE 标记 并 没有 在 SUSv3 中 了 予以 规定 ， 它 只 在 其 他 一 些 UNIX 实现 上 
得 到 了 支持 。 


本 节 讨 论 了 mmapO 调 用 在 增长 一 个 进程 的 地 址 空间 时 是 如 何 因 系统 在 RAM 和 交换 空 
间 上 的 限制 而 可 能 发 生 失 败 的 。mmap0O 调 用 还 可 能 因为 磁 到 了 进程 级 别 的 RLIMIT AS 资 
源 限制 (在 36.3 节 中 予以 了 介绍 ) 而 发 生 失 败 ， 该 限制 给 调用 进程 的 地 址 空间 大 小 规定 了 
i d Es 






































OOM ZR 


上 面 提 及 过 当 使 用 懒 交 换 预 留 时 ， 如 果 应 用 程序 试图 使 用 整个 映射 的 话 束 会 导致 内 存 被 
耗 尽 。 在 这 种 情况 下 ， 内 核 会 通过 杀 死 进程 来 缓解 内 存 消 耗 情况 。 

内 核 中 用 来 在 内 存 被 耗 尽 时 选择 杀 死 哪个 进程 的 代 人 码 通 第 被 称 为 out-of-memory (OOM) 
RF. OOM 杀手 会 尝试 选择 杀 死 能 够 缓解 内 存 消 耗 情况 的 最 佳 进 程 ， 这 里 的 “最 佳 ” 是 由 一 
组 因 系 来 确定 的 。 如 一 个 进程 消耗 的 内 存 越 多 ， 它 束 越 可 能 成 为 OOM 杀手 的 候选 目标 。 其 他 
能 提高 一 个 进程 被 选中 的 可 能 性 的 因素 包括 进程 是 否 创建 了 很 多 子 进 程 以 及 进程 是 否 拥有 一 
个 较 低 的 mice 值 〈 即 大 于 0 的 值 )。 内 核 一 般 不 会 杀 死 下 列 进程 。 

。 特权 进程 ， 因 为 它们 可 能 正在 执行 重要 的 任务 。 

e 正在 访问 裸 设 备 的 进程 ， 因 为 杀 死 它们 可 能 会 导致 设备 处 理 一 个 不 可 用 的 状态 。 

e 已 经 运行 了 很 长 时 间或 已 经 消耗 了 大 量 CPU 的 进程 ， 因 为 杀 死 它们 可 能 会 导致 丢失 

很 多 “工作 ” 

为 杀 死 被 选中 的 进程 ，OOM 杀手 会 问 其 友 送 一 个 SIGKILL fi. 

从 2.6.11 内 核 开 始 ，Linux 特有 的 /proc/PID/oom score 文件 给 出 了 在 需要 调用 OOM 杀手 
时 内 核 厂 给 每 个 进程 的 权重 。 在 这 个 文件 中 ， 进程 的 权重 越 大 ， 那 么 在 必要 的 时 候 裤 OOM J 
手 选 中 的 可 能 性 束 越 大 。 同 样 也 是 从 2.6.11 内 核 开 始 ，Linux 特有 的 /proc/PID/oom adj 文件 能 
够 用 来 影响 一 个 进程 的 oom score 值 。 这 个 文件 可 以 被 设置 成 范围 在 -16 到 +15 之 间 的 任意 

个 值 ， 其 中 负数 会 减 小 oom score 值 ， 而 正 数 则 会 增 大 oom score 值 。 特 殊 值 一 17 会 完全 将 
进程 从 OOM 杀手 的 候选 目标 中 删除 。 有 关 这 一 方面 的 更 多 细 市 请 参考 proc(5) 手 册 。 





















































49.10 MAP FIXED 标记 


在 mmapO flags 参数 中 指定 MAP FIXED 标记 会 强制 内 核 原 样 地 解释 addr 中 的 地 址 ， 而 
不 是 只 将 其 作为 一 种 提示 信息 。 如 宋 指 定 了 MAP FIXED, HMA addr 3b 7) XOU ET o 
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一 般 来 讲 ， 一 个 可 移植 的 应 用 程序 不 应 该 使 用 MAP_FIXED， 并 且 需 要 将 addr 指定 为 
NULL， 这 样 就 允许 系统 选择 将 映射 放置 在 哪个 地 址 处 了 。 之 所 以 需要 这 样 做 的 原因 与 48.3 
节 中 解释 在 使 用 shmatO 附 加 一 个 System V 共享 内 存 段 时 通 币 倾 问 于 将 shmaddr 指定 为 NULL 
的 原因 是 一 样 的 。 

然而 ， 还 是 存在 一 种 可 移植 应 用 程序 需要 使 用 MAP_FIXED 的 情况 。 如 果 在 调用 mmap() 
时 指定 了 MAP FIXED, 并 且 内 存 区 域 的 起 始 位 置 为 addr, 78 s If) length 字 贡 与 之 前 的 映射 的 
分 页 重合 了 ， 那 么 重 辣 的 分 页 会 被 新 映射 符 代 。 使 用 这 个 特性 可 以 可 移植 地 将 一 个 文件 (或 
多 个 文件 ) 的 多 个 部 分 映射 进 一 块 连 续 的 内 存 区 域 ， 如 下 所 述 。 

1. 使 用 mmap0 创 建 一 个 匿名 映射 (参见 49.7 节 )。 在 mmap0 调 用 中 将 addr 指定 为 NULL 并 

且 不 指定 MAP FIXED 标记 。 这 样 束 允许 内 核 为 映射 选择 一 个 地 址 了 。 

2. 使 用 一 系列 指定 了 MAP_FIXED 标记 的 mmap AH RK FKR CHIESE 进 在 上 

一 步 中 创建 的 映射 的 不 同 部 分 中 。 

尽管 可 以 忽略 第 一 个 步骤 而 直接 使 用 一 系列 mmap) MAP FIXED 操作 来 在 应 用 程序 选中 
的 地 址 范围 内 创建 一 组 连续 的 映射 ， 但 这 种 做 法 的 可 移植 性 与 上 面 这 种 两 步 式 做 法 相 比 就 要 
差 一 些 了 。 上 面 提 及 过 ， 一 个 可 移植 的 应 用 程序 应 该 避免 在 固定 的 地 址 处 创建 新 映射 。 上 面 
的 第 一 步 避 免 了 移植 性 问题 的 出 现 ， 因 为 这 一 步 让 内 核 选择 了 一 个 连续 的 地 址 范围 ， 然 后 在 
该 地 址 范围 中 创建 新 映射 。 

从 Linux 2.6 开始 ， 使 用 remap _file_pagesO 系 统 调 用 《〈 下 一 节 介 绍 ) 也 能 够 取得 同样 的 效 
果 ， 但 使 用 MAP_FIXED 的 可 移植 性 更 强 ， 因 为 remap file pagesO 是 Linux 特有 的 。 









































49.11 非 线 性 映射 : remap file pages) 


使 用 mmapO 创 建 的 文件 映射 是 连续 的 : 映射 文件 的 分 页 与 内 存 区 域 的 分 页 存在 一 个 顺序 
的 、 一 对 一 的 对 应 关系。 对 于 大 多 数 应 用 程序 来 讲 ， 线 性 映射 已 经 够 用 了 。 然 而 一 些 应 用 程 
序 需要 创建 大 量 的 非 线 性 映射 一 一 文件 分 页 的 顺序 与 它们 在 连续 内 存 中 出 现 的 顺序 不 同 的 映 
射 。 图 49-5 给 出 了 一 种 非 线性 映射 。 

















虚拟 地 址 递增 方向 一 一 > 
0x40012000 0x4001b000 Ox4001c000 


内 存 区 域 内 存 区 域 的 映射 页 0 存 区 域 的 映射 页 1 | ”内 存 区 域 的 映射 页 2 
(12288 节 字 ) 映射 到 文件 的 页 2 映射 到 文件 的 页 ] 映射 到 文件 的 页 0 


映射 文件 


49-5: 一 个 非 线性 文件 映射 





在 上 一 节 中 介绍 了 一 种 创建 非 线性 映射 的 方法 : 使 用 多 个 市 MAP FIXED 标记 的 mmapO 
调用 。 然 而 这 种 方法 的 伸 编 性 不 够 好 ， 其 问题 在 于 其 中 每 个 mmapO 调 用 都 会 创建 一 个 独立 的 
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内 核 虚拟 内 存 区 域 (VMA) 数据 结构 。 每 个 VMA 的 配置 需要 花费 时 间 并 且 会 消耗 一 些 不 可 
交换 的 内 核 内 存 。 此 外 ， 大 量 的 VMA 会 降低 虚拟 内 存 管理 器 的 性 能 。 特 别 地 ， 当 存 在 数 以 万 
计 的 VMA 时 处 理 每 个 分 页 故障 所 花费 的 时 间 会 大 幅度 提高 。( 这 对 于 一 些 在 一 个 数据 库 文件 
中 维护 多 个 不 同 视图 的 大 型 数据 库 管理 系统 来 讲 是 一 个 问题 。) 











/proc/PID/maps 文件 (参见 48.5 $) 中 一 行 表示 一 个 VMA。 





从 内 核 2.6 开始 ，Linux 提供 了 remap file pagesO 系 统 调用 来 在 无 击 创 建 多 个 VMA 的 情 
况 下 创建 非 线性 映射 ， 共 体 如 下 。 
1. BEH mmapOQUZ& —T- BUM. 
2. 使 用 一 个 或 多 个 remap file pagesO 调 用 来 调整 内 存 分 页 和 文件 分 页 之 间 的 对 应 关系 。 
(remap file pagesO 所 做 的 工作 是 操作 进程 的 页 表 。) 


#define GNU SOURCE 
#include <sys/mman.h> 





int remap_file_pages(void *addr, size_t size, int prot, size_t pgoff, int flags); 


Returns 0 on success, or -1 on error 











pgoff 和 size 参数 标识 了 一 个 在 内 存 中 的 位 置 竺 改变 的 文件 区 域 ,pgoff 参数 指定 了 文件 区 
域 的 起 始 位 置 ， 其 单位 是 系统 分 贝 代销 (sysconf(_SC_PAGESIZE) 的 返回 值 )。size 参数 指定 了 
文件 区 域 的 长 度 ， 其 单位 为 字 节 。addr 参数 起 两 个 作用 。 
e 和 瑟 标 识 了 分 页 需 调 整 的 既 有 了 映射 。 换 多 话说 ，addr 必须 是 一 个 位 于 之 前 通过 mmapO 
映射 的 区 域 中 的 地 址 。 
o 它 指定 了 通过 pgoff 和 size 标识 出 的 文件 分 页 所 处 的 内 存 地 址 。 
addr 和 size 都 应 该 是 系统 分 页 大 小 的 整数 倍 。 如 采 不 是 ， 那 么 它们 会 被 回 下 舍 入 到 最 近 
的 分 页 大 小 的 整数 倍 。 
假设 使 用 了 下 面 的 mmapO 调 用 来 映射 通过 描述 符 fd 引用 的 打开 看 的 文件 的 三 个 分 页 , 并 
且 该 调用 将 返回 地 址 0x4001a000 赋 给 了 addr. 
ps = sysconf( SC PAGESIZE); /* Obtain system page size */ 
addr = mmap(0, 3 * ps, PROT READ | PROT WRITE, MAP SHARED, fd, O); 
下 面 的 调用 将 会 创建 一 个 非 线性 映射 ， 如 图 49-5 HR 
remap file pages(addr, ps, O, 2, 0); 
/* Maps page 0 of file into page 2 of region */ 
remap file pages(addr + 2 * ps, ps, 0, 0, 0); 
/* Maps page 2 of file into page O of region */ 


到 现在 为 止 还 没有 对 remap. file pagesO 中 的 其 他 两 个 参数 进行 介绍 。 

。 prot 参数 会 被 忽略 ， 其 值 必须 是 0。 在 将 来 可 能 能 够 使 用 这 个 参数 来 修改 受 
remap file pagesO 影 啊 的 内 存 区 域 的 保护 信息 。 在 当前 实现 中 ， 保 护 信 息 剑 持 与 整个 
VMA 上 的 保护 信息 一 致 。 


虚拟 机 和 垃圾 收集 器 是 其 他 一 些 使 用 多 个 VMA 的 应 用 程序 , 其 中 一 些 应 用 程序 需要 能 
够 写 保 护 单个 分 页 。 因 此 人 们 预期 remap file pages0 将 会 还 允许 修改 一 个 VMA 中 单个 分 页 
上 的 权限 ， 但 到 目前 为 止 这 种 特性 还 没有 被 实现 。 


。 flags 参数 当前 未 被 使 用 。 
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在 当前 的 实现 上 ，remap file pages N EHF (MAP SHAREDO 映射 。 
remap file pages() 系 统 调 用 是 Linux 特有 的 ，SUSv3 并 没有 对 这 个 函数 进行 规定 ， 并 且 其 
他 UNIX 实现 也 没有 提供 这 个 函数 。 





49.12 总结 


mmapO 系 统 调用 在 调用 进程 的 虚拟 地 址 空间 中 创建 一 个 新 内 存 映 射 。munmapO 系 统 调用 
执行 逆 操 作 ， 即 从 进程 的 地 址 空间 中 删除 一 个 映射 。 

映射 可 以 分 为 两 种 基于 文件 的 映射 和 匿名 映射 。 文 件 映 射 将 一 个 文件 区 域 中 的 内 容 映 
射 到 进程 的 虚拟 地 址 空间 中 。 匿 名 映射 〈 通 过 使 用 MAP_ANONYMOUS 标记 或 映射 /dev/zero 
来 创建 ) 并 没有 对 应 的 文件 区 域 ， 该 映射 中 的 字 节 会 被 初始 化 为 0。 

映射 既 可 以 是 私有 的 〈MAP_PRIVAIE)， 也 可 以 是 共享 的 (MAP_SHARED )。 这 种 差别 
确定 了 在 共享 内 存 上 发 生 的 变更 的 可 见 性 ， 对 于 文件 映射 来 讲 ， 这 种 差别 还 确定 了 内 核 是 否 
会 将 映射 内 容 上 发 生 的 变更 传递 到 底层 文件 上 。 当 一 个 进程 使 用 MAP. PRIVATE 映射 了 一 个 
文件 之 后 ， 在 映射 内 容 上 发 生 的 变更 对 其 他 进程 是 不 可 见 的 ， 并 且 也 不 会 反应 到 映射 文件 上 。 
MAP SHARED 文件 映射 的 做 法 则 相反 一 一 在 映射 上 发 生 的 变更 对 其 他 进程 可 见 并 且 会 反应 
到 映射 文件 上 。 

尽管 内 核 会 自动 将 发 生 在 一 个 MAP SHARED 映射 内 容 上 的 变更 反应 到 底层 文件 上 ， 但 
它 不 保证 何 时 会 完成 这 个 操作 ,应 用 程序 可 以 使 用 Wmsyne0 系 统 调用 来 显 式 地 控制 个 映射 的 
内 容 何 时 与 映射 文件 进行 同步 。 

内 存 映射 有 很 多 用 途 ， 包 括 : 

e 分 配 进 程 私有 的 内 存 〈( 私 有 匿名 映射 ); 

e 对 一 个 进程 的 文本 段 和 初始 化 数据 段 中 的 内 容 进行 初始 化 (私有 文件 映射 ); 

。 在 通过 fork0) 关 联 起 来 的 进程 之 间 共 享 内 存 (共享 匿名 映射 ); 

e 执行 内 存 上 映射 VO， 还 可 以 将 其 与 无 关 进程 之 间 的 内 存 共享 结合 起 来 (共享 文件 

映射 )。 

在 访问 一 个 映射 的 内 容 时 可 能 会 遇 到 两 个 信号 。 如 果 在 访问 映射 时 违反 了 映射 之 上 的 保 
护 规则 《或 访问 一 个 当前 未 被 映射 的 地 址 )， 那 么 就 会 产生 一 个 SIGSEGV 信和 号。 对 于 基于 文 
件 的 映射 来 讲 , 如 果 访 问 的 映射 部 分 在 文件 中 没有 相关 区 域 与 之 对 应 〈 即 映射 大 于 底层 文件 )， 
那么 就 会 产生 一 个 SIGBUS 信号。 

交换 空间 过 度 利 用 允许 系统 给 进程 分 配 比 实际 可 用 的 RAM 与 交换 空间 之 和 更 多 的 内 存 。 
过 度 利 用 之 所 以 可 能 是 因为 所 有 进程 都 不 会 全 部 用 完 为 其 分 配 的 内 存 。 使 用 
MAP NORESERVE 标记 可 以 控制 每 个 mmap0O 调 用 的 过 度 利用 情况 ， 而 使 用 /proc 文件 则 可 以 
控制 整个 系统 的 过 度 利用 情况 。 

mremap(O 系 统 调用 允许 调整 一 个 既 有 映射 的 大 小 。remap_file pagesO 系 统 调用 人 允许 创建 非 
线性 文件 映射 。 


更 多 信息 
Linux 上 有 关 mmapO 的 实现 的 信息 可 以 在 [Bovet &Cesati, 2005] 中 找到 。 其 他 UNIX 系统 


上 有 关 mmapO 的 实现 的 信息 可 以 在 [McKusick et al., 1996] (BSD), [Goodheart & Cox, 
1994](System V Release 4) 以 及 [Vahalia, 1996] (System V Release 4) 中 找到 。 
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49.13  2JiM 


49-1. 使 用 mmap0 和 memcpyOTA H CA X& read 9X, write0) 编写 一 个 类 似 于 cp(1) 的 程序 
来 将 一 个 源 文件 复制 到 目标 文件 。( 使 用 fstat0 获 取 输 入 文件 的 大 小 , 然后 可 以 使 用 
这 个 大 小 来 设置 所 需 的 内 存 上 映射 的 大 小 ， 使 用 ftrancate0 设 置 输出 文件 的 大 小 。) 

49-2. 重 写 程序 清单 48-2 Csvshm xfr writerc) 和 程序 清单 48-3 (svshm xfr reader.c) 使 
它们 使 用 共 圣 内 存 映射 来 取代 System V RENFE- 

49-3. 编写 程序 验证 在 49.4.3 节 中 描述 的 情况 下 会 产生 SIGBUS 和 SIGSEGV 信和 号。 

49-4. 使 用 49.10 市 中 介绍 的 MAP. FIXED 技术 编写 一 个 程序 来 创建 一 个 与 图 49-5 中 给 
出 的 映射 闫 似 的 非 线性 映射 。 
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虚拟 内 存 操作 





本 革 介 绍 在 进程 的 虚拟 地 址 空间 上 执行 操作 的 各 个 系统 调用 。 
。 mprotectO 系 统 调用 修改 一 块 虚拟 内 存 区 域 上 的 你 护 信 息 。 
e mlockO0 和 mlockall0 系 统 调用 将 一 块 虚拟 内 存 区 域 锁 进 物理 内 存 ， 从 而 防止 它 被 交换 











dx. 
。 mincore() 系 统 调用 让 一 个 进程 能 够 确定 一 块 虚拟 内 存 区 域 中 的 分 页 是 侍 驻 留 在 物理 
内 存 中 。 


。 madviseO 〇 系统 调用 让 一 个 进程 能 够 将 其 对 虚拟 内 存 区 域 的 使 用 模式 报告 给 内 核 。 
其 中 一 些 系 统 调用 只 有 与 共 圣 内 存 区 域 结合 起 来 之 后 才能 够 友 挥 特别 的 作用 (第 48 3&6. 
第 49 章 以 及 第 54 革 )， 但 它们 可 以 被 应 用 于 一 个 进程 的 虚拟 内 存 中 的 任何 区 域 。 

















本 章 介绍 的 技术 实际 上 与 IPC 一 点 关系 也 没有 ,之 所 以 将 本 章 的 内 容 放 在 本 书 的 这 个 部 分 
古 因为 有 时 候 将 它们 与 共 圣 内 存 结合 起 来 使 用 。 





50.1 改变 内 存 保护 : mprotect() 
mprotect0 系 统 调用 修改 起 始 位 置 为 addr 长 度 为 length 字 节 的 虚拟 内 存 区 域 中 分 页 上 的 保护 。 





#include «sys/mman.h» 


int mprotect(void *addr, size t length, int prot); 


Returns 0 on success, or -1 on error 








addr 的 取信 必须 是 系统 分 页 大 小 〈sysconf(_ SC_PAGESIZE) 的 返回 值 ) 的 整数 倍 。(SUSv3 
规定 addr 必须 是 分 页 对 齐 的 。 SUSv4 表示 一 个 实现 可 以 要 求 这 个 参数 是 分 页 对 齐 的 。) 由 于 你 
护 是 设置 在 整个 分 页 上 的 ， 因 此 实际 上 length 会 被 同上 含 入 到 系统 分 页 大 小 的 下 一 个 整数 倍 。 
prot 参数 是 一 个 位 掩 码 ， 它 指定 了 这 块 内 存 区 域 上 的 新 保护 ， 其 取 值 是 PROT NONE 或 
PROT READ、PROT WRITE、 以 及 PROT EXEC 这 三 个 值 中 的 一 个 或 多 个 取 OR。 所 有 这 些 








859 
异步 社区 会 员 flyman150(2410757683 (9 qq.com) EF 尊重 版 权 


值 的 含义 与 它们 在 mmapO0 中 的 含义 是 一 样 的 〈 表 49-2). 

如 果 一 个 进程 在 访问 一 块 内 存 区 域 时 违背 了 内 存 你 护 ， 那 么 内 核 就 会 回 该 进程 发 送 一 个 
SIGSEGV 信号 。 

mprotectO 的 一 个 用 途 是 修改 原先 通过 mmap(O 调 用 设置 的 映射 内 存 区 域 上 的 保护 ,如 程序 
清单 50-1 所 示 。 这 个 程序 创建 了 一 个 最 初 拒绝 所 有 访问 (PROT_NONE) 的 匿名 映射 ， 然 后 
将 该 区 域 上 的 保护 修改 为 读 加 写 。 在 做 出 变更 之 前 和 之 后 , 程序 使 用 systemO 函 数 执行 了 一 个 
shell 命令 来 打印 出 己 该 映射 区 域 对 应 的 /proc/PID/maps 文件 中 的 内 容 , 这 样 就 能够 看 到 内 存 你 
护 上 发 生 的 变更 了 。( 其 实 通过 下 接 解 析 /proc/self/maps 束 能 获取 映 冉 信息 ， 这 里 之 所 以 使 用 
systemO 调 用 是 因为 这 种 做 法 所 需 的 编码 量 更 少 。) 运行 这 个 程序 之 后 可 以 看 到 下 面 的 输出 。 


$ ./t mprotect 

Before mprotect() 

b7cde000-b7ddeO000 ---s 00000000 00:04 18258 /dev/zero (deleted) 
After mprotect() 

b7cde000-b7ddeO00 rw-s 00000000 00:04 18258 /dev/zero (deleted) 


从 上 面 输出 的 最 后 一 行 可 以 看 出 mprotectO 已 经 将 和 内存 区 域 上 的 权限 修改 为 PROT READ 
| PROT WRITE. (2 T 4E shell 输出 中 为 何在 /dev/zero 后 面 出 现 了 (deleted) 字 符 串 的 原因 请 参 
考 48.5 7.) 


程序 清单 50-1: 使 用 mprotect(O 修 改 内 存 保护 























vmem/t mprotect.c 


#define BSD SOURCE /* Get MAP ANONYMOUS definition from «sys/mman.h» */ 
include «sys/mman.h» 
#include "tlpi hdr.h" 


itdefine LEN (1024 * 1024) 


itdefine SHELL FMT "cat /proc/Xld/maps | grep zero" 
#define CMD SIZE (sizeof(SHELL FMT) + 20) 
/* Allow extra space for integer string */ 
int 
main(int argc, char *argv[]) 


char cmd[CMD SIZE]; 
char *addr; 


/* Create an anonymous mapping with all access denied */ 
addr = mmap(NULL, LEN, PROT NONE, MAP SHARED | MAP ANONYMOUS, -1, 0); 
if (addr -- MAP FAILED) 
errExit("mmap"); 
/* Display line from /proc/self/maps corresponding to mapping */ 
printf("Before mprotect() Wn"); 
snprintf(cmd, CMD SIZE, SHELL FMT, (long) getpid()); 
System(cmd ) ; 


/* Change protection on memory to allow read and write access */ 


if (mprotect(addr, LEN, PROT READ | PROT WRITE) -- -1) 
errExit("mprotect"); 
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printf("After mprotect()Win"); 
system(cmd); /* Review protection via /proc/self/maps */ 


exit(EXIT SUCCESS); 
} 


vmem/t mprotect.c 


50.2 Ai: mlock()fH mlockatt() 


在 一 些 应 用 程序 中 将 一 个 进程 的 虚拟 内 存 的 部 分 或 全 部 锁 进 内 存 以 确保 它们 总 是 位 于 物 
理 内 存 中 是 非 第 有 用 的 。 之 所 以 需要 这 样 做 的 一 个 原因 是 它 可 以 提 局 性 能 。 对 被 锁 住 的 分 页 
的 访问 可 以 确保 永远 不 会 因为 分 页 故障 而 发 生 延 运 。 这 对 于 那些 需要 确保 快速 响应 时 间 的 应 
用 程序 来 讲 是 很 有 用 的 。 

给 内 存 加 锁 的 为 一 个 原因 是 安全 。 如 果 一 个 包含 敏感 数据 的 虚拟 内 存 分 页 水 远 不 会 
被 交换 出 去 ， 那 么 该 分 页 的 副本 吏 不 会 被 写 入 到 人 磁盘。 如 采访 分 页 被 写 入 到 了 磁盘 ， 那 
么 从 理论 上 来 讲 融 可 以 在 后 面 菏 个 时 刻 百 接 从 磁盘 中 读 取 该 分 页 。( 攻 击 者 可 能 会 故意 通 
过 运行 一 个 消耗 大 量 内 存 的 程序 来 构造 这 种 场景 ， 从 而 强制 其 他 进程 占据 的 内 存 被 交换 
到 磁盘 上 。〉 由 于 内 核 不 保证 会 消除 交换 空间 中 保存 的 数据 ， 因 此 即使 在 进程 终止 之 后 也 
可 能 从 交换 空间 中 读 取 信息 。( 一 般 来 讲 ， 只 有 特权 进程 才能 够 从 交换 设备 上 读 取 数 据 。) 


膝 上 型 计算 机 以 及 一 些 果 和 面 系 统 上 的 挂 起 模式 将 系统 的 RAM 副本 保存 到 磁盘 上 ， 不 
党 是 合 存 在 内 存 锁 。 


本 市 将 介绍 用 于 给 一 个 进程 的 虚拟 内 存 的 部 分 或 全 部 进行 加 锁 和 解锁 的 系统 调用 。 下 面 
公仆 




































































RLIMIT MEMLOCK 资源 限制 


在 36.3 市 中 对 RLIMIT MEMLOCK 限制 进行 了 简要 的 介绍 , 它 为 一 个 进程 能 够 锁 进 内 存 
的 字 布 数 设 定 了 一 个 上 限 。 下 面 开 始 对 这 个 限制 进行 详细 介绍 。 

在 2.6.9 之 前 的 Linux 内 核 中 ， 只 有 特权 进程 CCAP. IPC LOCKO 才能 给 内 存 加 锁 ， 
RLIMIT MEMLOCK 软 资 源 限 制 为 一 个 特权 进程 能 够 锁 住 的 字 节 数 设 定 一 个 上 限 。 

从 Linux 2.6.9 开始 ， 内 存 加 锁 模 型 发 生 了 变化 ， 即 允许 非特 权 进 程 给 一 小 段 内 存 进 行 加 
锁 。 这 对 于 那些 需要 将 一 小 部 分 敏感 信息 锁 进 内 存 以 确保 这 些 信息 永和 撑 不 会 被 写 入 到 磁盘 上 
的 交换 空间 的 应 用 程序 来 讲 是 非常 有 用 的 ， 如 gpg 是 通过 密码 短语 来 完成 这 件 事情 的 。 这 种 
模型 上 的 变更 会 导致 : 

。 特权 进程 能 够 锁 住 的 内 存 数 量 是 没有 限制 的 〈 即 RLIMIT MEMLOCK 会 被 忽略 ); 

。 非特 权 进 程 能 够 锁 住 的 内 存 数量 上 限 由 软 限制 RLIMIT MEMLOCK 定义 。 

软 和 硬 RLIMIT MEMLOCK 限制 的 默认 值 都 是 8 个 分 页 〈 即 在 x86-32 上 是 32768 FT). 

RLIMIT MEMLOCK 限制 影响 : 

e mlockO 和 mlockall(); 

e mmap) MAP LOCKED 标记 ， 该 标记 用 来 在 映射 被 创建 时 将 内 存 映 射 锁 进 内 存 ， 有 只 

体 可 参见 49.6 节 中 的 描述 ; 
。 shmctl() SHM LOCK 操作 , 该 操作 用 来 给 System V 共 孚 内存 段 加 锁 , 具体 可 参见 48.7 
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节 中 的 摘 述 。 
由 于 虚拟 内 存 的 管理 单位 是 分 页 ， 因 此 内 存 加 锁 会 应 用 于 整个 分 页 。 在 执行 限制 检查 时 ， 
RLIMIT MEMLOCK 限制 会 被 向 下 人 镶 入 到 最 近 的 系统 分 页 大 小 的 整数 倍 。 
尽管 这 个 资源 限制 只 有 一 个 〈 软 ) 值 ， 但 实际 上 它 定义 了 两 个 单独 的 限制 : 
e 对 于 mlockO. mlockallQ L4 mmap) MAP LOCKED 操作 来 讲 ，RLIMIT MEMLOCK 定 
义 了 一 个 进程 级 别 的 限制 , 它 限 制 了 一 个 进程 的 虚拟 地 址 空间 中 能 够 被 锁 进 内 存 的 字 节 数 。 
e 对 于 shmctlü SHM LOCK 操作 来 讲 ，RLIMIT MEMLOCK 定义 了 一 个 用 户 级 别 的 限 
制 ， 它 限制 了 这 个 进程 的 真实 用 户 ID 在 共享 内 存 段 中 能 够 锁 住 的 字 布 数 。 当 一 个 进 
程 执行 了 一 个 shmctl SHM_LOCK 操作 时 ， 内 核 会 检查 被 调用 进程 的 真实 用 户 ID 锁 
住 的 System V 共享 内 存 的 总 字 节 数 。 如 果 竺 加 锁 的 段 的 大 小 不 会 导致 总 量 违背 进程 的 
RLIMIT MEMLOCK 限制 ， 那 么 操作 束 会 成 功 。 
RLIMIT MEMLOCK 在 System V 共享 内 存 上 之 所 以 存在 不 同 语义 是 因为 共享 内 存 段 即使 
在 没有 被 附加 到 任何 一 个 进程 之 上 时 也 是 能 够 继续 存在 的 。( 共 享 内 存 段 只 有 在 显 式 的 shmctl() 
IPC RMID 操作 之 后 并 且 所 有 进程 都 在 它们 的 地 址 空间 中 与 乙 分 离 之 后 才 会 被 删除 。) 


给 内 存 区 域 加 锁 和 解锁 
一 个 进程 可 以 使 用 mlock0 和 munlock0 来 给 一 块 内 存 区 域 加 锁 和 解锁 。 



































#include «sys/mman.h» 


int mlock(void *addr, size t length); 
int munlock(void *addr, size t length); 





Both return 0 on success, or -1 on error 





mlockO 系 统 调 用 会 锁 住 调用 进程 的 虚拟 地 址 空间 中 起 始 地 址 为 addr KEX length FEKI 
区 域 中 的 所 有 分 页 。 与 传 入 其 他 一 些 与 内 存 相 关 的 系统 调用 中 的 相应 参数 相 比 ， 这 里 的 addr 
无 需 是 分 页 对 齐 的 : 内 核 会 从 addr 下 面 的 下 一 个 分 页 边界 开始 锁 住 分 页 。 然 而 ，SUSv3 允许 
一 个 实现 要 求 addr 为 系统 分 页 大 小 的 整数 倍 ， 可 移植 的 应 用 程序 在 调用 mlock0 和 munlockQ 
应 该 确保 这 一 点 。 

由 于 加 锁 操作 的 单位 是 分 页 ， 因 此 被 锁 住 的 区 域 的 结束 位 置 为 大 于 length 加 addr 的 下 一 
个 分 页 边界 。 例 如 ， 在 一 个 分 页 大 小 为 4096 *E- HS E, mlock(2000, 4000) 调 用 会 将 0 到 
8191 Z [HR] ^r Tr BUE. 






































WAA Linux 特有 的 /proc/PID/status 文件 中 的 VmLek 条目 能 够 找 出 一 个 进程 当前 已 经 
锁 住 的 内 存 效 量 。 


在 mlockO 调 用 成 功 之 后 就 能 确保 指定 区 域 中 的 分 页 会 被 锁 住 并 驻 留 在 物理 内 存 中 。 当 没 
有 足够 的 物理 内 存 来 锁 住 所 有 所 请 求 的 分 页 或 请 求 违 背 RLIMIT MEMLOCK 软 资源 限制 时 
mlockO 系 统 调 用 就 会 失败 。 

程序 清单 50-2 给 出 了 一 个 使 用 mlockO 的 例子 。 

munlockO 系 统 调用 执行 的 操作 与 mlockO 相 反 ， 即 删除 之 前 由 调用 进程 创建 的 内 存 锁 。addr 
和 length 参数 被 解释 的 方式 与 它们 在 munlockO 中 被 解释 的 方式 是 相同 的 。 给 一 组 分 页 解锁 并 不 
能 确保 它们 就 不 会 驻 留 在 内 存 中 了 : 只 有 在 其 他 进程 请 求 内 存 的 时 候 才 会 从 RAM 中 删除 分 页 。 

除了 显 式 地 使 用 munlockO 之 外 ， 内 存 锁 在 下 列 情况 下 会 被 目 动 删除 。 
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e 在 进程 终止 时 。 

e 当 被 锁 住 的 分 页 通过 munmap0 被 解除 映射 时 。 

e 当 被 锁 住 的 分 页 被 使 用 mmap) MAP FIXED 标记 的 映射 敌 凋 时 。 

内 存 加 锁 语义 的 细节 信息 

在 下 和 面 的 儿 个 段落 中 将 会 介绍 内 存 锁 语义 的 一 些 细 节 。 

内 存 锁 不 会 被 通过 fork0 创 建 的 子 进程 继承 ， 也 不 会 在 exec0 执 行 期 间 被 保留 。 

当 多 个 进程 共享 一 组 分 页 时 (如 MAP SHARED 映射 )， 只 要 还 存在 一 个 进程 持 有 着 这 些 
分 页 上 的 内 存 锁 ， 那 么 这 些 分 页 束 会 保持 被 锁 进 内 存 的 状态 。 

内 存 锁 不 在 单个 进程 上 闭 加 。 如 果 一 个 进程 香 复 地 在 一 个 特定 虚拟 地 址 区 域 上 调用 
mlockO， 那 么 只 会 建立 一 个 锁 ， 并 且 只 需要 通过 一 个 munlockO 调 用 惑 能 够 删除 这 个 锁 。 另 一 
方面 ， 如 果 使 用 mmap0O 将 同一 组 分 页 〈 即 同样 的 文件 ) 映射 到 单个 进程 中 的 几 个 不 同 的 位 置 ， 
然后 分 别 给 所 有 这 些 映 射 加 锁 , 那么 这 些 分 页 会 保持 被 锁 进 RAM. 的 状态 直到 所 有 的 映射 都 被 
解锁 为 止 。 

内 存 锁 的 加 人 锁 单 位 为 分 页 以 及 无 法 登 加 的 事实 意味 看 独立 地 将 mlock() 和 munlockO 调 
用 应 用 于 同一 个 虚拟 分 页 上 的 不 同 数据 结构 在 浊 辑 上 是 不 正确 的 。 如 假设 在 同一 个 虚拟 内 
存 分 页 中 存在 两 个 数据 结构 , 指针 pl 和 p2 分 别 指 问 了 这 两 个 结构 , 接 看 执行 下 和 耐 的 调用 。 

mlock(*p1, len1); 


mlock(*p2, len2); /* Actually has no effect */ 
munlock(*p1, len1); 


上 和 面 的 所 有 调用 都 会 成 功 ， 但 最 后 整个 分 页 都 会 被 解锁 ， 即 p2 指向 的 数据 结构 将 不 会 被 
锁 进 内 存 。 
注意 shmctl) SHM LOCK 操作 (48.7 $) 的 语义 与 mlockO0 和 mlockallO 的 语义 是 不 同 的 ， 
具体 如 下 。 
* 在 SHM LOCK 操作 之 后 ， 分 页 只 有 在 因 后 续 引 用 而 发 生 故 障 时 才 会 被 锁 进 内 存 。 与 
之 相反 的 是 ，mlockO 和 mlockallO 调 用 在 返回 之 前 会 将 所 有 分 页 锁 进 内 存 。 
。 SHM LOCK 操作 会 设置 共享 内 存 段 的 一 个 属性 ， 而 不 是 进程 的 属性 。( 正 因为 这 个 原 
E], /proc/PID/status VmLck 字段 的 值 中 并 没有 包含 使 用 SHM_LOCK 锁 住 的 所 有 附加 
System V 共享 内 存 段 的 大 小 。) 这 意味 痢 分 页 一 旦 因 故 隐 被 锁 进 了 内 存 ， 那 么 即使 押 
有 进程 都 与 这 个 共享 内 存 段 分 离 了 ， 分 页 还 是 会 保持 驻 留 在 内 存 中 的 状态 。 与 之 相反 
的 是 ， 使 用 mlockO (EX mlockallO) 锁 进 内 存 的 区 域 只 有 在 还 存在 进程 持 有 该 区 域 上 
的 锁 时 才 会 保持 被 锁 进 内 存 的 状态 。 


给 一 个 进程 占据 的 所 有 内 存 加 锁 和 解锁 
一 个 进程 可 以 使 用 mlockall0 和 munlockallO 给 它 占 据 的 所 有 内 存 加 锁 和 解锁 。 


#include «sys/mman.h» 






























































int mlockall(int flags); 
int munlockall(void); 








Both return 0 on success, or -1 on error 


mlockall0 系 统 调用 根据 flags 位 扒 码 的 取 值 将 一 个 进程 的 虚拟 地 址 空间 中 当前 所 有 映射 的 
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分 页 或 将 来 所 有 了 映射 的 分 页 或 两 者 锁 进 内 存 ， 其 中 flags 参数 的 取 值 为 下 和 面 这 些 常 量 中 的 一 个 
或 多 个 取 OR。 
MCL CURRENT 

将 调用 进程 的 虚拟 地 址 空间 中 当前 所 有 了 上 映射 的 分 页 锁 进 内 存 ， 包 括 当 前 为 程序 文本 
段 、 数 据 段 、 内 存 映射 以 及 栈 分 配 的 所 有 分 页 。 当 指定 了 MCL CURRENT 标记 的 调用 成 
功 之 后 束 能 够 确 你 调用 进程 的 所 有 这 些 分 页 都 驻 留 在 了 内 存 中 。 这 个 标记 不 会 对 后 续 在 进 
程 的 虚拟 地 址 空间 中 分 配 的 分 页 产生 影 啊 ; 要 控制 这 些 分 页 则 必须 要 使 用 MCL _FUTURE。 
MCL FUTURE 

将 后 续 映 射 进 调用 进程 的 虚拟 地 址 空间 的 所 有 分 页 锁 进 内 存 。 例 如 ， 此 类 分 页 可 能 是 通 
过 mmap0 或 shmatO0 映 射 的 一 个 共享 内 存 区 域 的 一 部 分 , 或 回 上 增长 的 堆 或 加 下 增长 的 栈 的 一 
部 分 。 指 定 MCL FUTURE 标记 的 结果 是 后 续 的 内 存 分 配 操作 〈 如 mmapO、sbrkO 或 malloc()) 
可 能 会 失败 ， 或 者 栈 增长 可 能 会 产生 SIGSEGV 信和 号， 当然 前 提 是 系统 已 经 没有 RAM 分 配给 
进程 或 者 已 经 达到 了 RLIMIT MEMLOCK 软 资源 限制 。 

通过 mlockO 创 建 的 内 存 锁 上 有 关 约 束 、 生 命 周 期 以 及 继承 性 方面 的 规则 同样 也 适用 于 通 
过 mlockall0 创 建 的 内 存 锁 。 

munlockallO 系 统 调 用 将 调用 进程 的 所 有 分 页 解锁 并 撤销 之 前 的 mlockallMCL_ FUTURE) 
调用 所 产生 的 结果 。 与 munlockO 一 样 ， 这 个 调用 无 法 保证 会 从 RAM 中 删除 被 解锁 的 分 页 。 





























在 Linux 2.6.9 之 六 ,调用 munlockall0 需 要 特权 (CAP IPC LOCK)( 不 一 致 性 , munlock() 
无 需 特 权 )。 从 Linux 2.6.9 开始 已 经 不 再 需要 特权 了 。 





50.3 ”确定 内 存 驻 留 性 : mincore() 


mincoreO 系 统 调 用 是 内 存 加 锁 系 统 调 用 的 补充 ， 它 报告 在 一 个 虚拟 地 址 范围 中 哪些 分 页 
当前 驻 留 在 RAM 中 ， 因 此 在 访问 这 些 分 页 时 也 不 会 导致 分 页 故障 。 

SUSv3 并 没有 规定 mincore0， 很 多 UNIX 实现 都 提供 了 这 个 函数 ， 但 不 是 所 有 的 UNIX 
实现 都 提供 了 这 个 函数 。 在 Linux 上 从 内 核 2.4 开始 提供 了 mincoreO. 


#define BSD SOURCE /* Or: #define SVID SOURCE */ 
#include «sys/mman.h» 











int mincore(void *addr, size t length, unsigned char *vec); 


Returns 0 on success, or -1 on error 


mincore(O 系 统 调用 返回 起 始 地 址 为 addr 长 度 为 length F HEA H hE v Fi] 4) VAL] LE 
驻 留 信息 。addr 中 的 地 址 必须 是 分 页 对 齐 的 ， 并 且 由 于 返回 的 信息 是 有 关 整 个 分 页 的 ， 因 此 
length 实际 上 会 被 回 上 含 入 到 系统 分 页 大 小 的 下 一 个 整数 倍 。 

内 存 驻 留 相关 的 信息 会 通过 vec kl, 它 是 一 个 数组 ,其 大 小 为 (length + PAGE SIZE - 1) 
/ PAGE SIZE ^£, (XE Linux E, vec 的 类 型 是 unsigned char *; 在 其 他 一 些 UNIX 实现 上 ， 
vec 的 类 型 为 char *。) 每 个 学 节 的 最 低 有 效 位 在 相应 分 页 驻 留 在 内 存 中 时 会 被 设置 ,而 其 他 位 
的 设置 在 一 些 UNIX 实现 上 是 未 定义 的 ， 因 此 可 移植 的 应 用 程序 应 该 只 测试 最 低 有 效 位 。 

mincore0 返 回 的 信息 在 执行 调用 的 时 刻 与 检 答 vec 中 的 元 素 的 时 刻 期 间 可 能 会 发 生变 化 。 
唯一 能 够 确保 你 持 驻 留 在 内 存 中 的 分 页 是 那些 通过 mlock(O EX; mlockallO 锁 住 的 分 页 。 
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在 Linux 2.6.24 之 前 ， 各 种 各 样 的 实现 问题 导致 mincore0 无 法 正确 地 报告 MAP_ 
PRIVATE 映射 和 非 线 性 映射 “通过 侦 用 remap file pagesO 创 建 》 的 内 存 驻 留 信息 。 


程序 清单 50-2 演示 了 如 何 使 用 mlock0 和 mincore(O。 这 个 程序 首先 分 配 并 使 用 mmapO 
映 时 了 一 块 内 存 区 域 ， 然 后 以 固定 的 时 间 间 隔 使 用 mlockO 将 整个 区 域 或 一 组 分 页 锁 进 内 
存 。( 传 给 这 个 程序 的 所 有 命令 行 参 数 的 单位 是 分 页 ， 程 序 会 将 这 些 参数 转换 成 字 节 ， 
为 mmapO、mlockO 以 及 mincoreO 使 用 的 是 字 节 。) 在 调用 mlockO 之 前 和 之 后 ， 程 序 使 用 
mincore(O 来 获取 这 个 区 域 中 分 页 的 内 存 驻 留 信 息 并 图 形 化 地 将 这 些 信 息 展 现 了 出 来 。 


程序 清单 50-2: 使 用 mlock() 和 mincore() 

















CC wnem/memlock.c 

#define BSD SOURCE /* Get mincore() declaration and MAP ANONYMOUS 
definition from «sys/mman.h» */ 

include «sys/mman.h» 

include "tlpi hdr.h" 


/* Display residency of pages in range [addr .. (addr + length - 1)] */ 


static void 
displayMincore(char *addr, size t length) 


unsigned char *vec; 
long pageSize, numPages, j; 


pageSize - sysconf( SC PAGESIZE); 


numPages = (length + pageSize - 1) / pageSize; 
vec - malloc(numPages); 
if (vec -- NULL) 
errExit("malloc"); 
if (mincore(addr, length, vec) -- -1) 
errExit("mincore"); 


for (j = 0; j < numPages; j++) 1 
if (j % 64 -- 0) 

printf("%s%10p: ", ( 

1 


" 0) ? "nmn : "An", addr $ (j * pageSize)); 
printf("Xc", (vec[j] & bk! 


j^ 
)? Prey 
printf("\n"); 


free(vec); 


j 


int 

main(int argc, char *argv[]) 
char *addr; 
size t len, lockLen; 


long pageSize, stepSize, j; 


if (argc != 4 || stremp(argv[1], "--help") == 0) 
usageErr("%s num-pages lock-page-step lock-page-lenWn", argv[0]); 


pageSize - sysconf( SC PAGESIZE); 
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if (pageSize -- -1) 
errExit("sysconf( SC PAGESIZE)"); 


len - getInt(argv[1], GN GT 0, "num-pages") * pageSize; 
stepSize - getInt(argv[2], GN GT 0, "lock-page-step") * pageSize; 
lockLen = getInt(argv[3], GN GT 0, "lock-page-len") * pageSize; 


addr = mmap(NULL, len, PROT READ, MAP SHARED | MAP ANONYMOUS, -1, 0); 
if (addr -- MAP FAILED) 
errExit("mmap"); 


printf("Allocated Xld (%#lx) bytes starting at %p\n", 
(long) len, (unsigned long) len, addr); 


printf("Before mlock: Wn"); 
displayMincore(addr, len); 


/* Lock pages specified by command line arguments into memory */ 


for (j = 0; j + lockLen <= len; j += stepSize) 
if (mlock(addr + j, lockLen) == -1) 
errExit("mlock"); 


printf("After mlock: in"); 
displayMincore(addr, len); 


exit(EXIT SUCCESS); 


vnem/memlock.c 


下 面 的 shell 会 话 给 出 了 运行 程序 清单 50-2 中 的 程序 时 输出 。 在 这 个 例子 中 分 配 了 32 个 
分 页 ， 每 组 为 8 个 分 页 ， 并 给 三 个 连续 分 页 加 锁 。 


$ su Assume privilege 
Password: 

it ./memlock 32 8 3 

Allocated 131072 (0x20000) bytes starting at 0x4014a000 
Before mlock: 

QOX4014a000% uis Ec e E. e IEPA EX A 

After mlock: 

0x40143000: ***..... TO dd aci STO pio 


EEFE, ERIT UTE AERE. EU EIS VUE REPE S Md i159) th 
中 可 以 看 出 ， 每 组 8 个 分 页 中 有 3 个 分 页 是 驻 留 在 内 存 中 的 。 

在 这 个 例子 中 假设 了 超级 用 户 特 权 ， 这 样 程序 整 能够 使 用 mlockO. M Linux 2.6.9 FARW 
无 需 这 种 特权 了 ， 只 要 每 加 锁 的 内 存量 不 超过 RLIMIT MEMLOCK 软 资 源 限制 即 可 。 


50.4 ”建议 后 续 的 内 存 使 用 模式 : madvise() 


madvise() 系 统 调用 通过 通知 内 核 调 用 进程 对 起 始 地 址 为 addr KEX length Z Ayi HI zz 
内 分 页 的 可 能 的 使 用 情况 来 提升 应 用 程序 的 性 能 。 内 核 可 能 会 使 用 这 种 信息 来 提升 在 分 页 之 
下 的 文件 映射 上 执行 的 IO 的 效率 。( 有 关 文 件 映 射 的 讨论 可 参考 49.4 市 。) 在 Linux 上 从 内 
核 2.4 开始 提供 了 madvise()。 
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#define BSD SOURCE 
#include «sys/mman.h» 
int madvise(void *addr, size t length, int advice); 


Returns 0 on success, or -1 on error 


addr 中 的 值 必须 是 分 页 对 齐 的 , length 实际 上 会 被 问 上 舍 入 到 系统 分 页 大 小 的 下 一 个 整数 
fi. advice 参数 的 取 值 为 下 列 之 一 。 
MADV NORMAL 

这 是 默认 行为 。 分 页 是 以 禾 的 形式 〈 较 小 的 一 个 系统 分 页 大 小 的 整数 倍 ) 传输 的 。 这 个 
值 会 导致 一 些 了 预先 读 和 事后 读 。 
MADV RANDOM 

这 个 区 域 中 的 分 页 会 被 随机 访问 ， 这 样 预 先 谈 将 不 会 带 来 任何 好 处 ， 因 此 内 核 在 每 次 读 
取 时 所 取出 的 数据 量 应 该 尽 可 能 少 。 
MADV SEQUENTIAL 

在 这 个 范围 中 的 分 页 只 会 被 访问 一 次 ， 并 且 是 顺序 访问 ， 因 此 内 核 可 以 激进 地 预先 读 ， 
并 且 分 页 在 被 访问 之 后 束 可 以 将 其 释放 了 。 
MADV WILLNEED 

预先 恋 取 这 个 区 域 中 的 分 页 以 备 将 来 的 访问 之 需 。MADV_WILLNEED 操作 的 效果 与 Linux 
特有 的 readahead0 系 统 调 用 和 posix fadvise) POSIX FADVY WILLNEED 操作 的 效果 类 似 。 
MADV DONTNEED 

调用 进程 不 再 要 求 这 个 区 域 中 的 分 页 驻 留 在 内 存 中 。 这 个 标记 的 精确 效果 在 不 同 UNIX. K 
现 上 是 不 同 的 。 下 面 首 先 对 其 在 Linux 上 的 行为 予以 介绍 。 对 于 MAP PRIVATE boxer, mi 
射 分 页 会 显 式 地 被 丢弃 ， 这 意味 看 所 有 发 生 在 分 页 上 的 变更 会 丢失 。 虚 拟 内 存 地 址 范围 仍然 可 
访问 ， 但 对 各 个 分 页 的 下 一 个 访问 将 会 导致 一 个 分 页 故障 和 分 页 的 重 独 初始化， 这 种 初始 化 要 
么 使 用 其 映射 的 文件 内 容 ， 要 么 在 匿名 映射 的 情况 下 就 使 用 堆 来 初始 化 。 这 个 标记 可 以 作为 一 
种 显 式 初始 化 一 个 MAP PRIVATE 区 域 的 内 容 的 方法 。 对 于 MAP_SHARED 区 域 来 讲 ， 内 核 在 
一 些 情况 下 可 能 会 丢弃 修改 过 的 分 页 , 这 取决 于 运行 系统 的 架构 (在 x86 上 不 会 发 生 这 种 行为 )。 
其 他 一 些 UNIX 实现 的 行为 方式 与 Linux 一 样 ， 但 在 一 些 UNIX 实现 上 , MADV DONTNEED 
仅仅 是 通知 内 核 指定 的 分 页 在 必要 的 时 候 可 以 被 区 换 出 去 。 可 移植 的 应 用 程序 不 应 该 依赖 于 
MADV DONTNEED 在 Linux 上 的 破坏 性 语义 。 

































































Linux 2.6.16 增加 了 三 个 新 的 非 标 准 advice 值 : MADV _DONTFORK、MADYV DOFORK 
以 及 MADV REMOVE, Linux 2.6.32 和 2.6.33 又 增加 了 四 个 非 标 准 的 advice 值 : 
MADV HWPOISON 、MADV SOFT OFFLINE, MADV MERGEABLE 以 及 MADV 
UNMERGEABLE。 这 些 值 是 在 特殊 情况 下 使 用 的 ， 上 其 体 可 参考 madvise(2) 手 册 。 





大 多 数 UNIX 实现 都 提供 了 一 个 madvise0， 它 们 通常 至 少 支 持 上 面 描 述 的 advice 和 常量。 然而 
SUSv3 使 用 了 一 个 不 同 的 名 称 来 标准 化 了 这 个 API， 即 posix_madvise0， 并 且 在 相应 的 advice 常量 
上 加 上 了 一 个 前 级 字符 串 POSIX 。 因 此 ， 这 些 常量 变 成 了 POSIX MADV NORMAL, 
POSIX MADV RANDOM., POSIX MADV SEQUENTIAL, POSIX MADV WILLNEED 以 
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K POSIX MADV DONTNEED. 在 glibc 中 (2.2 以 及 之 后 的 版 本 ) 是 通过 调用 madvise0 来 实 
现 这 个 候选 接口 的 ， 但 所 有 UNIX 实现 都 没有 提供 这 个 接口 。 











SUSv3 表示 posix_madviseO 个 应 该 影响 一 个 程序 的 语义 。 然 而 在 版 本 2.7 之 前 的 glibc 
'H, POSIX MADV DONTNEED 操作 是 通过 使 用 madvise) MADV_DONTNEED 来 实现 的 ， 
而 正如 之 前 描述 的 那样 , 这 个 操作 会 影响 一 个 程序 的 语义 , 目 glibc 2.7 开始 , posix_madvise() 
包装 器 将 POSIX MADV DONTNEED 实现 为 不 做 任何 事情 ， 这 样 它 就 不 会 影 啊 一 个 程序 
的 语义 了 。 











50.5 小结 


本 章 对 可 在 一 个 进程 的 虚拟 内 存 上 执行 的 各 种 操作 进行 了 介绍 。 

e mprotectO 系 统 调用 修改 一 块 虚拟 内 存 区 域 上 的 保护 。 

e mlock()fll mlockall0 系 统 调用 将 一 个 进程 的 虚拟 地 址 空间 中 的 部 分 或 全 部 分 别 锁 进 物 
理 内 存 。 

e mincoreO 系 统 调 用 报告 一 块 虚拟 内 存 区 域 中 哪些 分 页 当前 驻 留 在 物理 内 存 中 。 

e madvise() 系 统 调用 和 posix_madvise() 函 数 允 许 一 个 进程 将 其 预期 的 内 存 使 用 模式 报告 
给 内 核 。 














50.6 2j 


50-1. 编写 一 个 程序 使 其 为 RLIMIT MEMLOCK 资源 限制 设置 一 个 值 之 后 将 数量 超过 这 
个 限制 的 内 存 锁 进 内 存 来 验证 RLIMIT MEMLOCK 资源 限制 的 作用 。 

50-2. 写 一 个 程序 来 验证 madviss) MADV DONTNEED 操作 在 一 个 可 写 MAP PRIVATE 
映射 上 的 操作 。 
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POSIX IPC 介绍 


POSIX.Ib 实时 扩展 定义 了 一 组 IPC 机 制 ， 它 们 与 在 第 45 章 到 第 48 章 章 中 介绍 的 
System V IPC 机 制 类 似 。(POSIX.1b 的 开发 者 的 其 中 一 个 目标 是 设计 出 一 组 能 弥补 System 
V IPC 工具 的 不 足 之 处 的 IPC 机 制 。) 这 些 IPC 机 制 被 统称 为 POSIX IPC。 这 三 种 POSIX IPC 
机 制 具体 如 下 。 

e 消息 队列 可 以 用 来 在 进程 间 传 递 消息 。 与 System V 消息 队列 一 样 ， 消 息 边 界 被 保留 

了 下 来 , 这 样 读 者 和 写 者 就 以 消息 为 单位 (与 管道 提供 的 无 分 隔 符 的 字 节 流 是 不 同 的 ) 
进行 通信 了 。POSIX 消息 队列 允许 给 每 个 消息 赋 一 个 优先 级 ， 这 样 在 队列 中 优先 级 较 
高 的 消息 会 排 在 优先 级 较 低 的 消息 前 面 。 这 种 功能 从 某 种 程度 上 来 讲 与 System V 7H 8. 
中 的 类 型 字段 提供 的 功能 是 一 样 的 。 

e 信号 量 允 许多 个 进程 同步 各 目的 动作 。 与 System V 信号 量 一 样 ，POSIX 信号 量 
是 一 个 由 内 核 维护 的 整数 ,其 值 永远 都 不 会 小 于 0. 与 System V 信号 量 相 比 ,POSIX 
言 写 量 在 用 法 上 要 简单 一 些 ; 它们 是 逐个 分 配 的 (与 System V 信号 量 集 相 比 )， 并 
且 在 单个 信号 量 上 只 能 使 用 两 个 操作 来 将 信号 量 的 值 加 1 或 减 1 (与 semop0 〇 系统 
调用 能 原子 地 在 一 个 System V 信号 量 集 中 的 多 个 信号 量 上 加 上 或 减 去 一 个 任意 值 
相 比 )。 

e 共 诗 内 存 使 得 多 个 进程 能 够 共 圣 同一 块 内 存 区 域 , 与 System V RENFE, POSIX 
共享 内 存 提供 了 一 种 快速 IPC。 一 个 进程 一 旦 更 新 了 共享 内 存 之 后 ， 所 发 生 的 变更 立 
即 对 共 孕 同一 区 域 的 其 他 进程 可 见 。 

本 章 将 对 各 个 POSIX IPC 工具 进行 概述 ， 并 看 重 介 绍 它 们 的 共有 特性 。 







































































51.1 API 概述 


三 种 POSIX IPC 机 制 拥 有 很 多 共有 特性 。 表 51-1 对 它们 的 API 进行 了 总 结 ， 在 后 面 几 节 
中 将 深入 介绍 它们 的 共有 特性 的 细 市 信息 。 
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除了 在 表 51-1 中 提 及 外 , 本 章 剩余 的 部 分 将 不 会 特意 指出 POSIX 信和 号 量 存在 两 种 形式 
这 个 事实 : 命名 信号 量 和 未 命名 信和 号 量 。 命 名 信和 号 量 与 本 章 介 绍 的 其 他 POSIX IPC 机 制 类 
似 : 它们 通过 一 个 名 字 来 标识 ， 并 且 所 有 有 其 备 在 该 对 象 上 合适 权限 的 进程 都 能 够 访问 该 对 
象 。 未 命名 信号 量 没有 关联 的 标识 符 ， 而 是 会 被 放置 在 由 一 组 进程 或 单个 进程 中 的 多 个 线 
程 共享 的 内 存 区 域 中 。 在 53 半 将 会 对 这 两 种 信号 量 的 细节 了 予以 介绍 。 











表 51-1: POSIX IPC 对 象 编程 接口 总 结 


| & n 消息 队列 信 号 量 共享 内 存 


人 <mqueue.h> <semaphore.h> <sys/mman.h> 
对 象 句柄 mqd t sem t * int《〈 文 件 描述 符 ) 


创建 /打开 mq open() sem open() shm open() + mmap() 
XH] mq close() sem close() munmap() 
rJ T BEBE mq unlink() sem unlink() shm unlink() 


执行 IPC mq send(), sem post(), sem wait(), 在 共享 区 域 中 的 位 置 
上 操作 





mq receive() sem getvalue() 


其 他 操作 mq_setattr() 一 一 设置 特性 sem init() 初始 化 未 | 无 
maq_getattr0- 获取 特性 “| 命名 信号 量 


mq notify() 请 求 通知 US 销毁 未 
HJ EHE 

















IPC 对 象 名 字 

要 访问 一 个 POSIX IPC 对 象 殴 必须 要 通过 某 种 方式 来 识别 出 它 。 在 SUSv3 中 规定 的 唯一 
一 种 用 来 标识 POSIX IPC 对 象 的 可 移植 的 方式 是 使 用 以 斜 线 打头 后 面 跟着 一 个 或 多 个 非 斜 线 
学 符 的 名 字 ， 如 /myobjecto Linux 和 其 他 一 些 实现 (如 Solaris) 允许 采用 这 种 可 移植 的 命名 方 
式 来 给 IPC 对 象 命名 。 

在 Linux E, POSIX 共享 内 存 和 消 上 县 队列 对 象 的 名 和 党 的 最 天 长 度 为 NAME MAX (255) S 
Ap. 而 信和 号 量 的 名 字 的 最 大 长 度 要 少 4 个 字符 , 这 是 因为 实现 会 在 信号 量 名 学 前 而 加 上 学 符 串 sem.。 

SUSv3 并 没有 禁止 使 用 形式 不 为 /myobject 的 名 字 , 但 表示 这 种 名 字 的 语义 是 由 实现 定义 的 。 
在 一 些 系统 上 ， 创 建 IPC 对 象 名 字 的 规则 是 不 同 的 。 如 在 Tru64 5.1 E, IPCXJZ&A FAM IE 
成 标准 文件 系统 中 的 名 字 ， 并 且 名 宇 会 航 解 释 成 为 一 个 绝对 或 相对 路 径 名 。 如 末 调 用 者 没有 权 
限 在 该 目录 中 创建 文件 ， 那 么 IPC open 调用 就 会 失败 。 这 意味 看 在 Tru64 上 非特 权 程 序 无 法 创 
建 形 如 /myobject 之 类 的 名 字 ， 因 为 非特 权 用 户 通常 无 法 在 根 目录 00 中 创建 文件 。 其 他 一 些 实 
现在 传递 给 IPC open 调用 的 名 字 的 构建 上 也 存在 特定 的 规则 。 因 此 在 可 移植 的 应 用 程序 中 应 该 
将 IPC 对 象 名 的 生成 工作 放 在 一 个 根据 目标 实现 裁剪 过 的 单独 的 函数 或 头 文 件 中 。 

































































创建 或 打开 IPC 对 象 

每 种 IPC 机 制 都 有 一 个 关联 的 open 调用 (mq open), sem openO 以 及 shm openO0)， 它 
与 用 于 打开 文件 的 传统 的 UNIX open0 〇 系统 调用 类 似 。 给 定 一 个 IPC 对 象 名 ，IPC open 调用 会 
完成 下 列 两 个 任务 中 的 一 个 。 
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e 使 用 给 定 的 名 字 创 建 一 个 狐 对 象 ， 打 开 该 对 象 并 返回 该 对 象 的 一 个 句柄 。 

。 打开 一 个 既 有 对 象 并 返回 该 对 象 的 一 个 句柄 。 

IPC open 调用 返回 的 句柄 与 传统 的 open0 系 统 调用 返回 的 文件 插 述 竺 类 似 一 一 它 在 后 续 
的 调用 中 农用 来 引用 该 对 象 。 

IPC open 调用 返回 的 句柄 的 类 型 依赖 于 对 象 的 闫 型 。 对 于 消息 队列 来 讲 返 回 的 是 一 个 消 
县 队列 描述 符 ， 其 类 型 为 mdqd_t。 对 于 信和 吕 量 来 讲 ， 返 回 的 是 一 个 次 型 为 sem t * 的 指针 。 对 
于 共有 内存 来 讲 返 回 的 是 一 个 文件 摘 述 符 。 

所 有 IPC open 调用 者 人 至 少 接收 三 个 参数 
shm openO 调 用 所 示 : 

fd = shm open("/mymem", O CREAT | O RDWR, S IRUSR | S IWUSR); 

这 些 参数 与 传统 的 UNIX. open() 系 统 调用 接收 的 参数 类 似 。name 参数 标识 出 了 竺 创建 或 
待 打开 的 对 象 。oflag 参数 是 一 个 位 掩 公 ， 在 这 个 参数 中 人 至 少 可 以 包含 下 列 儿 种 标记 。 


O CREAT 

如 果 对 象 不 存在 ， 那 么 就 创建 一 个 对 象 。 如 果 没 有 指定 这 个 标记 并 且 对 象 不 存在 ， 那 么 
束 返 回 一 个 错误 (ENOENT)。 
O EXCL 

如 果 同 时 也 指定 了 O CREAT 并 且 对 象 已 经 存在 ,那么 就 返回 一 个 错误 (EEXIST)。 这 两 
检查 是 否 存 在 和 创建 一 一 是 原子 操作 (5.1 节 )。 这 个 标记 在 不 指定 O_CREAT 时 是 不 起 
作用 的 。 

根据 对 象 的 类 型 ，oflag 还 可 能 会 包含 O RDONLY、O WRONLY 以 及 O RDWR 这 三 个 
值 中 的 一 个 ， 其 含义 与 它们 在 open(0 中 含义 相同 。 一 些 IPC 机 制 还 文 持 额外 的 标记 。 

剩 下 的 参数 mode 是 一 个 位 撼 码 ,， 它 指定 了 在 对 象 被 创建 时 〈 即 指定 了 O CREAT 并 且 对 
象 不 存在 ) 施 加 于 新 对 象 之 上 的 权限 , mode 参数 能 取 的 值 与 其 在 文件 上 的 取 值 一 样 ( 表 15-4). 
与 open0 系 统 调用 一 样 ，mode 中 的 权限 掩 码 会 根据 进程 的 umask《〈15.4.6 市 ) WE. 3r IPC 
对 象 的 所 有 权 和 组 所 有 权 将 根据 发 起 这 个 了 PC open 调用 的 进程 的 有 效用 户 ID 和 组 卫 来 确定 。 
(严格 来 讲 ， 在 Linux E, 3j POSIX IPC 的 所 有 权 是 由 进程 的 文件 系统 ID 来 确定 的 ， 而 进程 
的 文件 系统 ID 通常 与 相应 的 有 效 ID 的 值 是 一 样 的 。 人 参考 9.5 节 。) 


在 那些 IPC 对 象 位 于 标准 文件 系统 中 的 系统 上 ，SUSv3 允许 实现 将 新 IPC 对 象 的 组 ID 
设置 为 父 目 录 的 组 ID。 


























name, oflag 以 及 mode AW F HJ 
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关闭 IPC x1 


对 于 POSIX 消息 队列 和 信和 号 量 来 讲 , 存在 一 个 IPC close 调用 来 表明 调用 进程 已 经 使 用 完 
该 对 象 ， 系 统 可 以 释放 之 前 与 该 对 象 关联 的 所 有 资源 了 。POSIX 共享 内 存 对 象 的 关闭 则 是 通 
过 使 用 munmap0 〇 解除 映射 来 完成 的 。 

IPC 对 象 在 进程 终止 或 执行 execO 时 会 目 动 被 关闭 。 




















IPC 对 象 权限 


IPC 对 象 上 的 权限 掩 码 与 文件 上 的 权限 掩 码 是 一 样 的 ,访问 一 个 IPC 对 象 的 权限 与 访问 文 
件 的 权限 (15.4.3 节 ) 是 类 似 的 ， 但 对 于 POSIX IPC 对 象 来 讲 ， 执 行 权限 是 没有 意义 的 。 
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从 内 核 2.6.19 起 ，Linux 支持 使 用 访问 控制 列表 CACLO 来 设置 POSIX 共享 内 存 对 象 和 
命名 信号 量 上 的 权限 。 目 前 ， 在 POSIX 消息 队列 上 不 支持 ACL. 


IPC 对 象 删 除 和 对 象 持久 性 


与 打开 文件 一 样 ，POSIX IPC 对 象 也 有 3 引用 计数 一 一 内 核 会 维护 对 象 上 的 打开 引用 计数 。 与 
System V IPC 对 象 相 比 , 这 种 方式 使 得 应 用 程序 能 够 更 加 容易 地 确定 何 时 可 以 安全 地 删除 一 个 对 象 。 

每 个 IPC 对 象 都 有 一 个 对 应 的 unlink 调用 ， 其 操作 类 似 于 应 用 于 文件 的 传统 的 unlinkO 
系统 调用 。unlink 调用 会 立即 删除 对 象 的 名 字 ， 然 后 在 所 有 进程 使 用 完 对 象 〈 即 当 引 用 计数 等 
于 0 时 ) 之 后 销毁 访 对 象 。 对 于 消息 队列 和 信和 号 量 来 讲 ， 这 意味 看 当 所 有 进程 都 关闭 对 象 之 
后 对 象 会 被 销毁 ;， 对 于 共享 内 存 来 讲 ， 当 所 有 进程 都 使 用 munmap0 解 除 与 对 象 之 间 的 映射 关 
系 之 后 就 会 销毁 该 对 象 。 

当 一 个 对 象 被 断 开 链接 之 后 , 指定 同一 个 对 象 名 的 IPC open 调用 将 会 引用 一 个 新 对 象 (在 
不 指定 O_CREAT 时 会 失败 )。 

与 System V IPC 一 样 ，POSIX IPC 对 象 也 拥有 内 核 持 久 性 。 对 象 一 旦 被 创建 ， 束 会 一 下 
存在 直到 被 断 开 链 接 或 系统 被 关闭 。 这 样 一 个 进程 束 能 够 创建 一 个 对 象 、 修 改 其 状态 ， 然 后 
退出 并 将 对 和 象 留 给 在 后 面 某 个 时 刻 局 动 的 一 些 进程 访问 。 
































通过 命令 行列 出 和 删除 POSIX IPC 对 象 


System V IPC 提供 了 两 个 命令 ipcs 和 ipcrm 来 列 出 和 删除 IPC 对 象 。 对 于 POSIX IPC 对 
象 来 讲 ， 不 存在 标准 的 命令 来 执行 类 似 的 任务 。 然 而 在 很 多 系统 上 ， 包 括 Linux, IPC 对 象 是 
在 一 个 挂 载 在 根 目 录 (O 下 某 处 的 真实 或 虚拟 文件 系统 中 实现 的 ， 因 此 可 以 使 用 标准 的 和 
rm 命令 来 列 出 和 删除 IPC 对 象 。(SUSv3 并 没有 规定 使 用 ls 和 rm 来 完成 这 些 任 务 。) 使 用 这 
些 命令 存在 的 主要 问题 是 POSIX IPC 对 象 名 以 及 它们 在 文件 系统 中 所 处 的 位 置 是 不 标准 的 。 

在 Linux E, POSIX IPC 对 象 位 于 挂 载 在 设置 了 粘 淖 位 的 目录 下 的 虚拟 文件 系统 中 。 这 个 
位 是 一 个 受 限 的 删除 标记 (15.4.5 节 )， 设 置 该 位 表示 非特 权 进 程 只 能 够 断 开 它 自 己 拥有 的 
POSIX IPC 对 象 的 链接 。 











在 Linux 上 编译 使 用 POSIX IPC 的 程序 


在 Linux 上 ， 使 用 POSIX IPC 机 制 的 程序 必须 要 与 实时 库 librt 链接 起 来 ， 这 可 以 通过 在 
cc 命令 中 指定 -lrt 选项 来 完成 。 





51.2 System V IPC 5 POSIX IPC 比较 


下 面 儿 个 章节 将 分 别 对 各 种 POSIX IPC 机 制 进行 介绍 ， 同 时 还 会 将 它们 与 其 在 System V 
中 的 对 应 机 制 进行 对 比 。 下 面 考 虑 这 两 种 IPC 之 间 的 一 些 常 规 比 较 。 

与 System V IPC 相 比 ，POSIX IPC 拥有 下 列 常 规 优 势 。 

e POSIX IPC 的 接口 比 System V IPC 接口 简单 。 

e POSIX IPC 模型 一 一 使 用 名 字 蔡 代 键 、 使 用 open. close 以 及 unlink 函数 一 一 与 传统 
的 UNIX 文件 模型 更 加 一 致 。 

。 POSIX IPC 对 象 是 引用 计数 的 。 这 束 简 化 了 对 象 删 除 ， 因 为 可 以 断 开 一 个 POSIX IPC 
对 象 的 链接 ， 并 且 知 道 当 所 有 进程 都 关闭 该 对 象 乙 后 对 象 驶 会 被 销毁 。 
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然而 System V IPC 具备 一 个 显著 的 优势 : 可 移植 性 。POSIX IPC 在 下 列 方面 的 移植 性 不 
如 System V IPC, 

e System V IPC 在 SUSv3 中 进行 了 规定 ， 并 且 几 乎 所 有 的 UNIX 实现 都 文 持 System V 
IPC. 而 与 之 相反 的 是 ， POSIX IPC 机 制 在 SUSv3 中 则 是 一 个 可 选 的 组 件 。 一 些 UNIX 
实现 并 不 文 持 〈 所 有 ) POSIX IPC 机 制 。 这 种 情况 可 以 通过 Linux 上 的 微观 世界 反映 
出 来 : POSIX 共享 内 存 从 内 核 2.4 开始 得 到 文 持 ， 完 整 的 POSIX 信号 量 实现 从 内 核 
2.6 开始 得 到 文 持 ，POSIX 消息 队列 从 内 核 2.6.6 开始 得 到 文 持 。 

e 尽管 SUSv3 Xf POSIX IPC 对 象 名 字 进 行 了 规定 ， 但 各 种 实现 仍然 采用 不 同 的 规则 来 
命名 IPC 对 象 。 这 些 差 异 使 得 程序 员 在 编写 可 移植 应 用 程序 时 需要 做 一 些 〈 很 少 ) K 
外 的 工作 。 

e POSIX IPC 的 各 种 细节 并 没有 在 SUSv3 中 进行 规定 ,特别 是 没有 规定 使 用 哪些 命令 来 
显示 和 删除 系统 上 的 IPC 对 象 。( 在 很 多 实现 上 使 用 的 是 标准 的 文件 系统 命令 ， 但 用 
来 标识 IPC 对 象 的 路 径 名 的 细节 信息 则 因 实 现 而 异 。) 





























51.3 总 结 


POSIX IPC 是 一 个 一 般 名 称 , 它 指 由 POSIX.1b 设计 来 取代 与 之 类 似 的 System V IPC 机 制 
的 三 种 IPC 机 制 一 一 消息 队列 、 信 号 量 以 及 共 圣 内 存 。 

POSIX IPC 接口 与 传统 的 UNIX 文件 模型 更 加 一 致 。IPC 对 象 是 通过 名 字 来 标识 的 ， 并 使 
用 open. close 以 及 unlink 等 操作 方式 与 相应 的 文件 相关 的 系统 调用 关 似 的 调用 来 管理 。 

POSIX IPC 提供 的 接口 在 很 多 方面 都 优 于 System V IPC ZH, fH POSIX IPC 可 移植 性 要 
比 System V IPC jÆ. 
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POSIX 消息 队列 


本 章 将 介绍 POSIX 消息 队列 ， 它 允许 进程 之 间 以 消息 的 形式 交换 数据 。POSIX 消息 队列 
与 System V 消息 队列 的 相似 之 处 在 于 数据 的 交换 单位 是 整个 消息 ， 但 它们 之 间 仍 然 存 在 一 些 
显著 的 差异 。 
e POSIX 消息 队列 是 引用 计数 的 。 只 有 当 所 有 当前 使 用 队列 的 进程 都 关闭 了 队列 之 后 才 
会 对 队列 进行 标记 以 便 删除 。 
e 每 个 System V 消息 都 有 一 个 整数 类 型 ， 并 日 通过 msgrcvO 可 以 以 各 种 方式 类 选择 消 
A. 5I JÉBSEBSI ECT)E, POSIX IHE — T OSHXIMLAG2R, JF BRE IRIAEPP RE 
按照 优先 级 顺序 排队 的 《以 及 接收 )。 
e POSIX 消息 队列 提供 了 一 个 特性 允许 在 队列 中 的 一 条 消息 可 用 时 异步 地 通知 进程 。 
POSIX 消息 队列 被 添加 到 Linux 中 的 时 间 相 对 来 讲 是 比较 短 的 ， 所 需 的 实现 文 持 在 内 核 
2.6.6 中 才 被 加 入 《此 外 ， 还 需要 glibc 2.3.4 或 之 后 的 版 本 )。 
POSIX 消息 队列 支持 是 一 个 通过 CONFIG POSIX MQUEUE 选项 配置 的 可 选 内 核 组 件 。 























52.1 概述 


POSIX 消息 队列 API "P 3E SZ PR ACRI P e 

e mdq_openO 函 数 创 建 一 个 新 消息 队列 或 打开 一 个 既 有 队列 ， 返 回 后 续 调 用 中 会 用 到 的 
消息 队列 描述 符 。 

e mq send0 函 数 癌 队列 写 入 一 条 消息 。 

e mq _ receive0 函 数 从 队列 中 读 取 一 条 消息 。 

e mq_closeO0 函 数 关 闭 进程 之 前 打开 的 一 个 消息 队列 。 

e mq_unlink() 函 数 庙 除 一 个 消 明 队列 名 并 当 所 有 进程 关闭 该 队列 时 对 队列 进行 标记 以 
便 删 除 。 

上 面 的 函数 所 完成 的 功能 是 相当 明显 的 。 此外, POSIX 消息 队列 API 还 具备 一 些 特 别 的 特性 。 

。 每 个 消 县 队列 都 有 一 组 关联 的 特性 ， 其 中 一 些 特性 可 以 在 使 用 mq_open0 创 建 或 打开 
队列 时 进行 设置 。 获 取 和 修改 队列 特性 的 工作 则 是 由 两 个 函数 来 完成 的 : mq getattr() 
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和 mq setattr(). 
e mq notifyOPR ZI AG VE — 4 XERE IR] 7 BA FUTE EB IQORLAI S TEE SG Ro 23 4€ 
消息 可 用 时 会 通过 发 送 一 个 信号 或 在 一 个 单独 的 线程 中 调用 一 个 函数 来 通知 进程 。 


52.2 打开、 天 闭 和 断 开 链 接 消息 队列 


本 下 将 介绍 用 来 打开 、 关 闭 和 删除 消息 队列 的 函数 。 





打开 一 个 消息 队列 
mq_openO 函 效 创 建 一 个 新 消 妃 队列 或 打开 一 个 既 有 队列 。 





#include «fcntl.h» /* Defines 0 * constants */ 
include «sys/stat.h» /* Defines mode constants */ 
include «mqueue.h» 


mqd t mq open(const char *mame, int oflag, ... 
/* mode t mode, struct mq attr *attr */); 





Returns a message queue descriptor on success, or (mqd. t) -1 on error 














name 参数 标识 出 了 消息 队列 ， 其 取 值 需要 遵循 51.1 市 中 给 出 的 规则 。 

oflag JE NERA, "THEE mq_openO 操 作 的 各 个 方面 。 表 52-1 对 这 个 掩 人 码 中 可 
以 包含 的 值 进行 了 总 结 。 

表 52-1: mq open() oflag 参数 的 位 值 








标 记 描 XR 
O CREAT 队列 不 存在 时 创建 队列 
O _ EXCL 与 O CREAT 一 起 排 它 地 创建 队列 
0_RDONLY 只 读 打 开 
0_WRONLY 只 与 打开 
O_RDWR 读 号 打开 
O NONBLOCK 以 非 阻 塞 醒 式 打开 





oflag 参数 的 其 中 一 个 用 途 是 ， 确 定 是 打开 一 个 既 有 队列 还 是 创建 和 打开 一 个 新 队列 。 如 果 
在 oflag 中 不 包含 O_CREAT， 那 么 将 会 打开 一 个 既 有 队列 。 如 采 在 oflag 中 包含 了 O_CREAT,， 
并 且 与 给 定 的 name 对 应 的 队列 不 存在 ， 那 么 怠 会 创建 一 个 新 的 空 队 列 。 如 果 在 oflag 中 同时 包 
含 O CREAT 和 O EXCL, 并 且 与 给 定 的 name 对 应 的 队列 已 经 存在 , 那么 mq open0 就 会 失败 。 

oflag 参数 还 能 够 通过 包含 O RDONLY、O WRONLY 以 及 O RDWR 这 三 个 值 中 的 一 个 
来 表明 调用 进程 在 消息 队列 上 的 访问 方式 。 

剩 下 的 一 个 标记 值 O NONBLOCK 将 会 导致 以 非 阻 堵 的 模式 打开 队列 。 如 果 后 续 的 
mq_receive() 或 mq_sendO 调 用 无 法 在 不 阻 至 的 情况 下 执行 ,那么 调用 就 会 立即 返回 EAGAIN £x. 

mq openO 通 常用 来 打开 一 个 既 有 消 恩 队列 ， 这 种 调用 只 需要 两 个 参数 ， 但 如 果 在 flags 
中 指定 了 O_CREAT， 那 么 束 还 需要 男 外 两 个 参数 : mode 和 attr。( 如 果 通 过 name 指定 的 队列 
已 经 和 存在， 那么 这 两 个 参数 会 侦 忽略 。〉 这 些 参数 的 用 法 如 下 。 

e mode 参数 是 一 个 位 掩 码 ， 它 指定 了 施加 于 新 消 恩 队列 之 上 的 权限 。 这 个 参数 可 取 的 
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位 值 与 文件 上 的 掩 码 值 ( 表 15-40. 是 一 样 的 ， 并 且 与 open0 一 样 ，mode 中 的 值 会 与 
进程 的 umask (15.4.6 W) 取 手 码 。 要 从 一 个 队列 中 恋 取 消息 (mq receiveO ) WU 
要 将 读 权限 赋予 相应 的 用 户 ， 要 向 队列 写 入 消息 Cmq_send0) 就 需要 写 权 限 。 
它 指定 了 新 消息 队列 的 特性 。 如 果 attr 为 NULL， 那 么 
将 使 用 实现 定义 的 默认 特性 创建 队列 。 在 52.4 节 中 将 会 对 mq attr 结构 进行 介绍 。 
mq_open0 在 成 功 结束 时 会 返回 一 个 消息 队列 描述 符 ， 它 是 一 个 类 型 为 mqd t 的 值 ， 在 后 
续 的 调用 中 将 会 使 用 它 来 引用 这 个 打开 着 的 消息 队列 。SUSv3 对 这 个 数据 类 型 的 唯一 约束 是 
它 不 能 是 一 个 数组 ， 即 需要 确保 这 个 类 型 是 一 个 能 在 赋值 语句 中 使 用 或 能 作为 函数 参数 传递 
的 的 类 型 。( 如 在 Linux E, mqd t 是 一 个 int, MÆ Solaris 上 将 其 定义 为 void*。) 
程序 清单 52-2 给 出 了 一 个 使 用 mq_open0 〇 的 例子 。 
fork()、exec() 以 及 进程 终止 对 消息 队列 描述 符 的 影响 
在 forkO 中 子 进 程 会 接收 其 父 进程 的 消息 队列 描述 符 的 副本 ， 并 且 这 些 描述 符 会 引用 同样 
的 打开 着 的 消息 队列 描述 。( 在 52.3 节 中 将 会 对 消息 队列 描述 进行 介绍 。) 子 进程 不 会 继承 其 
父 进程 的 任何 消息 通知 注册 。 
当 一 个 进程 执行 了 一 个 exec0 或 终止 时 ， 所 有 其 打开 的 消息 队列 描述 符 会 被 关闭 。 关 闭 消 
息 队 列 描述 符 的 结果 是 进程 在 相应 队列 上 的 消息 通知 注册 会 被 注销 。 
关闭 一 个 消息 队列 
mq_closeO 函 数 关闭 消息 队列 描述 符 mqdes。 





























include «mqueue.h» 


int mq close(mqd t mqdes); 


Returns 0 on success, or -1 on error 











如 果 调 用 进程 已 经 通过 mqdes 在 队列 上 注册 了 消息 通知 52.6 节 )， 那 么 通知 注册 会 自动 
被 删除 ， 并 且 另 一 个 进程 可 以 随后 向 该 队列 注册 消息 通知 。 

当 进程 终止 或 调用 exec0O 时 ,消息 队列 描述 符 会 被 自动 关闭 。 与 文件 描述 符 一 样 ， 应 用 程 
序 应 该 在 不 再 使 用 消息 队列 描述 符 的 时 候 显 式 地 关闭 消息 队列 描述 符 以 防止 出 现 进程 耗 尽 消 
息 队 列 描述 符 的 情况 。 

与 文件 上 的 close0 一 样 ， 关 闭 一 个 消息 队列 并 不 会 删除 该 队列 。 要 删除 队列 则 需要 使 用 
mq_unlink0， 它 是 unlinkO 在 消息 队列 上 的 版 本 。 


删除 一 个 消息 队列 


mq_unlinkO 函 数 删除 通过 name 标识 的 消息 队列 ， 并 将 队列 标记 为 在 所 有 进程 使 用 完 该 队列 
之 后 销毁 该 队列 (这 可 能 童 味 看 会 立即 删除 ， 前 提 是 所 有 打开 该 队列 的 进程 已 经 天 闭 了 该 队列 )。 
































#include «mqueue.h» 


int mq unlink(const char *name); 


Returns 0 on success, or - 1 on error 








程序 清单 52-1 未 了 mq_unlink() 的 用 法 。 
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程序 清单 52-1: 使 用 mq_unlink0) 断 开 一 个 POSIX 消息 队列 的 链接 
pnsg/pmsg unlink.c 
#include «mqueue.h» 
include "tlpi hdr.h" 
int 
main(int argc, char *argv[]) 


if (argc != 2 || stremp(argv[1], "--help") == 0) 
usageErr("%s mg-nameNn", argv[0]); 


if (mq unlink(argv[1]) == -1) 
errExit("mq unlink"); 
exit(EXIT. SUCCESS); 
} 


pnsg/pmsg unlink.c 


52.3 描述 他 和 消息 队列 之 间 的 关系 


消 朋 队列 插 述 符 和 打开 看 的 消 恩 队列 之 间 的 天 系 与 文件 插 述 从 和 打开 看 的 文件 插 述 和 从 之 间 的 
关系 类 似 〔 见 图 $S-2)。 消 县 队列 描述 符 是 一 个 进程 级 别 的 句柄 ， 它 引用 了 系统 层面 的 打开 看 的 消息 
队列 摘 述 表 中 的 一 个 条 目 ， 而 该 条 目 则 引用 了 一 个 消息 队列 对 象 。 岁 52-1 对 这 种 关系 进 行 了 描绘 。 














在 Linux E, POSIX 消息 队列 被 实现 成 了 虚拟 文件 系统 中 的 inode， 并 且 消 息 队 列 描述 符 
和 打开 着 的 消息 队列 描述 分 别 被 实现 成 了 文件 描述 符 和 打开 痢 的 文件 描述 。 然 而 SUSv3 没有 对 
实现 细 贡 进行 规定 ， 并 且 一 些 UNIX 实现 也 并 没有 采用 这 种 实现 方式 。 在 52.7 节 中 将 会 对 这 个 
话题 进行 讨论 ， 因 为 Linux 正 是 由 于 采用 了 这 种 实现 方式 才 得 以 提供 了 一 些 非 标准 的 特性 。 

















图 52-1 有 助 于 前 明 消 有 息 队列 摘 述 符 的 使 用 方面 的 细节 问题 (所 有 这 些 都 与 文件 摘 述 符 的 
使 用 类 似 )。 
进程 入 
消息 队列 描述 打开 消息 队列 描述 符 表 消息 队列 表 
F (系统 级 ) (系统 级 ) 
-下 | 消息 队列 (每 个 队列 的 信息 : 
l 消息 队列 属性 ; UID 
& GID; xfi Xl i$ s 
消息 数据 ) 
| 


/mq-q 


图 52-1: POSIX 消息 队列 的 内 核 数据 结构 之 间 的 关系 


消息 队列 描述 


消息 队列 描述 
符 的 指针 
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e 一 个 打开 的 消息 队列 描述 拥有 一 组 关联 的 标记 。SUSv3 只 规定 了 一 种 这 样 的 标记 ， 即 
NONBLOCK， 它 确定 了 LO 是 人 否 是 非 阻 塞 的 。 

。 两 个 进程 能 够 持 有 引用 同一 个 打开 的 消息 队列 描述 的 消息 队列 描述 符 《〈 图 中 的 描述 符 
x)。 当 一 个 进程 在 打开 了 一 个 消息 队列 之 后 调用 forkO 时 束 会 发 生 这 种 情况 。 这 些 描 
述 符 会 共享 O0 NONBLOCK 标记 的 状态 。 

。 两 个 进程 能 够 持 有 引用 不 同 消 息 队 列 描述 〈 它 们 引用 了 同一 个 消息 队列 ) 的 打开 的 消 
息 队 列 描述 (如 进程 A 中 的 描述 符 z 和 进程 B 中 的 描述 符 y 都 引用 了 /mq-r)。 当 两 个 
进程 分 别 使 用 mq_openO0 打 开 同 一 个 队列 时 就 会 发 生 这 种 情况 。 


52.4 消息 队列 特性 
mq open(). mq _sgetattrO 以 及 mq setattr PR ZI pz 52. "xe HIR mq attr 


结构 的 指针 。 这 个 结构 是 在 smqueue.h> 中 进行 定义 的 ， 其 形式 如 下 。 
struct mq attr { 








long mq flags; /* Message queue description flags: O or 
O NONBLOCK [mq getattr(), mq setattr()] */ 
long mq maxmsg; /* Maximum number of messages on queue 
[mq open(), mq getattr()] */ 
long mq msgsize; /* Maximum message size (in bytes) 
[mq open(), mq getattr()] */ 
long mq curmsgs; /* Number of messages currently in queue 


[ng getattr()] */ 

在 开始 深入 介绍 mq attr ATELA A ER HU PL EX. 

e 这 三 个 函数 中 的 每 个 函数 都 只 用 到 了 其 中 几 个 字段 。 上 面 给 出 的 结构 定义 中 的 注释 指 
出 了 各 个 函数 所 用 到 的 字段 。 

e 这 个 结构 包含 了 与 一 个 消 上 县 摘 述 符 相 关联 的 打开 的 消息 队列 摘 述 mq flags) 的 相关 
言 轧 以 及 该 描述 符 所 引用 的 队列 的 相关 信息 Cmq_maxmsg、mq _msgsize、mq_curmsgs)。 

o 有 其 中 一 些 字 段 中 包 仿 的 信息 在 使 用 mq open) 8] E B 7] I| t C ze iE Po T 
(mq maxmsg 和 mq_msgsize); 其 他 字段 则 会 返回 消 县 队列 描述 (mq flags) EH ELA 
列 &mq curmsgs) 的 当前 状态 的 相关 信息 。 


在 创建 队列 时 设置 消息 队列 特性 

在 使 用 mq_openO 创 建 消 息 队 列 时 可 以 通过 下 列 ma attr 字段 来 确定 队列 的 特性 。 

* mq maxmsg 字段 定义 了 使 用 mq_send0 问 消 居 队列 深 加 消 居 的 数量 上 限 , 其 取 值 必须 大 于 0。 

$ 其 取 值 必须 大 于 0. 

内 核 根据 这 两 个 值 来 确定 消 县 队列 所 需 的 最 大 内 存量 。 

mq maxmsg 和 mq msgsize 特性 是 在 消 恩 队列 被 创建 时 束 确 定 下 来 的 ， 并 且 之 后 也 无 法 
修改 这 两 个 特性 。 在 52.8 节 中 将 会 介绍 两 个 /proc 文件 ,它们 为 mq_maxmsg 和 mq msgsize f 
性 的 取 值 设 定 了 一 个 系统 层面 的 限制 。 

程序 清单 52-2 中 的 程序 为 mq_open0 函 数 提供 了 一 个 命令 行 界面 并 展示 了 在 mq openO 
中 如 何 使 用 mq attr 结构 。 

消息 队列 特性 可 以 通过 两 个 命令 行 参数 来 指定 : -m 用 于 指定 mq maxmsg. -s 用 于 指定 
mq mssgsize。 只 要 指定 了 其 中 一 个 选项 ， 那 么 一 个 非 NULL 的 attrp 2 XL d x53 
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mq_open()。 如 果 在 命令 行 中 只 指定 了 -m 和 -s 选项 中 的 一 个 ， 那 么 attrp 指 问 的 mq attr 结构 
中 的 一 些 学 段 束 会 取 默 认 值 。 如 来 两 个 选项 都 被 没有 被 指定 ， 那 么 在 调用 mq_openO 时 会 将 
attrp 指定 为 NULL， 这 将 会 导致 使 用 由 实现 定义 的 队列 特性 的 默认 值 来 创建 队列 。 


程序 清单 52-2: 创建 一 个 POSIX 消息 队列 


pmsg/pmsg create.c 


include «mqueue.h» 
include «sys/stat.h» 
include «fcntl.h» 
#include "tlpi hdr.h" 


static void 
usageError(const char *progName) 

fprintf(stderr, "Usage: Xs [-cx] [-m maxmsg] [-s msgsize] mq-name " 
"[octal-perms]Nn", progName); 


fprintf(stderr, " -C Create queue (0 CREAT)An"); 
fprintf(stderr, " -m maxmsg Set maximum # of messagesW"); 
fprintf(stderr, " -Ss msgsize Set maximum message size\n"); 
fprintf(stderr, " -X Create exclusively (0 EXCL)An"); 
exit(EXIT FAILURE); 

} 

int 

main(int argc, char *argv[]) 

1 


int flags, opt; 

mode t perms; 

mqd t mqd; 

struct mq attr attr, *attrp; 


attrp - NULL; 

attr.mq maxmsg - 50; 

attr.mq msgsize - 2048; 

flags - O RDWR; 

/* Parse command-line options */ 


while ((opt = getopt(argc, argv, "cm:s:x")) !- -1) { 
switch (opt) 1 
case 'c': 
flags |» O CREAT; 
break; 


case 'm': 
attr.mq maxmsg - atoi(optarg); 
attrp = &attr; 
break; 

case 's': 
attr.mq msgsize = atoi(optarg); 
attrp = &attr; 
break; 


case 'x': 


flags |- O EXCL; 
break; 
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default: 
usageError(argv[0]); 
} 
} 


if (optind >= argc) 
usageError(argv[0]); 


perms = (argc <= optind + 1) ? (S IRUSR | S IWUSR) : 
getInt(argv[optind + 1], GN BASE 8, "octal-perms"); 


mqd - mq open(argv[optind], flags, perms, attrp); 
if (mqd -- (mqd t) -1) 
errExit("mq open"); 


exit(EXIT SUCCESS); 


一 pmsg/pmsg create.c 


AX BUE AA P ETE 


mq getattr() EK ŽORE — P £1 E fi mqdes RRR A BA PI RRA TS BA, 9L] FH 
信息 的 mq attr 结构 。 








#include «mqueue.h» 


int mq getattr(mqd t mqdes, struct mq attr *attr); 


Returns 0 on success, or -1 on error 











除了 上 面 已 经 介绍 的 mq maxmsg 4 mq msgsize 字段 之 外 , attr 指 问 的 返回 结构 中 还 包含 
下 列 学 段 。 


mq flags 
这 些 是 与 描述 符 mqdes JHOXHX IIT 2F I8) A BA, V fS pin, CHEBUBELAR —n 


OINONBLOCK。、 这 个 标记 是 根据 mq openOW oflag 参数 来 初始 化 的 ， 并 且 使 用 mq. setattr() 
可 以 修改 这 个 标记 。 


mq curmsgs 

34 4 tT AE. ix fu E mq_getattr0 返 回 时 可 能 已 经 发 生 了 改变 ， 
提 是 存在 其 他 进程 从 队列 中 读 取 消息 或 向 队列 写 入 消息 。 

程序 清单 52-3 中 的 程序 使 用 了 mq_getattr0 来 获取 通过 命令 行 参数 指定 的 消息 队列 的 特 
性 ， 然 后 在 标准 输出 中 显示 这 些 特性 。 


序 清单 52-3: 获取 POSIX 消息 队列 特性 

















pmsg/pmsg getattr.c 


#include «mqueue.h» 
#include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


mqd t mqd; 
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struct mq attr attr; 


if (argc != 2 || stremp(argv[1], "--help") == 0) 
usageErr("%s mg-nameNn", argv[0]); 


mqd = mq open(argv[1], O RDONLY); 
if (mqd -- (mqd t) -1) 
errExit("mq open"); 


if (mq getattr(mqgd, &attr) == -1) 
errExit("mq getattr"); 


printf("Maximum # of messages on queue: %ld\n", attr.mq maxmsg); 
printf("Maximum message size: 4ldNn", attr.mq msgsize); 
printf("# of messages currently on queue: %ld\n", attr.mq curmsgs); 
exit(EXIT SUCCESS); 


pmsg/pmsg getattr.c 
下 面 的 shel 会 话 使 用 了 程序 清单 52-2 中 的 程序 来 创建 一 个 消息 队列 并 使 用 实现 定义 的 默 


认 值 来 初始 化 其 特性 〈 即 传 入 mq_open0 的 最 后 一 个 参数 为 NULL)， 然 后 使 用 程序 清单 52-3 
中 的 程序 来 显示 队列 特性 ， 这 样 就 能 够 看 到 Linux. 上 的 默认 设置 了 。 











$ ./pmsg create -cx /mq 
$ ./pmsg getattr /mq 
Maximum # of messages on queue: 10 


Maximum message size: 8192 
# of messages currently on queue: 0 
$ ./pmsg unlink /mq Remove message queue 


从 上 面 的 输出 中 可 以 看 出 Linux 上 mq. maxmsg 和 mq msgsize 的 默认 取 值 分 别 为 10 和 
8192, 


mq maxmsg 和 mq msgsize [SAU JBUEE A EKM EZRFRK. nDERTRÉSNCHIRE — 
和 者 需要 显 式 地 为 这 两 个 特性 选取 相应 的 值 ， 而 不 是 依赖 于 的 认 信 。 
修改 消息 队列 特性 


mq setattr() FK Zt Er E538 DA FIXE mqdes 相关 联 的 消息 队列 描述 的 特性 ， 并 可 选 地 
返回 与 消息 队列 有 关 的 信息 。 


#include «mqueue.h» 

















int mq setattr(mqd t mqdes, const struct mq attr *newattr, 
struct mq attr *oldattr); 


Returns 0 on success, or -1 on error 








mdq_setattrO 函 数 执行 下 列 任务 。 

e ČEH newattr 指 问 的 mq attr 结构 中 的 mq flags 字段 来 修改 与 描述 符 mqdes 相关 联 
的 消息 队列 描述 的 标记 。 

e 如 果 oldattr 不 为 NULL， 那 么 束 返 回 一 个 包含 之 前 的 消息 队列 摘 述 标记 和 消息 队列 特 
性 的 mq attr 结构 〈 即 与 mq_getattr0 执 行 的 任务 一 样 )。 

SUSv3 规定 使 用 mq_setattr0 能 够 修改 的 唯一 特性 是 O_NONBLOCK 标记 的 状态 。 
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为 支持 一 个 特定 的 实现 可 能 会 定义 其 他 可 修改 的 标记 或 SUSv3 后 面 可 能 会 增加 新 的 标 
记 ， 一 个 可 移植 的 应 用 程序 应 该 通过 使 用 mq getar 2K 3X HC mq flags 值 并 修改 
O NONBLOCK 位 来 修改 O_ NONBLOCK 标记 的 状态 以 及 调用 mq_setattr0 来 修改 mq flags ix 
Bi. WAH O_NONBLOCK 需要 编写 下 列 代码 : 


if (mq getattr(mqd, &attr) == -1) 
errExit("mq getattr"); 

attr.mq flags |- O NONBLOCK; 

if (mq setattr(mqd, &attr, NULL) == -1) 
errExit("mq getattr"); 





52.5 ”交换 消息 
本 节 将 介绍 用 来 回 队 列 发 送 消息 和 从 队列 中 接收 消息 的 函数 。 
52.5.1 发 送 消 息 


mq_send() 函 数 将 位 于 msg ptr 指 问 的 绥 冲 区 中 的 消息 添加 到 描述 符 mqdes 所 引用 的 消息 
队列 中 。 


#include «mqueue.h» 








int mq send(mqd t mqdes, const char *msg pir, size t msg len, 
unsigned int msg prio); 


Returns 0 on success, or -1 on error 


msg len 参数 指定 了 msg ptr 指 加 的 消息 的 长 度 , 其 值 必须 小 于 或 等 于 队列 的 mq msgsize 
特性 ， 否 则 mq_send0 就 会 返回 EMSGSIZE 错误 。 长 度 为 零 的 消息 是 允许 的 。 

每 条 消息 都 拥有 一 个 用 非 负 整数 表示 的 优先 级 ， 它 通过 msg prio 参数 指定 。 消 县 在 队 玖 
中 是 按照 优先 级 倒序 排列 的 《〈《 即 0 表示 优先 级 最 低 )。 当 一 条 消 肯 被 添加 a 到 队列 中 时 ， 它 会 被 
放置 在 队列 中 具有 相同 的 优先 级 的 所 有 消 恩 之 后 。 如 果 一 个 应 用 程序 无 需 使 用 消 恩 优先 级 ， 
那么 只 十 要 将 msg. prio 指定 为 0 即 可 。 


























本 章 开 头 部 分 提 及 过 System V 消 居 的 类 型 特性 的 功能 十 不 同 的 。 System V 消息 总 是 按 
照 FIFO 的 顺序 排列 ， 但 msgrcvO 能 够 按照 多 种 方式 来 选择 消息 : 按照 FIFO 的 顺序 、 根 据 
类 型 来 选择 、 或 者 选取 类 型 值 小 于 或 等 于 某 个 特定 值 的 消息 中 次 型 值 最 大 的 消 县 。 











SUSv3 允许 一 个 实现 为 消息 优先 级 规定 一 个 上 限 ， 这 可 以 通过 定义 常量 MQ PRIO MAX 
或 通过 规定 sysconf( SC MQ PRIO MAX) 的 返回 值 来 完成 。SUSv3 要 求 这 个 上 限 至 少 是 32 
( POSIX MQ PRIO MAX)， 即 优先 级 的 取 值 范围 至 少 为 0 到 31， 但 各 个 实现 规定 的 实际 取 
值 范围 则 存在 着 很 大 的 差 寞 ， 如 在 Linux 上 ， 这 个 种 量 值 为 32768， 而 在 Solaris 上 这 个 常量 
值 为 32， 在 Tru64 则 为 256. 

如 果 消 县 队列 已 经 满 了 《〈 即 已 经 达到 了 队列 的 mq_maxmsg 限制 )， 那 么 后 续 的 mq sendO 
调用 会 阻塞 直到 队列 中 存在 可 用 空间 为 止 或 者 在 O_ NONBLOCK 标记 起 作用 时 立即 失败 并 返 
回 EAGAIN 错误 。 

程序 清单 52-4 中 的 程序 为 mq_send0 函 数 提供 了 一 个 命令 行 界面 ,下 一 节 将 会 演示 如 何 使 
用 这 个 程序 。 
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程序 清单 52-4: 向 POSIX 消息 队列 写 入 一 条 消息 


pmsg/pmsg_send.c 
#include «mqueue.h» 
#include «fcntl.h» /* For definition of O NONBLOCK */ 
include "tlpi hdr.h" 


static void 
usageError(const char *progName) 


fprintf(stderr, "Usage: Xs [-n] name msg [prio]Wn", progName); 
fprintf(stderr, " -n Use O NONBLOCK flagNin"); 
exit(EXIT FAILURE); 


j 


int 
main(int argc, char *argv[]) 
i 

int flags, opt; 

mqd_t mqd; 

unsigned int prio; 


flags = O WRONLY; 

while ((opt = getopt(argc, argv, "n")) != -1) { 
switch (opt) 1 
case 'n': flags |= 0 NONBLOCK; break; 
default: usageError(argv[0]); 
} 

} 


if (optind + 1 >= argc) 
usageError(argv[0]); 


mqd - mq open(argv[optind], flags); 
if (mqd -- (mqd t) -1) 
errExit("mq open"); 
prio = (argc > optind + 2) ? atoi(argv[optind + 2]) : 0; 
if (mq send(mqd, argv[optind + 1], strlen(argv[optind + 1]), prio) == -1) 


errExit("mq send"); 
exit(EXIT SUCCESS); 


pmsg/pmsg send.c 


52.5.2 ”接收 消息 


mq receive() AZMA mqdes 引用 的 消 恩 队列 中 删除 一 条 优先 级 最 蜗 、 存 在 时 间 最 长 的 消 忆 
并 将 删除 的 消息 放置 在 msg ptr 指向 的 缓冲 区 。 


#include «mqueue.h» 














ssize t mq receive(mqd t mqdes, char *msg pir, size t msg lem, 
unsigned int *msg prio); 


Returns number of bytes in received message on success, or -1 on error 


调用 者 使 用 msg len 参数 来 指定 msg. ptr 指 癌 的 绥 剖 区 中 的 可 用 字数 。 
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人 不管 消 息 的 实际 大 小 是 什么 ，msg len (B) msg ptr 指 问 的 缓冲 区 的 大 小 ) 必须 要 大 于 或 
等 于 队列 的 mq msgsize 特性 ， 人 否则 mq receive R KKA] EMSGSIZE ix. WRA 
楚 一 个 队列 的 mq msgsize 特性 的 值 ， 那 么 可 以 使 用 mq_getattr0 来 获取 这 个 值 。(〈 在 一 个 包含 
多 个 协作 进程 的 应 用 程序 中 一 般 无 需 使 用 mq_getatr 中 ， 因 为 应 用 程序 通 第 能 够 提前 确定 队列 
的 mq msgsize 设置 。) 

WR msg prio 不 为 NULL， 那 么 接收 到 的 消息 的 优先 级 会 被 复制 到 msg. prio 指 问 的 位 置 处 。 

如 果 消 息 队 列 当 前 为 空 ， 那 么 mq receive) 会 阻塞 直到 存在 可 用 的 消息 或 在 
O NONBLOCK 标记 起 作用 时 会 立即 失败 并 返回 EAGAIN 错误 。( 管 道 束 不 存在 类 似 的 行为 ， 
即 当 一 端 不 存在 写 者 时 谈 者 不 会 看 到 文件 结束 。) 

程序 清单 52-5 中 的 程序 为 mq_receive0 函 数 提供 了 一 个 命令 行 界面 ， 在 usageErrorü PS Zt 
中 给 出 了 这 个 程序 的 命令 格式 。 

下 面 的 shell 会 话 演示 了 程序 清 蛙 52-4 和 程序 清单 52-5 中 的 程序 的 用 法 。 首 先 创 建 了 一 
个 消息 队列 并 癌 其 发 送 了 一 些 具备 不 同 优先 级 的 消息 。 

$ ./pmsg create -cx /mq 

$ ./pmsg send /mq msg-a 5 


$ ./pmsg send /mq msg-b O 
$ ./pmsg send /mq msg-c 10 


然后 执行 一 系列 命令 来 从 队列 中 接收 消息 。 



































$ ./pmsg receive /mq 

Read 5 bytes; priority - 10 
msg-c 

$ ./pmsg receive /mq 

Read 5 bytes; priority - 5 
msg-a 

$ ./pmsg receive /mq 

Read 5 bytes; priority - O 
msg-b 


从 上 面 的 输出 中 可 以 看 出 ， 消 恩 的 读 取 是 控 照 优先 级 来 进行 的 。 
此 刻 ， 这 个 队列 是 空 的 。 当 再 次 执行 阻 窟 式 接 收 时 ， 操 作 束 会 阻 禾 。 


$ ./pmsg receive /mq 
Blocks; we type Control-C to terminate the program 


尺 一 方面 ， 如 果 执 行 了 一 个 非 阻塞 接收 ， 那 么 调用 融会 立即 返回 一 个 失败 状态 。 


$ ./pmsg receive -n /mq 
ERROR [EAGAIN/EWOULDBLOCK Resource temporarily unavailable] mq receive 


程序 清单 52-5: M POSIX 消息 队列 中 读 取 一 条 消息 
pmsg/pmsg_receive.c 
#include «mqueue.h» 


#include «fcntl.h» /* For definition of O NONBLOCK */ 
#include "tlpi hdr.h" 


static void 
usageError(const char *progName) 


fprintf(stderr, "Usage: Xs [-n] name\n", progName); 
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fprintf(stderr, " -n Use O NONBLOCK flagNin"); 
exit(EXIT FAILURE); 


j 


int 
main(int argc, char *argv[]) 


int flags, opt; 
mqd t mqd; 

unsigned int prio; 
void *buffer; 

struct mq attr attr; 
ssize t numRead; 


flags - O RDONLY; 
while ((opt = getopt(argc, argv, "n")) !- -1) { 
switch (opt) 1 


case 'n': flags |= O NONBLOCK; break; 
default: usageError(argv[0]); 
} 


if (optind >= argc) 
usageError(argv[0]); 


mqd = mq open(argv[optind], flags); 
if (mqd -- (mqd t) -1) 
errExit("mq open"); 


if (mq getattr(mqgd, 8&attr) == -1) 
errExit("mq getattr"); 


buffer - malloc(attr.mq msgsize); 
if (buffer -- NULL) 
errExit("malloc"); 
numRead = mq receive(mqd, buffer, attr.mq msgsize, 8&prio); 
if (numRead -- -1) 
errExit("mq receive"); 


printf("Read %ld bytes; priority = %u\n", (long) numRead, prio); 

if (write(STDOUT FILENO, buffer, numRead) == -1) 
errExit("write"); 

write(STDOUT FILENO, "An", 1); 


exit(EXIT SUCCESS); 


pnsg/pmsg receive.c 


52.5.8. 在 发 送 和 接收 消息 时 设置 超时 时 间 
mq timedsend() 和 mq timedreceiveO K= mq send0 和 mq receiveO 儿 乎 是 完全 一 样 的 ， 
它们 之 间 唯 一 的 差别 在 于 如 果 操 作 无 法 立即 被 执行 ， 并 且 该 消息 队列 摘 述 上 的 
O NONBLOCK 标记 不 起 作用 ， 那 么 abs timeout 参数 就 会 为 调用 阻塞 的 时 间 指 定 一 个 上 限 。 
#define XOPEN SOURCE 600 


#include <mqueue.h> 
#include <time.h> 
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int mq timedsend(mqd t mqdes, const char *msg pir, size t msg len, 
unsigned int msg prio, const struct timespec *abs (timeout); 


Returns 0 on success, or - 1 on error 


ssize t mq timedreceive(mqd t mqdes, char *msg ptr, size t msg len, 
unsigned int *msg prio, const struct timespec *abs (T meoul); 


Returns number of bytes in received message on success, or -1 on error 











abs timeout 参数 是 一 个 timespec 结构 (23.4.2 节 )， 它 将 超时 时 间 描 述 为 自 新 纪元 到 现在 
的 一 个 绝对 值 ， 其 单位 为 秒 数 和 纳 秒 数 。 要 指定 一 个 相对 超时 则 可 以 使 用 clock_gettime() 来 获 
取 CLOCK REALTIME 时 钟 的 当前 值 并 在 该 值 上 加 上 所 需 的 时 间 量 来 生成 一 个 恰当 初始 化 过 
HJ timespec 结构 。 

如 果 mq_timedsend0 或 mq_timedreceiveO 调 用 因 超 时 而 无 法 完成 操作 , 那么 调用 就 会 失败 
并 返回 ETIMEDOUT 错误 。 

在 Linux 上 将 abs timeout 指定 为 NULL 表示 永远 不 会 超时 ,但 这 种 行为 并 没有 在 SUSv3 
中 得 到 规定 ， 因 此 可 移植 的 应 用 程序 不 应 该 依赖 这 种 行为 。 

mq timedsend() 和 mq timedreceive() 函 数 最 初 源 自 POSIX.1d (1999), 所 有 UNIX 实现 都 没 
有 提供 这 两 个 函数 。 
































52.6 消息 通知 


POSIX 消息 队列 区 别 于 System V 消息 队列 的 一 个 特性 是 POSIX 消息 队列 能 够 接收 之 前 
为 空 的 队列 上 有 可 用 消息 的 卉 步 通 知 〈 即 队列 从 衬 变 成 了 非 宇 )。 这 个 特性 意味 痢 已 经 无 需 执 
行 一 个 阻 夺 的 调用 或 将 消 县 队列 描述 符 标 记 为 非 阻塞 并 在 队列 上 定期 执行 mq_receiveO 调 用 
Cu") 了 ， 因 为 一 个 进程 能 够 请 求 消息 到 达 通 知 ， 然 后 继续 执行 其 他 任务 直到 收 到 通知 为 止 。 
进程 可 以 选择 通过 信和 号 的 形式 或 通过 在 一 个 单独 的 线程 中 调用 一 个 函数 的 形式 来 接收 通知 。 

POSIX 消息 队列 的 通知 特性 与 23.6 节 中 介绍 的 POSIX 定时 各 通知 工具 类 似 ,( 这 两 组 API 
都 源 自 POSIX.lb。) 

mq_notifyO 函 数 注册 调用 进程 在 一 条 消息 进入 描述 符 mqdes 引用 的 空 队列 时 接收 通知 。 




















#include «mqueue.h» 


int mq notify(mqd t mqdes, const struct sigevent *notification); 


Returns 0 on success, or -1 on error 








notification 参数 指定 了 进程 接收 通知 的 机 制 。 在 深入 介绍 notification 参数 的 细 市 之 前 ， 
有 头 消息 通知 需要 注意 以 下 几 点 。 

e 在 任何 一 个 时 刻 都 只 有 一 个 进程 “注册 进程 ”) 能 够 问 一 个 特定 的 消息 队列 注册 接收 
通知 。 如 果 一 个 消息 队列 上 已 经 存在 注册 进程 了 ， 那 么 后 续 在 该 队列 上 的 注册 请 求 将 
会 失败 (mq notify0 返 回 EBUSY 错误 )。 

e 只 有 当 一 条 新 消息 进入 之 前 为 至 的 队列 时 注册 进程 才 会 收 到 通知 。 如 果 在 注册 的 时 候 队 
列 中 已 经 包含 消息 ， 那 么 只 有 当 队 列 被 清空 之 后 有 一 条 新 消息 达到 之 时 才 会 发 出 通知 。 

e 当 问 注册 进程 友 送 了 一 个 通知 之 后 束 会 删除 注册 信息 ,之 后 任何 进程 束 能 够 回 队 列 注 
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册 接 收 通知 了 。 换 句 话 说， 只 要 一 个 进程 想 要 持续 地 接收 通知 ， 那 么 它 就 必须 要 在 每 
次 接收 到 通知 之 后 再 次 调用 mq_notify0 来 注册 自己 。 

。 注册 进程 只 有 在 当前 不 存在 其 他 在 该 队列 上 调用 mq_receive0 而 发 生 阻 塞 的 进程 时 才 
会 收 到 通知 。 如 果 其 他 进程 在 mq receiveO 8] H PÆ, MWA VAEREDREBUB R, 
注册 进程 会 保持 注册 状态 。 

e 一 个 进程 可 以 通过 在 调用 mq_notifyO 时 传 入 一 个 值 为 NULL 的 notification 参数 来 撤 
销 上 自己 在 消息 通知 上 的 注册 信息 。 

在 23.6.1 节 中 已 经 对 notification 参数 的 类 型 sigevent 结构 进行 了 介绍 。 下 面 给 出 的 是 该 

结构 的 一 个 简化 版 本 ， 它 只 列 出 了 与 mq_notifyO 相 关 的 字段 。 


union sigval { 














int sival int; /* Integer value for accompanying data */ 
void *sival ptr; /* Pointer value for accompanying data */ 
h 
struct sigevent { 
int sigev notify; /* Notification method */ 
int sigev signo; /* Notification signal for SIGEV SIGNAL */ 
union sigval sigev value; /* Value passed to signal handler or 
thread function */ 
void (*sigev notify function) (union sigval); 
/* Thread notification function */ 
void *sigev notify attributes; /* Really 'pthread attr 七 */ 
h 
这 个 结构 的 sigev. notify 字段 将 会 被 设置 成 下 列 值 中 的 一 个 。 
SIGEV NONE 





注册 这 个 进程 接收 通知 ， 但 当 一 条 消 居 进入 之 前 为 容 的 队列 时 不 通知 该 进程 。 与 往 肖 一 
样 ， 当 新 消息 进入 空 队列 之 后 注册 信息 会 被 删除 。 
SIGEV SIGNAL 

通过 生成 一 个 在 sigev. signo 字段 中 指定 的 信号 来 通知 进程 。 如 果 sigev signo 是 一 个 实时 
信号 ， 那 么 sigev value 字段 将 会 指定 信号 都 市 的 数据 (22.8.1 市 )。 通 过 传 入 信和 与 处 理 器 的 
siginfo t 结构 中 的 si value 字段 或 通过 调用 sigwaitinfo0 或 sigtimedwait() 返 回 值 能 够 取得 这 部 
分 数据 。siginfo t 结构 中 的 下 列 凶 段 也 会 被 十 充 : si code, HEA SI MESGQ; si signo, H 
值 是 信号 编号 ; Si_pid， 其 值 是 发 送 消 县 的 进程 的 进程 ID; 以 及 si uid, HE ERIS A E 
程 的 真实 用 户 ID。(si_pid 和 si uid 字段 在 其 他 大 多 数 实 现 上 不 会 被 设置 。) 
SIGEV THREAD 

通过 调用 在 sigev notify function "PJRXEHJPRZICKOBL AGERE, SUB E E ANN RER TVA 
PRA TE. sigev notify attributes 字段 可 以 为 NULL 或 是 一 个 指 同 定义 了 线程 的 特性 的 pthread __ 
attr t 结构 的 指针 (29.8 F). sigev value 中 指定 的 联合 sigval 值 将 会 作为 参数 传 入 这 个 函数 。 


52.6.1 通过 信号 接收 通知 
程序 清单 52-6 提供 了 一 个 使 用 信和 号 来 进行 消息 通知 的 例子 。 这 个 程序 执行 了 下 列 任务 。 
1. 以 非 阻塞 模式 打开 了 一 个 通过 命令 行 指定 名 称 的 消息 队列 由 ， 确 定 了 该 队列 的 
mq msgsize 特性 的 值 包 ， 并 分 配 了 一 个 大 小 为 该 值 的 缓冲 区 来 接收 消息 G@)。 
2. 阻塞 通知 信号 〈SIGUSR1) 并 为 其 建立 一 个 处 理 器 多 。 















































第 52 章 ”POSIX 消息 队列 887 


异步 社区 会 员 flyman150(2410757683@qq.com) EF 尊重 版 权 





3. 首次 调用 mq_notify0 来 注册 进程 接收 消息 通知 二 )。 

4. 执行 一 个 无 限 循环 ， 在 循环 中 执行 下 列 任务 。 

(a) 调用 sigsuspendO， 该 函数 会 解除 通知 信号 的 阻 窟 状态 并 等 行 卫 到 信和 写 被 捕获 (@)。 从 这 个 
系统 调用 中 人 妈 回 表示 已 经 友 生 了 一 个 消 肯 通知 。 此 刻 ， 进 程 会 撤销 消 因 通知 的 注册 信息 。 

(b) 调用 mq_notifyO 重 新 注册 进程 接收 消息 通知 \O。 

(c) 执行 一 个 while 循环 从 队列 中 尽 可 能 多 地 读 取 消息 以 便 清 空 队列 人)。 


程序 清单 952-6: 通过 信号 接收 消息 通知 








pmsg/mq_notify sig.c 
#include «signal.h» 
#include «mqueue.h» 
#include «fcntl.h» /* For definition of O NONBLOCK */ 
include "tlpi hdr.h" 


#define NOTIFY SIG SIGUSR1 


static void 
handler(int sig) 


/* Just interrupt sigsuspend() */ 


int 
main(int argc, char *argv[]) 


struct sigevent sev; 

mqd t mqd; 

struct mq attr attr; 

void *buffer; 

ssize t numRead; 

sigset t blockMask, emptyMask; 
struct sigaction sa; 


if (argc != 2 || stremp(argv[1], "--help") == 0) 
usageErr("%s mg-nameNn", argv[0]); 


(D nmqd = mq open(argv[1], O RDONLY | O NONBLOCK); 
if (mqd -- (mqd t) -1) 
errExit("mq open"); 


© if (mq_getattr(mqd, &attr) == -1) 
errExit("mq getattr"); 


© buffer = malloc(attr.mq_msgsize); 
if (buffer == NULL) 
errExit("malloc"); 


(4) sigemptyset (&blockMask); 
sigaddset(&blockMask, NOTIFY SIC); 
if (sigprocmask(SIG BLOCK, &blockMask, NULL) -- -1) 
errExit("sigprocmask"); 
sigemptyset(8sa.sa mask); 
sa.sa flags = O0; 
sa.sa handler - handler; 
if (sigaction(NOTIFY SIG, &sa, NULL) -- -1) 
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errExit("sigaction"); 


(5) sev.sigev notify - SIGEV SIGNAL; 
sev.sigev signo - NOTIFY SIG; 
if (mq notify(mgd, &sev) == -1) 
errExit("mq notify"); 


sigemptyset(&emptyMask); 


for (55) 1 
(6) sigsuspend(&emptyMask); /* Wait for notification signal */ 
o if (mq notify(mqd, &sev) == -1) 


errExit("mq notify"); 


(8) while ((numRead = mq receive(mqd, buffer, attr.mq msgsize, NULL)) >= O) 
printf("Read %ld bytes\n", (long) numRead); 


if (errno !- EAGAIN) /* Unexpected error */ 
errExit("mq receive"); 


pnsg/mq notify sig.c 








在 程序 清单 52-6 中 的 程序 中 存在 很 多 方面 值得 详细 解释 。 

。 程序 阻塞 了 通知 信号 并 使 用 sigsuspendO 来 等 每 该 信和 与 ， 而 没有 使 用 pause), KEN 
了 防止 出 现 程序 在 执行 for 循环 中 的 其 他 代码 ( 即 没有 因 等 得 信号 而 阻塞 ) 时 错过 信 
写 的 情况 ,如 果 发 生 了 这 种 情况 ,并 且 使 用 了 pause0 来 等 每 信和 与 ,那么 下 次 调用 pause) 
时 会 阻塞 ， 即 使 系统 已 经 发 出 了 一 个 信号。 

。 程序 以 非 阻 堵 模 式 打 开 了 队列 ,并 且 当 一 个 通知 发 生 之 后 使 用 一 个 while 循环 来 读 
取 队 列 中 的 所 有 消息 。 通 过 这 种 方式 来 清空 队列 能 够 确保 当 一 条 新 消息 到 达 之 后 
会 产生 一 个 新 通知 。 使 用 非 阻 于 模式 意味 看 while 循环 在 队列 被 清空 之 后 了 驶 会 终 
止 Cmgq _ receive0O 会 失败 并 返回 EAGAIN 错误 )。( 这 种 做 法 与 63.1.1 节 中 介绍 的 采 
用 边界 触发 VO 通知 的 非 阻塞 VO 类 似 , 而 这 里 之 所 以 采用 这 种 做 法 的 原因 也 是 类 
似 的 。) 

e 在 for 循环 中 比较 重要 的 一 点 是 在 读 取 队列 中 的 所 有 消 晨 之 前 重 狐 注册 接收 消 忆 通 
A. AAA ORE. WF PB B: 队列 中 的 所 有 消息 都 被 谈 取 了 ，while [fff 
环 终止 ; 画 一 个 消 县 被 添 加 到 了 队列 中 ; mq_notify0 被 调用 以 重新 注册 接收 消 恩 通知 。 
此 记 ， 系 统 将 不 会 产生 新 的 通知 信号 ， 因 为 队列 已 经 非 衬 了 ， 其 结果 是 程序 在 下 次 调 
用 sigsuspendO IT Z zK X6 [H.E « 


52.6.2 ”通过 线程 接收 通知 
程序 清单 52-7 提供 了 一 个 使 用 线程 来 发 布 消息 通知 的 例子 。 这 个 程序 与 程序 清单 52-6 中 
的 程序 具备 一 些 共同 的 设计 特点 。 
e 当 消 息 通 知 发 生 时 ， 程 序 会 在 清空 队列 之 前 重新 局 用 通知 @)。 
e 采用 了 非 阻塞 模式 使 得 在 接收 到 一 个 通知 之 后 可 以 在 无 需 阻 蹇 的 情况 下 完全 清 衬 
队列 (6)。 
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程序 清单 02-7: 通过 线程 来 接收 消息 通知 


pmsg/mq_notify thread.c 


#include <pthread.h> 

#include <mqueue.h> 

#include «fcntl.h» /* For definition of O NONBLOCK */ 
#include "tlpi hdr.h" 


static void notifySetup(mqd t *mqdp); 


static void /* Thread notification function */ 
(D threadFunc(union sigval sv) 


| 


ssize t numRead; 
mqd t *mqdp; 

void *buffer; 

struct mq attr attr; 


mqdp - sv.sival ptr; 


if (mq getattr(*mqdp, &attr) == -1) 
errExit("mq getattr"); 


buffer - malloc(attr.mq msgsize); 
if (buffer -- NULL) 
errExit("malloc"); 


D notifySetup(mqdp); 


while ((numRead = mq receive(*mqdp, buffer, attr.mq msgsize, NULL)) »- O) 
printf("Read Xld bytes Wn", (long) numRead); 


if (errno !- EAGAIN) /* Unexpected error */ 
errExit("mq receive"); 


free(buffer); 
pthread exit(NULL); 


j 


static void 
notifySetup(mqd t *mqdp) 
{ 


struct sigevent sev; 


G) sev.sigev notify = SIGEV THREAD; /* Notify via thread */ 
sev.sigev notify function - threadFunc; 
sev.sigev notify attributes - NULL; 
/* Could be pointer to pthread attr t structure */ 
© sev.sigev_value.sival_ptr = mqdp; /* Argument to threadFunc() */ 


if (mq notify(*mqdp, &sev) == -1) 


errExit("mq notify"); 
} 


int 
main(int argc, char *argv[]) 


mqd t mqd; 


if (argc != 2 || stremp(argv[1], "--help") == 0) 
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usageErr("%s mq-nameWn", argv[0]); 
(5 mqd = mq open(argv[1], O RDONLY | O NONBLOCK) ; 
if (mqd -- (mqd t) -1) 


errExit("mq open"); 


(6) notifySetup(&mqd); 
pause(); /* Wait for notifications via thread function */ 


pnsg/mq notify thread.c 





有 关 程 序 清 单 52-7 中 的 程序 的 设计 还 需要 注意 以 下 几 点 。 

e 程序 通过 一 个 线程 来 请 求 通知 需要 将 传 入 mq_notify() 的 sigevent 结构 的 sigev_notify 
字段 的 值 指 定 为 SIGEV THREAD 。 线 程 的 司 动 函数 threadFunc() 是 通过 
sigev notify function 字段 来 指定 的 @)。 

e 在 局 用 消 胃 通知 之 后 ， 主 程序 会 永远 中 止 @); 定时 需 通 知 是 通过 在 一 个 单独 的 线程 中 
调用 threadFuncO2K TRO. 

。 本 来 可 以 通过 将 消息 队列 描述 符 md 变 成 一 个 全 局 变量 使 之 对 threadFuncO 可 见 ， 但 
这 里 采用 了 一 种 不 同 的 做 法 : 将 消息 队列 摘 述 符 的 地 址 放 在 了 传 给 mq_notify0 的 
sigev value.sival ptr 学 段 中 由 。 当 后 面 调 用 threadFuncO 时 ， 这 个 参数 会 作为 其 参数 被 
传 入 到 该 函数 中 。 

















必须 要 把 指向 消息 队列 描述 符 的 指针 赋 给 sigev value.sival ptr. 而 不 是 把 描述 符 本 身 ( 可 
能 需要 某 种 转换 ) 赋 给 Sigev_value.sival ptr， 因 为 SUSv3 除了 规定 它 不 是 一 个 数组 类 型 之 外 
并 没有 对 其 性 质 和 用 来 表示 mad. t 数据 类 型 的 类 型 大 小 予以 规定 。 


52.7 Linux 特有 的 特性 


POSIX 消息 队列 在 Linux 上 的 实现 提供 了 一 些 非 标准 的 却 相 当 有 用 的 特性 。 





通过 命令 行 显示 和 删除 消息 队列 对 象 


在 51 革 中 提 人 到 过 POSIX IPC 对 象 被 实现 成 了 虚拟 文件 系统 中 的 文件 ， 并 且 可 以 使 用 ls 
和 rm 来 列 出 和 删除 这 些 文件 。 为 列 出 和 删除 POSIX 消息 队列 就 必须 要 使 用 形 如 下 面 的 命令 
来 将 消息 队列 挂 载 到 文件 系统 中 。 

# mount -t mqueue source target 

source 可 以 是 任意 一 个 名 字 《〈 通 币 将 其 指定 为 字符 种 none)， 其 唯一 的 意义 是 它 将 出 现在 
/proc/mounts 中 并 且 mount 和 df 命令 会 显示 出 这 个 名 学 target 是 消息 队列 文件 系统 的 挂 载 点 。 

下 面 的 shell 会 话 显示 了 如 何 挂 载 消 息 队 列 文件 系统 和 显示 其 内 容 。 首 先 为 文件 系统 创建 
一 个 挂 载 点 并 挂 载 它 。 


$ su Privilege is required for mount 
Password: 

# mkdir /dev/mqueue 

# mount -t mqueue none /dev/mqueue 

$ exit Terminate root shell session 


接 大 显示 狐 挂 载 在 /proc/mounts 中 的 记录 ， 然 后 显示 挂 载 目录 上 的 权限 。 
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$ cat /proc/mounts | grep mqueue 

none /dev/mqueue mqueue rw O O 

$ ls -ld /dev/mqueue 

drwxrwxrwt 2 root root 40 Jul 26 12:09 /dev/mqueue 


在 ls MKII Ha FP i e T3 HE] — RC TH Ae BA XC S DRE ERNS ELLA ER HKA 
Tisi. C ls 的 输出 中 的 other-execute 权限 字段 中 有 一 个 1 就 可 以 看 出 这 一 点 。) 这 意味 着 非 
特权 进程 上 只 能 在 它 所 拥有 的 消息 队列 上 执行 断 开 链接 的 操作 。 

接 看 创建 一 个 消息 队列 ,使 用 ls 来 表明 它 在 文件 系统 中 是 可 见 的， 然后 删除 该 消 明 队列 。 

$ ./pmsg create -c /newq 

$ ls /dev/mqueue 


newq 
$ rm /dev/mqueue/newq 


AX BUR A BA PI BS TR X fs f 
RJ VÀ iz TR SS BA PU ARRERA, EEMS T ERER TH ASA PU 











的 相关 信息 。 
$ ./pmsg create -c /mq Create a queue 
$ ./pmsg send /mq abcdefg Write 7 bytes to the queue 
$ cat /dev/mqueue/mq 
OSIZE:7 NOTIFY:O SIGNO:0 NOTIFY PID:O 


QSIZE FEES BLA BA 9] P PPS ŽE APTA IR BJ Bx US A AMHON. And 
NOTIFY PID 为 非 零 ， 那 么 进程 ID 为 该 值 的 进程 已 经 向 该 队列 注册 接收 消息 通知 了 ， 剩 下 的 
学 段 则 提供 了 与 这 种 通知 相关 的 信息 。 

。 NOTIFY 是 一 个 与 其 中 一 个 sigev notify 常量 对 应 的 值 ， 0 表示 SIGEV SIGNAL, 1 

表示 SIGEV. NONE, 2 表示 SIGEV. THREAD. 

e 如 果 通 知 方式 是 SIGEV. SIGNAL, 那么 SIGNO 字段 指出 了 哪个 信和 号 会 用 来 分 发 消息 通知 。 

下 面 的 shell 会 话 对 这 些 字 段 中 包含 的 信息 进行 了 说 明 。 














$ ./mq notify sig /mq & Notify using SIGUSR1 (signal 10 on x86) 
[1] 18158 

$ cat /dev/mqueue/mq 

OSIZE:7 NOTIFY:O SIGNO:10 NOTIFY PID:18158 

$ kill %1 

[1] Terminated ./mq_notify_sig /mq 

$ ./mq_notify_thread /mq & Notify using a thread 

[2] 18160 

$ cat /dev/mqueue/mq 

OSIZE:7 NOTIFY:2 SIGNO:0 NOTIFY PID:18160 


使 用 另 一 种 MO 模型 操作 消息 队列 

在 Linux 实现 上 , 消 晨 队列 摘 述 符 实际 上 是 一 个 文件 揪 述 符 ， 因 此 可 以 使 用 VO 多 路 复 用 
系统 调用 (select0 和 pollQ) 或 epoll API 来 监控 这 个 文件 捅 述 符 。( 有 关 这 些 API 的 更 多 细节 
请 参考 63 章 。) 这 样 就 能 够 避免 在 使 用 System V 消息 队列 时 同时 等 待 一 个 消息 队列 和 一 个 文 
件 描 述 符 上 的 输入 的 困难 局 面 (参见 46.9 节 ) 的 出 现 。 但 这 项 特性 不 是 标准 特性 ，SUSv3 并 
没有 要 求 将 消息 队列 描述 符 实 现成 文件 描述 符 。 


52.8 消息 队列 限制 


SUSv3 为 POSIX 消息 队列 定义 了 两 个 限制 。 
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MQ PRIO MAX 

在 52.5.1 中 已 经 对 这 个 限制 进行 了 介绍 ， 它 定义 了 一 条 消息 的 最 大 优先 级 。 
MQ OPEN MAX 

一 个 实现 可 以 定义 这 个 限制 来 指明 一 个 进程 最 多 能 打开 的 消息 队列 数量 。SUSv3 要 求 这 
个 限制 最 小 为 POSIX MQ OPEN MAX (8). Linux 并 没有 定义 这 个 限制 ， 相 反 ， 由 于 Linux 
将 消息 队列 描述 符 实 现成 了 文件 摘 述 符 (52.7 市 )， 因 此 适用 于 文件 搬 述 和 从 的 限制 将 适用 于 消 
县 队列 摘 述 符 。( 换 名 话说， 在 Linux 上 ， 每 个 进程 以 及 系统 所 能 打开 的 文件 摘 述 符 的 数量 限 
制 实际 上 会 应 用 于 文件 描述 符 数 量 和 消息 队列 描述 符 数 量 之 和 。) 更 多 有 关 适 用 的 限制 的 细节 
信息 请 参考 36.3 节 中 对 RLIMIT NOFILE 资源 限制 的 讨论 。 

除了 上 面 列 出 的 由 SUSv3 规定 的 限制 之 外 ，Linux 还 提供 了 一 些 /proc 文件 来 查看 和 修改 〈 需 
具备 特权 ) 控制 POSIX 消息 队列 的 使 用 的 限制 。 下 面 这 三 个 文件 位 于 /proc/sys/fs mqueue 目录 中 。 


msg max 
这 个 限制 为 狐 消 恩 队 列 的 mq_maxmsg 特性 的 取 值 规定 了 一 个 上 限 (即使 用 mq_open0 创 建 队 
列 时 attrmq maxmsg 字段 的 上 限 值 ), (这 个 限制 的 默认 值 是 10, 最 小 值 是 1 (在 早 于 2.628 的 内 核 
中 是 10)， 最 大 值 由 内 核 第 量 HARD_MSGMAX 定义 ,该 帅 量 的 值 是 通过 公式 (131072 / sizeof(void *)) 
计算 得 来 的 ， 在 Linux/x86-32 上 其 值 为 32768。 当 一 个 特权 进程 (CAP_SYS RESOURCE) 调 
用 mq_openO 时 msg max 限制 会 被 忽略 , 但 HARD MSGMAX 仍然 担当 看 attr.mq maxmsg 的 
EBREHE. 
msgsize max 
这 个 限制 为 非特 权 进 程 创 建 的 新 消息 队列 的 mq. msgsize 特性 的 取 值 规 定 了 一 个 上 限 ( 即 
使 用 mq_openO 创 建 队列 时 attr.mq_msgsize 字段 的 上 限 值 )。 (这 个 限制 的 默认 值 是 8192， 最 小 
(EE 128 CEET 2.628 的 内 核 中 是 8192)， 最 大 值 是 1048576 (在 早 于 2.6.28 的 内 核 中 是 
INT MAX)。 当 一 个 非特 权 进 程 (CAP SYS RESOURCE) 调用 mq openO 时 会 忽略 这 个 限制 。 






































queues max 
这 是 一 个 系统 级 别 的 限制 ， 它 规定 了 系统 上 最 多 能 够 创建 的 消息 队列 的 数量 。 一 旦 达到 
这 个 限制 ， 就 只 有 特权 进程 (CAP SYS RESOURCE) 才能 够 创建 新 队列 。 这 个 限制 的 默认 
值 是 256， 其 取 值 可 以 为 范围 从 0 到 INT MAX 之 间 的 任意 一 个 值 。 
Linux 还 提供 了 RLIMIT MSGQUEUE 资源 限制 , 它 可 以 用 来 为 属于 调用 进程 的 真实 用 户 
ID 的 所 有 消 县 队列 所 消耗 的 空间 规定 一 个 上 限 ， 细 节 信 息 请 参考 36.3 市 。 








52.9 POSIX 和 System V 消息 队列 比较 


512 节 列 出 了 POSIX IPC 接口 与 System V IPC 接口 相 比 存在 的 各 种 优势 : POSIX IPC 接 
口 更 加 简单 并 且 与 传统 的 UNIX 文件 模型 更 加 一 致 ， 同 时 POSIX. IPC 对 象 是 引用 计数 的 ， 这 
样 就 简化 了 确定 何 时 删除 一 个 对 象 的 任务 。POSIX 消息 队列 也 同样 具备 这 些 常规 优势 。 

POSIX 消息 队列 与 System V 消息 队列 相 比 还 具备 下 列 优势 。 

。 消 轧 通知 特性 允许 一 个 (单个 ) 进程 能 够 邦和 条 消息 进入 之 前 为 空 的 队列 时 蜡 步 地 通 


过 信号 或 线程 的 实例 化 来 接收 通知 。 
e 在 Linux( 不 包括 其 他 UNIX 实现 ) 上 可 以 使 用 pollO、selectO 以 及 epoll 来 监控 POSIX 
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iH BA). System V 消息 队列 并 没有 这 个 特性 。 

但 与 System V 消息 队列 相 比 ，POSIX 消息 队列 也 具备 下 列 劣势 。 

。 POSIX 消息 队列 的 可 移植 性 稍 过 ， 即 使 在 不 同 的 Linux 系统 上 也 存在 这 个 问题 ， 因 为 
直到 内 核 2.6.6 Jtet T XAA ASA PUE SERE. 

。 与 POSIX 消息 队列 严格 按照 优先 级 排序 相 比 ，System V 消息 队列 能 够 根据 类型 来 选 
择 消息 的 功能 的 灵活 性 更 强 。 


POSIX 消息 队列 在 不 同 UNIX 系统 上 的 实现 方式 存在 很 大 的 差 寞 ,一些 系 统 在 用 户 空 间 
提供 实现 ， 并 且 至 少 存在 一 种 此 类 实现 (Solaris 10)， 同 时 mq openO 手 册 也 明确 指出 这 种 实 
现 是 不 安全 的 。 在 Linux 上 ， 选 择 在 内 核 中 实现 消息 队列 的 原因 之 一 是 不 相信 能够 提供 一 个 
安全 的 用 户 空 间 实现 。 

















52.10 总结 


POSIX 消 轧 队列 允许 进程 以 消息 的 形 却 交换 数据 。 每 条 消 县 都 有 一 个 关联 的 整数 优先 级 ， 
消息 按照 优先 级 顺序 排列 〈 从 而 会 按照 这 个 顺序 接收 消息 )。 


更 多 信息 


[Stevens, 1999] 提 供 了 POSIX 消息 队列 的 另 一 种 表示 形式 并 给 出 了 一 个 使 用 内 存 映射 文件 
的 用 户 空 间 实 现 。[Gallmeister, 1995] 也 对 POSIX 消息 队列 的 一 些 细节 进行 了 描述 。 


52.11 J&A 


52-1. 修改 程序 清单 52-5 中 的 程序 Cpmsg receive.c). 使 之 在 命令 行 上 接收 一 个 超时 时 间 
(相对 秒 数 〉 并 使 用 mq _ timedreceiveO?K 4:4 mq _receive()。 

52-2. 使 用 POSIX 消息 队列 记录 44.8 节 中 的 客户 端 -服务 器 应 用 程序 的 顺序 号 。 

52-3. EE 46.8 市 中 的 文件 -服务 费 应 用 程序 使 之 使 用 POSIX 消息 队列 来 取代 System V 
消息 队列 。 

52-4. 使 用 POSIX 消息 队列 编号 一 个 简单 的 聊天 程序 《类 似 于 talk()， 但 没有 curses 界面 )。 

52-5. 修改 程序 清单 52-6 中 的 程序 (mq notify sig.c) 来 证 明 通过 mq _notifyO 建 立 的 消息 
通知 只 发 生 一 次 。 这 可 以 通过 删除 for 循环 中 的 mq_notifyO 调 用 来 完成 。 

52-6. 使 用 sigwaitinfo0O 蔡 换 程 序 清单 52-6 中 的 程序 (mq_notify sig.c) 对 信号 处 理 器 的 
使 用 。 在 Sigwaitinfo0 返 回 时 显示 返回 的 siginfo t 结构 中 的 值 。 程 序 如 何 获取 
sigwaitinfo() 返 回 的 siginfo t 结构 中 的 消息 队列 描述 符 呢 ? 

52-7. 在 程序 清单 52-7 中 buffer 是 否 可 以 作为 全 局 变量 并 且 只 为 其 分 配 一 次 内 存 〈 在 主 
程序 中 ) ? 对 你 的 答案 做 出 解释 。 
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:D3 


POSIX 信号 量 


本 章 将 介绍 POSIX 信号 量 , 它 允 许 进程 和 线程 同步 对 共 圣 资源 的 访问 。 在 47 革 中 介绍 了 
System V 信和 号 量 ， 本 章 假 设 读者 已 经 熟悉 了 信和 号 量 的 一 般 概念 以 及 本 章 开 头 部 分 介绍 的 信和 号 
量 的 使 用 原理 。 在 讲述 本 章 内 容 的 过 程 中 将 会 对 POSIX 信号 量 和 System V 信和 号 量 进 行 比较 以 
前 明 这 两 组 信号 量 API 的 相同 之 处 和 相 异 之 处 。 











53.1 ET 


SUSv3 规定 了 两 种 类 型 的 POSIX 信和 号 量 。 
e 命名 信号 量 : 这 种 信号 量 拥 有 一 个 名 罕 。 通 过 使 用 相同 的 名 字 调 用 sem_open()， 不 相 
关 的 进程 能 够 访问 同一 个 信和 号 量 。 
e 未 命名 信号 量 : 这 种 信号 量 没 有 名 字 ， 相 反 ， 它 位 于 内 存 中 一 个 预先 商定 的 位 置 处 。 
传 命 名 信和 叶莉 可 以 在 进程 忌 间 或 三 组 线程 忆 间 某 计 ， 当 在 进程 之 间 共 享 时 ， 信 和 号 量 必 
须 位 于 一 个 共享 内 存 区 域 中 (System V, POSIX 或 mmap0O)。 当 在 线程 之 间 共 享 时 ， 
信和 号 量 可 以 位 于 被 这 些 线程 共享 的 一 块 内 存 区 域 中 (如 在 堆 上 或 在 一 个 全 局 变量 中 )。 
POSIX 信和 号 量 的 运作 方式 与 System V 信号 量 类 似 ， 即 POSIX 信号 量 是 一 个 整数 ， 其 值 
是 不 能 小 于 0 的 。 如 末 一 个 进程 试 铭 将 一 个 信号 量 的 值 减 小 到 小 于 0, 3 2 59 T Pr H K BR 
数 ， 调 用 会 阻塞 或 返回 一 个 表明 当前 无 法 执行 相应 操作 的 铺 误 。 

一 些 系 统 并 没有 完整 地 实现 POSIX 信号 量 ， 一 个 典型 的 约束 是 只 文 持 未 命名 线程 共享 的 
fiu. TE Linux 2.4 上 也 是 同样 的 情况 ， 只 有 在 Linux 2.6 以 及 禹 NPTL 的 glibc 上 ， 完 整 的 
POSIX 信号 量 实现 才 可 用 。 


fE*tf NPTL 的 Linux 2.6 E, 信号 量 操 作 CEHIEI EH futex(2) 系 统 调用 来 实现 的 。 




































































53.2 命名 信号 量 
要 使 用 命名 信号 量 必须 要 使 用 下 列 函 数 。 
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e sem open) KAAT JF EX 8] ££ — fai PX n] T RW ELE SEVRLRI EH], n RC 
调用 会 创建 信号 量 的 话 还 会 对 所 创建 的 信号 量 进行 初始 化 。 
* sem post(sem) 和 sem wait(sem) 了 水 数 分 别 递 增 和 递减 一 个 信号 量 值 。 
e sem_getvalue() 疯 数 获取 一 个 信号 量 的 当前 值 。 
e sem close() 函 数 删 除 调用 进程 与 它 之 前 打开 的 一 个 信号 量 之 则 的 关联 关 系 。 
e sem unlinkO 国 数 删 除 一 个 信号 量 名 学 并 将 其 标记 为 在 所 有 进程 关闭 该 信号 量 时 删除 
该 信号 量 。 
SUSv3 并 没有 规定 如 何 实现 命名 信号 量 。 一 些 UNIX 实现 将 它们 创建 成 位 于 标准 文件 系 
统 上 一 个 特殊 位 置 处 的 文件 。 在 Linux 上 ， 命 名 信号 量 被 创建 成 小 型 POSIX KENTIZ, 
其 名 字 的 形式 为 sem.name， 这 些 对 象 将 个 帮 在 一 个 挂 载 在 /dev/shm 目录 之 下 的 专用 tmpfs XX 
件 系 统 中 (14.10 节 )。 这 个 文件 系统 其 备 内 核 持 久 性 一 一 它 所 包含 的 信号 量 对 象 将 会 持久 ， 
即使 当前 没有 进程 打开 它们 ， 但 如 果 系 统 被 关闭 的 话 ， 这 些 对 和 象 束 会 于 失 。 
在 Linux 上 从 内 核 2.6 起 开始 文 持 命名 信号 量 。 


53.2.1 打开 一 个 命名 信号 量 
sem openO 国 数 创 建 和 打开 一 个 新 的 命名 信号 量 或 打开 一 个 既 有 信号 量 。 









































#include «fcntl.h» /* Defines O * constants */ 
#include «sys/stat.h» /* Defines mode constants */ 
#include «semaphore.h» 


sem t *sem open(const char *name, int oflag, ... 
/* mode t mode, unsigned int value */ ); 


Returns pointer to semaphore on success, or SEM FAILED on error 

















name 参数 标识 出 了 信号 量 ， 其 取 值 需 符 合 51.1 节 中 给 出 的 规则 。 

oflag 参数 是 一 个 位 掩 伽 ， 它 确定 了 是 打开 一 个 既 有 信号 量 偿 是 创建 并 打开 一 个 新 信号 量 。 如 
X oflag 为 0， 那么 将 访问 一 个 既 有 信号 量 。 如 末 在 oflag 中 指定 了 O_CREAT， 并 且 与 给 定 的 name 
对 应 的 信和 二 量 的 不 存在 ， 那 么 束 创 建 一 个 狐 信 与 量 。 如 果 在 oflag 中 同时 指定 了 O_CREAT 和 
O EXCL， 并 日 与 给 定 的 name 对 应 的 信号 量 已 经 存在 ， 那 么 sem. open St zz X 

如 果 sem_openO 被 用 来 打开 一 个 既 有 信和 号 量 , 那么 调用 就 只 需要 两 个 参数 ,但 如 果 在 flags 
中 指定 了 O_CREAT， 那 么 就 还 逢 要 为 外 两 个 参数 : mode M value, CRE name 对 应 的 信和 号 
量 已 经 存在 ， 那 么 这 两 个 参数 会 补 忽 略 。) 具体 如 下 。 

e mode 参数 是 一 个 位 撞 但 ， 它 指定 了 施加 于 新 信号 量 之 上 的 权限 。 这 个 参数 能 取 的 位 
值 与 文件 上 的 位 值 是 一 样 的 ( 表 15-4) 并 且 与 open() 一 样 ，mode 参数 中 的 值 会 根据 进 
程 的 umask 来 取 掩 码 (15.4.6 节 )。SUSv3 并 没有 为 oflag 规定 任何 访问 模式 标记 
(O RDONLY, O WRONLY 以 及 O RDWR)。 很 多 实现 ， 包 括 Linux， 在 打开 一 个 信和 号 
量 时 会 将 访问 模式 默认 成 O RDWR， 因 为 大 多 数 使 用 信号 量 的 应 用 程序 都 同时 会 用 到 
sem postD0 和 sem waitD， 从 而 需要 谈 取 和 修改 一 个 信号 量 的 什 。 这 意味 看 需要 确保 将 
该 权限 和 写 权 限 赋 给 每 一 类 需要 访问 这 个 信号 量 的 用 户 owner, group 以 及 other. 
value 参数 是 一 个 无 从 与 整 数 ， 它 指定 了 狐 信号 量 的 初始 值 。 信 号 量 的 创建 和 初始 化 操作 
是 原子 的 ， 这 样 丈 避免 了 System V 信和 号 量 初始 化 时 所 需 完 成 的 复杂 工作 了 (47.5 5). 
不 管 是 创建 一 个 新 信号 量 偿 是 打开 一 个 既 有 信和 号 量 ，sem_open(O 都 会 返回 一 个 指 同 一 个 
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sem t 值 的 指针 ， 而 在 后 续 的 调用 中 则 可 以 通过 这 个 指针 来 操作 这 个 信号 量 。sem open ER 
生 错 误 时 会 返回 SEM FAILED 值 。( 在 大 多 数 实现 上 ，SEM_FAILED 被 定义 成 了 ((sem_t *) 0) 
或 ((sem t*) 一 1)); Linux 采用 了 前 面 一 种 定义 。 

SUSv3 声称 当 在 sem_open() 的 返回 值 指 问 的 sem. t 变量 的 副本 上 执行 操作 (sem_post(、 
sem_wait() 等 ) 时 结果 是 未 定义 的 。 换 句 话说 ， 像 下 面 这 种 使 用 sem2 的 做 法 是 不 允许 的 。 


sem t *sp, sem2 

sp = sem open(...); 
sem2 = *sp; 

sem wait(&sem2); 


通过 forkO 创 建 的 子 进 程 会 继承 其 父 进程 打开 的 所 有 命名 信和 号 量 的 引用 。 在 fork0 之 后 ， 
父 进程 和 子 进 程 束 能 够 使 用 这 些 信号 量 来 同步 它们 的 动作 了 。 




















示例 程序 

程序 清单 53-1 为 sem_open() 函 数 提供 了 一 个 命令 行 界面 。 在 usageErrorO 函 数 中 给 出 了 这 
个 程序 的 命令 格式 。 

下 面 的 shell 会 话 日 志 演 示 了 了 如何 使 用 这 个 程序 。 首 先 使 用 umask 命令 来 否决 other 用 户 
的 所 有 权限 ,然后 互 斥 地 创建 一 个 信号 量 并 奉 看 包含 该 命名 信号 量 的 Linux 特有 的 虚拟 目录 中 

















的 内 容 。 
$ umask 007 
$ ./psem create -cx /demo 666 666 means read+write for all users 
$ ls -1 /dev/shm/sem.* 
-IW-IW---- 1 mtk users 16 Jul 6 12:09 /dev/shm/sem.demo 


Is 命令 的 输出 表明 进程 的 umask 28 ri N other 用 户 指定 的 read" write 权限 。 
如 果 再 次 使 用 同样 的 名 罕 来 互 斥 地 创建 一 个 信号 量 ， 那 么 这 个 操作 吏 会 失败 ， 因 为 这 个 
A EBZTNHET. 


$ ./psem create -cx /demo 666 
ERROR [EEXIST File exists] sem open Failed because of 0. EXCL 





程序 清单 53-1: 使 用 sem_open() 打 开 或 创建 一 个 POSIX 命名 信号 量 


psem/psem create.c 
#include «semaphore.h» 
#include «sys/stat.h» 
#include «fcntl.h» 
#include "tlpi hdr.h" 


static void 
usageError(const char *progName) 


i 
fprintf(stderr, "Usage: Xs [-cx] name [octal-perms [value]]WMn", progName); 
fprintf(stderr, " -c Create semaphore (0 CREAT) An"); 
fprintf(stderr, " -x Create exclusively (0 EXCL) An"); 
exit(EXIT FAILURE); 
} 
int 


main(int argc, char *argv[]) 
int flags, opt; 
mode t perms; 
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unsigned int value; 
sem t *sem; 


flags - 0; 
while ((opt = getopt(argc, argv, "cx")) != -1) { 
switch (opt) 1 


case 'c': flags |= O CREAT; break; 
case 'x': flags |= 0 EXCL; break; 
default: usageError(argv[0]); 
} 
} 
if (optind >= argc) 
usageError(argv[0]); 
/* Default permissions are rw------- ; default semaphore initialization 


value is 0 */ 
perms = (argc <= optind + 1) ? (S IRUSR | S IWUSR) : 
getInt(argv[optind + 1], GN BASE 8, "octal-perms"); 
value = (argc <= optind + 2) ? 0 : getInt(argv[optind + 2], 0, "value"); 
sem - sem open(argv[optind], flags, perms, value); 
if (sem -- SEM FAILED) 
errExit("sem open"); 


exit(EXIT SUCCESS); 


psem/psem create.c 
53.2.2 关闭 一 个 信号 量 
当 一 个 进程 打开 一 个 命名 信号 量 时 ， 系 统 会 记录 进程 与 信号 量 之 间 的 关联 关系 。 
sem_closeO 函 数 会 终止 这 种 关联 关系 “〈 即 关闭 信号 量 )， 释 放 系 统 为 该 进程 关联 到 该 信号 量 之 
上 的 所 有 资源 ， 并 递减 引用 访 信 号 量 的 进程 数 。 























#include «semaphore.h» 


int sem close(sem t *sem); 


Returns 0 on success, or -1 on error 











打开 的 命名 信号 量 在 进程 终止 或 进程 执行 了 一 个 execO 时 会 目 动 被 关闭。 


关闭 一 个 信号 量 并 不 会 删除 这 个 信号 量 ， 而 要 删除 信号 量 则 需要 使 用 sem. unlink(). 


53.2.3 ”删除 一 个 命名 信和 号 量 


sem_unlinkO 函 效 删除 通过 name 标识 的 信号 量 并 将 信号 量 标记 成 一 旦 所 有 进程 都 使 用 完 
这 个 信号 量 时 惑 销毁 该 信号 量 〈 这 可 能 立即 发 生 ， 前 所 是 所 有 打开 过 该 信号 量 的 进程 都 已 经 
AB] T ux um. 



































#include «semaphore.h» 


int sem unlink(const char *»ame); 


Returns 0 on success, or -1 on error 
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程序 清单 53-2 演示 了 如 何 使 用 sem. unlink(). 
程序 清单 53-2: 使 用 sem_unlink( 来 断 开 链接 一 个 POSIX 命名 信号 量 


psem/psem unlink.c 
#include «semaphore.h» 
include "tlpi hdr.h" 
int 
main(int argc, char *argv[]) 
if (argc != 2 || strcemp(argv[1], "--help") == 0) 
usageErr("Xs sem-nameWNn", argv[0]); 
if (sem unlink(argv[1]) == -1) 
errExit("sem unlink"); 


exit(EXIT SUCCESS); 
} 


psem/psem unlink.c 


53.3 ”信号 量 操 作 


与 System V 信号 量 一 样 ,一 个 POSIX 信号 量 也 是 一 个 整数 并 且 系 统 不 会 允许 其 值 小 于 0。 
但 POSIX 信号 量 的 操作 不 同 于 System V 信和 与 量 的 操作 ， 上 其 体 包括 : 
。 修改 信和 与 量 值 的 函数 sem_post() 和 sem_wait() 一 一 一 次 只 操作 一 个 信号 量 ,与 之 
形成 对 比 的 是 ，System V semop(0O 系 统 调用 能 够 操作 一 个 集合 中 的 多 个 信号 量 。 
e sem post() 和 sem waitO 函 数 只 对 信号 量 值 加 1 和 减 1。 与 之 形成 对 比 的 是 ，semop0 
能 够 如 上 和 减 去 任意 一 个 值 。 
e System V 信号 量 并 没有 提供 一 个 wait-for-zero 的 操作 (将 sops.sem op 字段 指定 为 0 
的 semopO 调 用 )。 
读者 看 了 上 和 面 的 列表 可 能 会 认为 ， POSIX 信号 量 没 有 System V 信和 号 量 强大 ， 然 而 事实 却 
能 够 通过 System V 信和 号 量 完 成 的 工作 都 可 以 使 用 POSIX 信号 量 来 完成 。 在 一 些 情 
况 下 ， 使 用 POSIX 信号 量 可 能 需要 多 做 一 些 编程 工作 ， 但 在 一 般 应 用 场景 中 ， 使 用 POSIX 信和 号 
量 实际 所 需 的 编程 量 要 更 少 。( 对 于 大 多 数 应 用 程序 来 讲 ，System V 信号 量 API 过 于 复杂 了 。) 


MR LAM ( 减 小 1) sem 引用 的 信号 量 的 值 。 






























































include «semaphore.h» 


int sem wait(sem t *sem); 








Returns 0 on success, or -1 on error 














如 果 信 号 量 的 当前 值 大 于 0， 那 么 sem_waitO 会 立即 返回 。 如 果 信 和 号 量 的 当前 值 等 于 0， 
那么 sm_waitO 会 阻塞 直到 信号 量 的 值 大 于 0 为 止 , 当 信 和 号 量 值 大 于 0 时 该 信号 量 值 就 被 递减 
并 且 sem waitO 会 返回 。 

如 果 一 个 阻塞 的 sm_waitO 调 用 被 一 个 信号 处 理 器 中 断 了 ,那么 它 就 会 失败 并 返回 EINTR 
EWR, 不管 在 使 用 sigaction0 建 立 这 个 信和 号 处 理 器 时 是 否 采 用 了 SA_RESTART 标记 。( 在 其 他 
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一 些 UNIX 实现 上 ，SA RESTART 会 导致 sem waitO 自 动 重启 。) 
程序 清单 53-3 中 的 程序 为 sem_wait() 疯 数 提供 了 一 个 命令 行 界面 ， 各 后 就 会 演示 如 何 使 
用 这 个 程序 。 


程序 清单 53-3， 使 用 sem wait() 来 递减 一 个 POSIX 信号 量 


psem/psem wait.c 


include «semaphore.h» 
include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


sem t *sem; 


if (argc < 2 || stremp(argv[1], "--help") == 0) 
usageErr("Xs sem-nameWNn", argv[0]); 


sem - sem open(argv[1], 0); 
if (sem -- SEM FAILED) 
errExit("sem open"); 


if (sem wait(sem) -- -1) 
errExit("sem wait"); 


printf("%ld sem wait() succeeded Wn", (long) getpid()); 
exit(EXIT SUCCESS); 
} 


psem/psem wait.c 
sem trywait() PK ZZ sem waitO 的 一 个 非 阻塞 版 本 。 





#include «semaphore.h» 


int sem trywait(sem t *sem); 


Returns 0 on success, or -1 on error 











如 果 递 减 操 作 无 法 立即 被 执行 ， 那 么 sem_trywait() 就 会 失败 并 返回 EAGAIN 错误 。 
sem timedwaitO PA Zi E sm_waitO 的 万 一 个 变 体 ， 它 允许 调用 者 为 调用 被 阻 豆 的 时 间 量 指 
定 一 个 限制 。 


#define XOPEN SOURCE 600 
#include <semaphore.h> 





int sem timedwait(sem t *sem, const struct timespec *abs timeout); 


Returns 0 on success, or - 1 on error 


如 果 sem timedwait() 调 用 因 超 时 而 无 法 递减 信号 量 ， 那 么 这 个 调用 就 会 失败 并 返回 
ETIMEDOUT 错误 。 

abs timeout 参数 是 一 个 结构 (23.4.2 市 )， 它 将 超时 时 间 表 示 成 了 目 新 纪元 到 现在 为 目的 
秒 数 和 纳 秒 数 的 绝对 值 。 如 果 和 需要 指定 一 个 相对 超时 时 间 ， 那 么 就 必须 要 使 用 clock gettime() 
获取 CLOCK REALTIME 时 钟 的 当前 值 并 在 该 值 上 加 上 所 需 的 时 间 量 来 生成 一 个 适合 在 
sem timedwait() 中 使 用 的 timespec 结构 。 
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sem timedwait( Až CRU] ÆÆ POSIX.1d (1999) 中 进行 规定 的 ， 所 有 UNIX 实现 都 没有 提 
供 这 个 函数 。 


53.3.2 ”发布 一 个 信号 量 
sem postO 函 数 递 增 〈 增 加 1) sem 引用 的 信号 量 的 值 。 











#include <semaphore.h> 


int sem post(sem t *sem); 


Returns 0 on success, or - 1 on error 














如 采 在 sem_postO 调 用 之 前 信号 量 的 值 为 0， 并 且 其 他 某 个 进程 〈 或 线程 ) IEE DIS IEXR 
减 这 个 信号 量 而 阻 星 ,那么 该 进程 会 锐 唤 醒 ， 它 的 sm_waitO 调 用 会 继续 往 前 执行 来 递减 这 个 
信号 量 。 如 朱 多 个 进程 《或 线程 ) 在 sem_waitO) 中 阻 睡 了， 并 且 这 些 进程 的 调度 采用 的 是 默认 
的 循环 时 间 分 至 策略 ， 那 么 哪个 进程 会 被 唤醒 并 允许 递减 这 个 信号 量 是 不 确定 的 。( 与 System 
V 信号 量 一样 ，POSIX 信号 量 仅仅 是 一 种 同步 机 制 ， 而 不 是 一 种 排队 机 制 。) 


























SUSv3 规定 如 有 末 进 程 或 线程 执行 在 实时 调度 蛇 略 下 , 那么 优先 级 最 局 等 待 时 间 了 节 长 的 进 
程 或 线程 将 会 被 唤醒 。 


与 System V 信和 号 量 一样 , 递增 一 个 POSIX 信号 量 对 应 于 释放 一 些 共 孚 资源 以 供 其 他 进程 
或 线程 使 用 。 
程序 清单 53-4 中 的 程序 为 sem_postO 函 数 提供 了 一 个 命令 行 界 面 ， 和 后 会 演示 如 何 使 用 
这 个 程序 。 
程序 清单 53-4: 使 用 sem_post(O) 递 增 一 个 POSIX 信号 量 
psem/psem post.c 


include «semaphore.h» 
include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


sem t *sem; 


if (argc !- 2) 
usageErr("4s sem-nameWn", argv[0]); 


sem - sem open(argv[1], 0); 
if (sem -- SEM FAILED) 
errExit("sem open"); 


if (sem post(sem) -- -1) 
errExit("sem post"); 
exit(EXIT SUCCESS) ; 


psem/psem post.c 


53.3.8 ”获取 信号 量 的 当前 值 
sem getvalue() P Z5: sem 引用 的 信号 量 的 当前 值 通 过 sval 指 问 的 int 变量 返回 。 
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include «semaphore.h» 


int sem getvalue(sem t *sem, int *sval); 





Returns 0 on success, or -1 on error 











如 朱 一 个 或 多 个 进程 《或 线程 ) 当前 正在 阻塞 以 等 竺 递减 信 号 量 值 ， 那 么 sval 中 的 返回 
值 将 取决 于 实现 。SUSvV3 允许 两 种 做 法 : 0 或 一 个 绝对 值 等 于 在 sem. wait( HP PENSET C 
目的 负数 。Linux 和 其 他 一 些 实现 采用 了 第 一 种 行为 ， 而 为 一 些 实现 则 采用 了 后 一 种 行为 。 

















RUE AFERESIA REGE sval 中 返回 一 个 负 值 是 有 用 的 ， 特 别 是 对 于 调试 来 讲 ， 
但 SUSv3 并 没有 规定 这 种 行为 , 因为 一 些 系统 用 来 高 效 地 实现 POSIX 信和 号 量 的 技术 没有 ( 实 
际 上 有 是 无 法 ) 记录 和 极 阻 塞 的 等 竺 者 的 数目 。 




















注意 在 sem_getvalue0 返 回 时 ，sval 中 的 返回 值 可 能 已 经 过 时 了 。 依 赖 于 sem getvalue() 
返回 的 信息 在 执行 后 续 操 作 时 未 发 生变 化 的 程序 将 会 分 到 检查 时 、 使 用 时 (time-of-check、 
time-of-use) 的 竞争 条 件 (38.6 T). 

程序 清单 53-5 使 用 了 sem_getvalue(0) 来 获取 名 学 通过 命令 行 参数 指定 的 信号 量 的 值 , 然后 
在 标准 输出 上 显示 该 值 。 


程序 清单 53-5: 使 用 sem _getvalue() 获 取 一 个 POSIX 信号 量 的 值 


psem/psem getvalue.c 











include «semaphore.h» 
include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


int value; 
sem t *sem; 


if (argc !- 2) 

usageErr("Xs sem-nameWNn", argv[0]); 
sem = sem open(argv[1], 0); 
if (sem == SEM FAILED) 

errExit("sem open"); 


if (sem getvalue(sem, &value) -- -1) 
errExit("sem getvalue"); 


printf("4din", value); 
exit(EXIT SUCCESS) ; 


psem/psem getvalue.c 
示例 


下 面 的 shell 会 话 日 志 演 示 了 如 何 使 用 本 章 中 到 目前 为 止 给 出 的 各 个 程序 。 背 先 创 建 了 一 
个 初始 值 为 零 的 信号 量 ， 然 后 在 后 合 局 动 一 个 递 减 这 个 信号 量 的 程序 。 

$ ./psem create -c /demo 600 0 

$ ./psem wait /demo & 

[1] 31208 
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后 台 命 令 将 会 阻塞 ， 这 是 因为 信号 量 的 当前 值 为 0， 从 而 无 法 递减 这 个 信和 号 量 。 
接 独 获取 这 个 信号 量 的 值 。 


$ ./psem getvalue /demo 








从 上 面 可 以 看 到 值 0. 在 其 他 一 些 实现 上 可 能 会 看 到 值 ~1,， 表示 存在 一 个 进程 正在 等 竺 这 
y EH o 
接着 执行 一 个 命令 来 递增 这 个 信号 量 , 这 将 会 导致 后 台 程序 中 被 阻塞 的 sem_wait0 调 用 完 
成 执行 。 

$ ./psem post /demo 

$ 31208 sem wait() succeeded 


《上面 输 出 中 的 最 后 一 行 表 明 shell 提示 符 会 与 后 台 作 业 的 输出 混合 在 一 起 。) 
按 下 回 车 后 不能 看 到 下 一 个 shell 提 示 符 ,这 也 会 导 八 shell 报 告 已 终止 的 后 合作 业 的 信息 。 
接 看 在 信号 量 上 执行 后 续 的 操作 。 


Press Enter 





"dH t 














[1]- Done ./psem wait /demo 

$ ./psem post /demo Increment semaphore 

$ ./psem getvalue /demo Retrieve semaphore value 

1 

$ ./psem unlink /demo We re done with this semaphore 


53.4 未 命名 信号 量 


未 命名 信号 量 〈 也 被 称 为 基于 内 存 的 信号 量 ) 是 类 型 为 sem t 并 存储 在 应 用 程序 分 配 的 内 
存 中 的 变量 。 通 过 将 这 个 A E 性 的 内 存 区 域 中 就 能 够 使 这 个 信和 与 
量 对 这 些 进程 或 线程 可 用 。 

操作 未 命名 信号 量 所 使 用 的 函数 与 操作 命名 信和 号 量 使 用 的 函数 是 一 样 的 《sem_wait(O)、 
sem post() 以 及 sem_getvalue0 等 )。 此 外 ， 还 需要 用 到 另外 两 个 函数 。 

e sem initO 国 数 对 一 个 信号 量 进行 初始 化 并 通知 系统 该 信号 量 会 在 进程 间 共 孚 还 是 在 

单个 进程 中 的 线程 间 共 孚 。 

* sem destroy(sem)rR ZU d$ — "| [ii 7 3e 


未 命名 与 命名 信号 量 对 比 
使 用 未 命名 信号 量 之 后 就 无 需 为 信号 量 创建 一 个 名 字 了 ， 这 种 做 法 在 下 列 情况 中 是 比较 
有 用 的 。 
。 在 线程 间 共 享 的 信号 量 不 需要 名 字 。 将 一 个 未 命名 信号 量 作为 一 个 共 孚 《全 局 或 堆 上 
的 ) 变量 目 动 会 使 之 对 所 有 线程 可 访问 。 
。 在 相关 进程 间 共 享 的 信号 量 不 需要 名 字 。 如 末 一 个 父 进程 在 一 块 共享 内 存 区 域 中 《如 
一 个 共享 匿名 映射 ) 分 配 了 一 个 未 命名 信和 号 量 ， 那 么 作为 forkO 操 作 的 一 部 分 ， 子 进 
程 会 目 动 继承 这 个 映射 ， 从 而 继承 这 个 信和 号 量 。 
e 如 有 果 正 在 构建 的 是 一 个 动态 数据 结构 〈 如 二 又 树 )， 并 且 其 中 的 每 一 judi 要 一 个 天 
联 的 信号 量 ， 那 么 最 简单 的 做 法 是 在 每 一 项 中 都 分 配 一 个 未 命名 信号 量 。 为 每 一 项 打 
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JF—^ fis 44 fi mr EmN AE p RE Pur Rei tear CHE IO 和 管理 这 些 名 字 
设计 一 个 规则 《如 当 不 再 需要 和 它们 时 惑 对 它们 进行 断 开 链接 操作 )。 


53.4.1 初始 化 一 个 未 命名 信号 量 
sem_init() 函 数 使 用 value 中 指定 的 值 来 对 sem 指 问 的 未 命名 信和 与 量 进行 初始 化 。 

















#include <semaphore.h> 


int sem init(sem t *sem, int pshared, unsigned int value); 


Returns 0 on success, or - 1 on error 








piens Ze HH fe m iR TE SEE IR] AE TG Se dE XERE IRI JE Sg 
。 WA pshared 等 于 0, MATEKA VAI ERE P RETA. dEXXURP TES Ur. 
F, sem 通常 被 指定 成 一 个 全 局 变量 的 地 址 或 分 配 在 堆 上 的 一 个 变量 的 地 址 。 线 程 共 
享 的 信号 量具 备 进 程 持 久 性 ， 它 在 进程 终止 时 会 被 销毁 。 

e 如果 pshared 不 等 于 0,， 那 么 信号 量 将 会 在 进程 间 共 享 。 在 这 种 情况 下 ，sem 必须 是 共 
ENEKE (一 个 POSIX 共享 内 存 对 象 、 一 个 使 用 mmapO 创 建 的 共享 映射 、 或 一 个 
System V 共享 内 存 段 ) 中 的 某 个 位 置 的 地 址 。 信 号 量 的 持久 性 与 它 所 处 的 共享 内 存 的 
持久 性 是 一 样 的 。( 通 过 其 中 大 部 分 技术 创建 的 共享 内 存 区 域 具 备 内 核 持 久 性 。 但 共 
享 匿名 映射 是 一 个 例外 ， 只 要 存在 一 个 进程 维持 看 这 种 映射 ， 那 么 它 束 一 直 和 存在 D 
去 。) 由 于 通过 forkO 创 建 的 子 进程 会 继承 其 父 进程 的 内 存 映 射 ， 因 此 进程 共享 的 信 
量 会 被 通过 fork0 创 建 的 子 进程 继承 ， 这 样 父 进 程 和 子 进程 也 就 外 s 够 使 用 这 些 信号 量 
来 同步 它们 的 动作 了 。 

之 所 以 需要 pshared 参数 是 因为 下 列 原 因 。 

。 一 些 实现 不 支持 进程 间 共 享 的 信号 量 。 在 这 些 系统 上 为 pshared 指定 一 个 非 零 值 会 导 
Fr sem init0 返 回 一 个 错误 。Linux 直到 内 核 2.6 以 及 NPTL 线程 化 技术 的 出 现 之 后 
才 开 始 支 持 末 命名 的 进程 间 共 享 的 信号 量 。( 在 老式 的 LinuxThreads 实现 中 , 如 果 为 
pshared 指定 了 一 个 非 零 值 ， 那 么 sem initO 束 会 失败 并 返回 一 个 ENOSYS 错误 。) 

e 在 同时 文 持 进程 间 共 享 信 号 量 和 线程 间 共 享 信号 量 的 实现 上 ， 指 定 采 用 何 种 共享 方式 
是 有 必要 的 ， 因 为 系统 必须 要 执行 特殊 的 动作 来 文 持 所 需 的 共享 方式 。 提 供 此 类 信息 
还 使 得 系统 能 够 根据 共 孚 的 种 类 来 执行 优化 工作 。 

NPTL sem_initO 实 现 会 忽略 pshared, 因为 不 pe 至 方式 都 无 害 执 行 特殊 的 动作 ， 

但 可 移植 的 以 及 面向 未 来 的 应 用 程序 应 该 为 pshared 指定 一 个 恰当 的 值 。 


SUSv3 规定 sem_initO 在 失败 时 返回 -1， 但 并 没有 对 成 功 时 的 返回 值 进行 规定 。 然 而 大 
多 数 现代 UNIX 实现 的 手册 上 都 声称 在 成 功 时 会 返回 0。( 一 个 值得 注意 的 例外 情况 是 Solaris, 
它 对 返回 值 的 搞 述 与 SUSv3 规范 中 的 描述 类 似 。 但 通过 检 人 OpenSolaris 的 源 代 码 可 以 发 现 
在 该 实现 上 sem init0 成 功 时 会 返回 0。) SUSv4 对 这 种 情况 进行 了 矫正 ， 规 定 sem init0 在 成 
功 时 应 该 返回 0。 


未 命名 信号 量 不 存在 相关 的 权限 设置 ( 即 sem init0 中 并 不 存在 在 sem_open0 中 所 需 的 
mode 参数 )。 对 一 个 未 命名 信和 号 量 的 访问 将 由 进程 在 确 层 共 孚 内 存 区 域 上 的 权限 来 控制 。 
SUSv3 规定 对 一 个 已 初始 化 过 的 未 命名 信和 号 量 进行 初始 化 操作 将 会 导致 末 定 义 的 行为 。 换 名 
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话说 ， 必 须要 将 应 用 程序 设计 成 只 有 一 个 进程 或 线程 来 调用 sem init0 以 初始 化 一 个 信号 量 。 

与 命名 信号 量 一 样 ，SUSv3 声称 在 地 址 通过 传 入 sem init()ITJ sem 参数 指定 的 sem. t 变量 
的 副本 上 执行 操作 的 结果 是 未 定义 的 ， 因 此 应 该 总 是 只 在 “最 初 的 ”信号 量 上 执行 操作 。 
示例 程序 


在 30.1.2 节 中 给 出 了 一 个 使 用 互 斥 体 来 保护 一 个 存在 两 个 线程 访问 同一 个 全 局 变量 的 临 
界 区 的 程序 (程序 清单 30-2)。 程 序 清单 53-6 使 用 一 个 未 命名 线程 共享 的 信号 量 解决 了 同样 
的 问题 。 


程序 清单 53-6: 使 用 一 个 POSIX 未 命名 信和 号 量 来 保护 对 全 局 变量 的 访问 


psem/thread incr psem.c 





























include «semaphore.h» 
include «pthread.h» 
#include "tlpi hdr.h" 


static int glob - 
static sem t sem; 


static void * /* Loop 'arg' times incrementing 'glob' */ 
threadFunc(void *arg) 


i 
int loops - *((int *) arg); 
int loc, j; 


for (j = 0; j < loops; j++) 1 


if (sem wait(&sem) == -1) 
errExit("sem wait"); 

loc - glob; 

loce; 

glob - loc; 


if (sem post(&sem) == -1) 
errExit("sem post"); 


j 


return NULL; 
} 


int 
main(int argc, char *argv[]) 


pthread t t1, t2; 
int loops, s; 


loops = (argc > 1) ? getInt(argv[1], GN GT 0, "num-loops") : 10000000; 
/* Initialize a thread-shared mutex with the value 1 */ 


if (sem init(&sem, 0, 1) == -1) 
errExit("sem init"); 


/* Create two threads that increment 'glob' */ 


= pthread create(8t1, NULL, threadFunc, &loops); 
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if (s != 0) 

errExitEN(s, "pthread create"); 
s = pthread create(8t2, NULL, threadFunc, &loops); 
if (s != 0) 

errExitEN(s, "pthread create"); 
/* Wait for threads to terminate */ 
s = pthread join(t1, NULL); 
if (s != 0) 

errExitEN(s, "pthread join"); 
S - pthread join(t2, NULL); 
if (s !- 0) 

errExitEN(s, "pthread join"); 


printf("glob = %d\n", glob); 
exit(EXIT SUCCESS); 


psem/thread incr psem.c 
Y NP —I 
53.4.2. $H5X — T 7k üp 44 fei 5 88 


sem_destroy0) 函 数 将 销毁 信号 量 sem, JEP sem 必须 是 一 个 之 前 使 用 sem_init0 进 行 初始 化 
的 未 命名 信号 量 。 只 有 在 不 存在 进程 或 线程 在 等 待 一 个 信号 量 时 才能 够 安全 销毁 这 个 信号 量 。 








#include «semaphore.h» 


int sem destroy(sem t *sem); 


Returns 0 on success, or -1 on error 

















当 使 用 sem_destroy0 销 毁 了 一 个 未 命名 信和 号 量 之 后 就 能 够 使 用 sem_init() 来 重新 初始 化 这 
^fsET. 

一 个 未 命名 信号 量 应 该 在 其 底层 的 内 存 被 释放 之 前 被 销毁 。 例 如 ， 如 果 信 和 号 量 一 个 自动 
分 配 的 变量 , 那么 在 其 宿主 函数 返回 之 前 就 应 该 销毁 这 个 信号 量 。 如 果 信和 号 量 位 于 一 个 POSIX 
共享 内 存 区 域 中 , 那么 在 所 有 进程 都 使 用 完 这 个 信号 量 以 及 在 使 用 shm_unlink() 对 这 个 共享 内 
存 对 象 执 行 断 开 链接 操作 之 前 应 该 销毁 这 个 信和 号 量 。 

在 一 些 实现 上 ， 省 略 sem_destroy0 调 用 不 会 导致 问题 的 发 生 ， 但 在 其 他 实现 上 ， 不 调用 
sem_destroy0 会 导致 资源 泄露 。 可 移植 的 应 用 程序 应 该 调用 sem_destroy0 以 避免 此 类 问题 的 发 生 。 


53.5 与 其 他 同步 技术 比较 


本 市 将 比较 POSIX 信号 量 和 其 他 两 种 同步 技术 : System V 信和 号 量 和 互 斥 体 。 
















































































POSIX 信和 号 量 与 System V 信和 号 量 比较 


POSIX 信号 量 和 System V 信号 量 都 可 以 用 来 同步 进程 的 动作 。531.2 节 列 出 了 POSIX IPC 
与 System V IPC 相 比 具备 的 几 项 优势 : POSIX IPC 接口 更 加 简单 并 且 与 传统 的 UNIX 文件 模 
型 更 加 一 致 ， 同 时 POSIX IPC 对 象 是 引用 计数 的 ， 这 样 束 简化 了 确定 何 时 删除 一 个 IPC 对 象 
的 工作 。 这 些 常 规 优势 同样 也 是 POSIX (MA) 信号 量 优 于 System V 信和 号 量 的 地 方 。 

与 System V 信号 量 相 比 ，POSIX 信和 号 量 还 具备 下 列 优势 。 
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。 POSIX 信号 量 接口 与 System V 信号 量 接口 相 比 要 简单 许多 。 这 种 简单 性 并 没有 以 牺 
牲 功能 的 强大 性 为 代价 。 

。 POSIX 命名 信号 量 消除 了 System V 信号 量 存在 的 初始 化 问题 〈47.5 33). 

e 将 一 个 POSIX 未 命名 信号 量 与 动态 分 配 的 内 存 对 象 关联 起 来 更 加 人 简单:， 只 需要 将 信 
号 量 嵌 入 到 对 象 中 即 可 。 

e 在 局 度 频 繁 地 和 争夺 信号 量 的 场景 中 ( 即 信号 量 上 的 操作 经 常 因 为 一 个 进程 将 信号 量 值 
设置 成 一 个 阻止 操作 立即 往 前 执行 的 的 值 而 阻 窟 )， 那 么 POSIX 信号 量 的 性 能 与 
System V 信和 与 量 的 性 能 古 类 似 的 。 但 在 争 人 守信 与 量 个 那么 频 崇 的 场景 中 ( 即 信 与 量 的 
值 能 够 让 操作 正常 同 前 执行 而 不 会 阻 暑 操作 )，POSIX 信号 量 的 性 能 要 比 System V 信 
号 量 好 很 多 。( 在 笔者 测试 的 系统 上 ， 两 者 在 性 能 上 的 差异 要 超过 一 个 数量 级 ， 参 见 
练习 53-4.) POSIX 在 这 种 场景 中 之 所 以 能 够 做 得 更 好 是 因为 它们 的 实现 方式 只 有 在 
刁 夺 车 夺 的 时 候 示 需要 执行 系统 调用 i System V 信和 号 量 操作 则 不 管 是 否 发 生 争 夺 都 
需要 执行 系统 调用 。 

然而 POSIX 信和 号 量 与 System V fri AH HEE P712535. 

。 POSIX 信号 量 的 可 移植 性 稍 差 。( 在 Linux 上 ， 直 到 内 核 2.6 才 开 始 支持 命名 信号 量 。) 

。 POSIX 信号 量 不 文 持 System V 信号 量 中 的 撤销 特性 然而 在 47.8 贡 中 指出 过 这 个 特 

性 在 一 些 场景 中 可 能 并 没有 太 大 的 用 处 。) 





















































POSIX 信号 量 与 Pthreads 互 斥 体 对 比 


POSIX 信号 量 和 Pthreads 互 帮 体 都 可 以 用 来 同步 同一 个 进程 中 的 线程 的 动作 ， 并 且 它 们 
的 性 能 也 是 相近 的 。 然 而 互 斥 体 通 钊 是 首选 方法 ， 因 为 互 斥 体 的 所 有 权 属 性 能 够 确保 代码 具 
有 民 好 的 结构 性 “只 有 锁 住 互 斥 体 的 线程 才能 够 对 其 进行 解锁 )。 与 之 形成 对 比 的 是 ， 一 个 线 
程 能 够 递增 一 个 被 另 一 个 线程 递减 的 信号 量 。 这 种 灵活 性 会 导致 产生 绪 构 糟糕 的 同步 设计 。 
《 正 是 因为 这 个 原因 ， 信 和 号 量 有 时 候 会 被 称 为 并 发 式 编程 中 的 “goto”。) 

互 斥 体 在 一 种 情况 下 是 不 能 用 在 多 线程 应 用 程序 中 的 ， 在 这 种 情况 下 信号 量 可 能 就 成 了 
一 种 首选 方法 了 。 由 于 信和 号 量 是 异步 信号 安全 的 《参见 表 21-1)， 因 此 在 一 个 信号 处 理 右 中 可 
以 使 用 sem. postO 国 数 来 与 另 一 个 线程 进行 同步 。 而 信和 号 量 吏 无 法 完成 这 项 工作 ， 因 为 操作 互 
FRA] Pthreads 冰 数 不 是 异步 信号 安全 的 。 然 而 通常 处 理 寞 步 信 与 的 首选 方法 是 使 用 
sigwaitinfo()〔 或 类 似 的 函数 ) 来 接收 这 些 信号 ， 而 不 是 使 用 信号 处 理 器 〈33.2.4 市 )， 因 此 信 
号 量 比 互 斥 体 在 这 一 点 上 的 优势 很 少 有 机 会 发 挥 出 来 。 


53.6 ”信号 量 的 限制 

SUSv3 为 信号 量 定 义 了 两 个 限制 。 
SEM NSEMS MAX 

这 是 一 个 进程 能 够 拥有 的 POSIX 信号 量 的 最 大 数目 。SUSv3 要 求 这 个 限制 至 少 为 256. 
在 Linux E, POSIX 信号 量 数目 实际 上 会 受 限 于 可 用 的 内 存 。 
SEM VALUE MAX 

这 是 一 个 POSIX 信号 量 值 能 够 取 的 最 大 值 。 信 号 量 的 取 值 可 以 为 0 到 这 个 限制 之 间 的 任 
意 一 个 值 。SUSv3 要 求 这 个 限制 至 少 为 32767，Linux 实现 允许 这 个 值 最 大 为 INT MAX (在 
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Linux/x86-32 上 是 2147483647). 


53.7 fü 


POSIX 信号 量 允 许 进程 或 线程 同步 它们 的 动作 。POSIX 信号 量 有 两 种 ， 命 名 的 和 未 命名 
的 。 命 名 信号 量 是 通过 一 个 名 字 标识 的 ， 它 可 以 被 所 有 拥有 打开 这 个 信号 量 的 权限 的 进程 共 
享 。 未 命名 信号 量 没有 名 字 ， 但 可 以 将 它 放 在 一 块 由 进程 或 线程 共享 的 内 存 区 域 中 ， 使 得 这 
些 进程 或 线程 能 够 共享 同一 个 信号 量 〈 如 放 在 一 个 POSIX 共享 内 存 对 象 中 以 供 进程 共享 或 
放 在 一 个 全 局 变量 中 以 供 线程 共享 )。 

POSIX 信号 量 接口 比 System V 信号 量 接口 简单 ,信号 量 的 分 配 和 操作 是 一 个 一 个 进行 的 ， 
并 且 等 待 和 发 布 操作 只 会 将 信号 量 值 调整 1。 

与 System V 信号 量 相 比 ，POSIX 信号 量具 备 很 多 优势 ， 但 它们 的 可 移植 性 要 稍 差 一 点 。 
对 于 多 线程 应 用 程序 中 的 同步 来 讲 ， 互 斥 体 一 般 来 讲 要 优 于 信号 量 。 
更 多 信息 

[Stevens, 1999] 提 供 了 POSIX 信 号 量 的 另 一 种 表示 并 给 出 了 使 用 其 他 各 种 IPC 机 制 (FIFO、 


内 存 映射 文件 以 及 System V 信号 量 ) 的 用 户 空 间 实 现 。[Butenhof 1996] 介 绍 了 POSIX 信号 量 
在 多 线程 应 用 程序 中 的 用 法 。 















































53.8 习题 


53-1. 将 程序 清单 48-2 和 程序 清单 48-3 中 的 程序 (48.4 T) 乍 写 一 个 多 线程 应 用 程序 ， 
其 中 两 个 线程 之 间 通 过 一 个 全 局 缕 冲 区 来 同 对 方 传 递 数据 并 使 用 POSIX 信和 号 量 
同步 操作 。 

53-0. 修改 程序 清单 53-3 中 的 程序 (psem waitc) 使 之 使 用 sem timedwaitO0 来 替代 
sem_wait()。 这 个 程序 应 该 接收 一 个 额外 的 命令 行 参数 来 指定 一 个 (相对 〉 秒 数 以 
作为 sem_timedwaitO 调 用 中 的 超时 时 间 。 

53-3. 使 用 System V 信号 量 来 设计 POSIX 信号 量 的 一 个 实现 。 

53-4. 在 53.5 节 中 指出 过 POSIX 信号 量 在 信号 量 和 争夺 不 激烈 的 情况 下 的 性 能 要 比 System 
V 信号 量 好 很 多 。 编 写 两 个 程序 (分 别 使 用 这 两 种 信号 量 ) 来 验证 这 个 结论 。 每 个 
程序 都 应 该 将 一 个 信号 量 递增 和 递减 指定 的 次 数 。 比 较 执 行 两 个 程序 所 需 的 时 间 。 
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在 前 面 的 章节 中 介绍 了 两 种 允许 无 关 进 程 共享 内 存 区 域 以 便 执 行 IPC 的 技术 : System V 
共享 内 存 (第 AS 章 ) 和 共享 文件 映射 (49.4.2 节 )。 这 两 种 技术 都 存在 一 些 不 足 。 
e System V 共享 内 存 模 型 使 用 的 是 键 和 标识 符 ， 这 与 标准 的 UNIX UO 模型 使 用 文件 名 
和 描述 符 的 做 法 是 不 一 致 的 .这 种 差异 意味 看 使 用 System V 共享 内 存 段 需要 一 整套 全 
新 的 系统 调用 和 命令 。 
。 使 用 一 个 共享 文件 映射 来 进行 IPC 要 求 创 建 一 个 磁盘 文件 , 即使 无 需 对 共享 区 域 进行 
持久 存储 也 需要 这 样 做 。 除 了 因 逢 要 创建 文件 所 带 来 的 不 便 之 外 ， 这 种 技术 还 会 融 来 
一 些 文件 IO 开销 。 
由 于 存在 这 些 不 足 ， 所 以 POSIX.lb 定义 了 一 组 新 的 共享 内 存 API: POSIX 共享 内 存 ， 这 
也 是 本 章 的 主题 。 
System V 中 的 共享 内 存 段 在 POSIX 中 被 称 为 共享 内 存 对 象 。 这 种 术语 上 的 差异 是 因为 
历史 原因 一 一 这 两 个 术语 所 指 的 都 是 进程 间 共 享 的 一 块 内 存 区 域 。 


























54.1 HE 


POSIX 共享 内 存 能 够 让 无 关 进 程 共享 一 个 映射 区 域 而 无 需 创 建 一 个 相应 的 映射 文件 。 
Linux 从 内 核 2.4 起 开始 文 持 POSIX 共享 内 存 。 
SUSv3 并 没有 对 POSIX 共享 内 存 的 实现 细节 进行 规定 ， 特 别 是 没有 要 求 使 用 一 个 《真实 或 虚 
拟 ) 文件 系统 来 标识 共享 内 存 对 象 , 但 很 多 UNIX 实现 都 采用 了 文件 系统 来 标识 共享 内 存 对 象 。 一 
些 UNIX. 实现 将 共享 对 象 名 创建 为 标准 文件 系统 上 一 个 特殊 位 置 处 的 文件 。Linux 使 用 挂 载 于 
/dev/shm 目录 下 的 专用 tmpfs 文件 系统 (14.10 市)。 这 个 文件 系统 具有 内 核 持 久 性 一 一 它 所 包含 的 
共享 内 存 对 象 会 一 直 持 久 ， 即 使 当前 不 存在 任何 进程 打开 它 ， 但 这 些 对 象 会 在 系统 关闭 之 后 丢失 。 
系统 上 POSIX 共享 内 存 区 域 占 据 的 内 存 总 量 受 限于 底层 的 tmpfs 文件 系统 的 大 小 。 这 个 文 
件 系 统 通 常会 在 启动 时 使 用 默认 大 小 (如 256MB) 进行 挂 载 。 如 果 有 必要 的 话 ， 超 级 用 户 能 够 
通过 使 用 命令 mount -o remountsize=<num-bytes> 重 新 挂 载 这 个 文件 系统 来 修改 它 的 大 小 。 
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要 使 用 POSIX 252 POS] m E258 Mu P PUTES - 

使 用 shm_open0 函 数 打 开 一 个 与 指定 的 名 子 对 应 的 对 象 。( 在 51.1 市 中 介绍 了 控制 POSIX 共 
孚 内存 对 象 的 命名 规则 。) shm open KA open RRRA, EREE- AIRERA 
或 打开 一 个 既 有 对 象 。 作 为 函数 结果 ，shm_open0 会 返回 一 个 引用 该 对 象 的 文件 描述 符 。 

将 上 一 步 中 获得 的 文件 描述 符 传 入 mmapO 调 用 并 在 其 flags 参数 中 指定 MAP. SHARED. 3X 
会 将 共 时 内存 对 象 映 射 进 进 程 的 虚拟 地 址 空间 。 与 mmap0 的 其 他 用 法 一 样 ， 一 旦 映射 了 对 
象 之 后 不 能 够 关闭 该 文件 描述 符 而 不 会 影响 到 这 个 映射 。 然 而， 有 可 能 需要 将 这 个 文件 描 
述 符 保 持 在 打开 状态 以 便 后 续 的 fstat0 和 ftruncateO 调 用 使 用 这 个 文件 描述 符 ( 参 见 $4.2 节 )。 





























POSIX 共享 内 存 上 shm_open0 和 mmapO 的 关系 类 似 于 System V 共享 内 存 上 shmgetO 和 





shmatO 的 关系 。 使 用 POSIX 共 孚 内 存 对 象 需要 两 步 式 过 程 (shm_openO0 加 上 mmapO) 而 没有 
使 用 单个 函数 来 执行 两 项 任务 是 因为 历史 原因 。 在 POSIX. 委员 会 增加 这 个 特性 时 ，mmapO 调 
用 已 经 存在 了 ([Stevens, 1999] )。 实 际 上 , 这 里 所 需要 做 的 事情 是 使 用 shm_openO 调 用 符 换 openO 
调用 ， 其 中 的 差别 是 使 用 shm_openO 无 需 在 一 个 基于 人 磁盘 的 文件 系统 上 创建 一 个 文件 。 





























由 于 共 孚 内 存 对 象 的 引用 是 通过 文件 摘 述 符 来 完成 的 ， 因 此 可 以 直接 使 用 UNIX. 系统 中 








已 经 定义 好 的 各 种 文件 描述 符 系 统 调用 (如 ftruncate0) 而 无 需 增 加 新 的 用 途 特殊 的 系统 调用 
(System V 共 诗 内 存 束 需要 这 样 做 )。 


54.2 创建 共 圣 内 存 对 象 





shm_open0 〇 孙 数 创建 和 打开 一 个 新 的 共 圣 内 存 对 象 或 打开 一 个 既 有 对 象 。 传 入 shm open) 


的 参数 与 传 入 open0) 的 参数 类 似 。 





#include «fcntl.h» /* Defines O * constants */ 
#include «sys/stat.h» /* Defines mode constants */ 
#include «sys/mman.h» 


int shm open(const char *name, int oflag, mode t mode); 








Returns file descriptor on success, or -1 on error 


name ZA es Vul T frere sut T JF RIA SE VI TEES» oflag 参数 是 一 个 改变 调用 行为 的 位 


PEI, K 54-1 对 这 个 参数 的 取 值 进行 了 总 结 。 


0_ 
0_ 


0_ 
0_ 


0_ 


象 。 
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表 54-1: shm_open() oflag 参数 的 位 值 











标 记 HO R 
CREAT 对 象 不 存在 时 创建 对 象 

EXCL 与 O_ CREAT 互 斥 地 创建 对 象 

RDONLY 打开 只 读 访 问 

RDWR TES Wi 

TRUNC 将 对 象 长 度 截 断 为 堆 


oflag 参数 的 用 途 乙 一 是 确定 是 打开 一 个 既 有 的 共 孚 内 存 对 象 还 是 创建 并 打开 一 个 痢 对 
lA oflag FAES O_CREAT, WARIA -PEAN ZR. WRI E S O CREAT, WA 
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在 对 象 不 存在 时 就 创建 对 象 。 同 时 指定 O EXCL 和 O CREAT 能 够 确保 调用 者 是 对 象 的 创建 
者 ， 如 果 对 象 已 经 存在 ， 那 么 就 返回 一 个 错误 (EEXIST). 

oflag 参数 还 表明 了 调用 进程 在 共享 内 存 对 象 上 的 访问 模式 , 其 取 值 为 O_RDONLY 或 
O RDWR. 

和 镜 下 的 标记 值 O_TRUNC 会 导致 在 成 功 打 开 一 个 既 有 共享 内 存 对 象 之 后 将 对 象 的 长 度 截 


在 一 个 新 共享 内 存 对 象 被 创建 时 ， 其 所 有 权 和 组 所 有 权 将 根据 调用 shm _open0 的 进程 的 
有 效用 户 和 组 ID 来 设 定 ， 对 象 权限 将 会 根据 mode 参数 中 设置 的 掩 码 值 来 设 定 。mode 参数 能 
取 的 位 值 与 文件 上 的 权限 位 值 是 一 样 的 ( 表 15-4)。 与 open0 系 统 调 用 一 样 ，mode 中 的 权限 
掩 人 码 将 会 根据 进程 的 umask (15.4.6 节 ) 来 取 值 。 与 open0 不 同 的 是 ， 在 调用 shm_openO 时 总 
是 需要 mode 参数 ， 在 不 创建 新 对 象 时 需要 将 这 个 参数 值 指定 为 0。 

shm openO 返 回 的 文件 描述 符 会 设置 close-on-exec 标记 (FD CLOEXEC, 27.4 节 )， 因 此 
当 程 序 执行 了 一 个 execO 时 文件 描述 符 会 被 目 动 关 闭 。( 这 与 在 执行 exec0O 时 映射 会 被 解除 的 
事实 是 一 致 的 。) 

一 个 新 共享 内 存 对 象 被 创建 时 其 初始 长 度 会 被 设置 为 0。 这 意味 看 在 创建 完 一 个 新 共享 内 
T£] 2 2 Je 8 8 EH] mmapO Ai m 25H] ftruncate) (5.8 T) 来 设置 对 象 的 大 小 。 在 调用 
Fé mmap) Z Jra HJ EL m AEH ftruncate(0 来 根据 需求 扩大 或 收缩 共 孚 内 存 对 象 ,但 需要 记 住 在 
49.4.3 节 讨 论 过 的 各 个 要 点 。 

在 扩展 一 个 共 孕 内存 对 象 时 ， 新 增加 的 字 节 会 目 动 被 初始 化 为 0。 

在 任何 时 候 都 可 以 在 shm_openO 返 回 的 文件 摘 述 符 上 使 用 fstatO C15.1 节 ) 以 获取 一 个 stat 
结构 ， 访 结构 的 学 段 会 包 售 与 这 个 共享 内 存 对 象 相关 的 信息 ， 包 括 其 大 小 Cst size), APR 
(st mode)、 所 有 者 (st uid) 以 及 组 Cst gid), CXF Pti SUSv3 唯一 要 求 fstatO 在 stat à 
构 中 设置 的 学 段 , 但 Linux 还 会 在 时 间 字 段 中 返回 有 意义 的 信息 , 并 且 会 在 剩 下 的 字段 中 返回 
各 种 用 处 稍 小 一 点 的 信息 。) 

使 用 fchmod0 和 fchowngO 能 够 分 别 修改 共 孚 内 存 对 象 的 权限 和 所 有 权 。 











































































































示例 程序 


程序 清单 54-1 提供 了 一 个 简单 的 使 用 shm_open0、ftruncateO 以 及 mmapO 的 例子 。 这 个 
程序 创建 了 一 个 大 小 通过 命令 行 参数 指定 的 共 孚 内 存 对 象 并 将 该 对 象 映 射 进 进 程 的 虚拟 地 址 
空间 。( 上 映射 这 一 步 是 多 余 的 ， 因 为 实际 上 不 会 对 共 胖 内 存 做 任何 操作 ， 这 里 仅仅 是 为 了 壮 示 
如 何 使 用 mmapO。) 这 个 程序 允许 使 用 命令 行 选 项 来 选择 shm_openO 调 用 使 用 的 标记 
(O CREAT 和 O EXCL). 

下 面 的 例子 使 用 这 个 程序 创建 了 一 个 10000 罕 贡 的 共享 内 存 对 象 ， 然 后 在 /devshm 中 使 
H 1s 命令 显示 出 了 这 个 对 象 。 

$ ./pshm create -c /demo shm 10000 

$ ls -1 /dev/shm 


total O 
-IW------- 1 mtk users 10000 Jun 20 11:31 demo shm 
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程序 清单 04-1: 创建 一 个 POSIX 共享 内 存 对 象 


一 psh psh create.c 
include «sys/stat.h» 

include «fcntl.h» 

include «sys/mman.h» 

include "tlpi hdr.h" 

static void 

usageError(const char *progName) 


fprintf(stderr, "Usage: Xs [-cx] name size [octal-perms]Nn", progName); 


fprintf(stderr, " -c Create shared memory (0 CREAT) An"); 
fprintf(stderr, " -x Create exclusively (0 EXCL) An"); 
exit(EXIT FAILURE); 

} 

int 


main(int argc, char *argv[]) 


int flags, opt, fd; 
mode t perms; 
size t size; 

void *addr; 


flags - O RDWR; 
while ((opt = getopt(argc, argv, "cx")) != -1) { 
switch (opt) 1 


case 'c': flags |= O CREAT; break; 
case 'x': flags |= O EXCL; break; 
default: usageError(argv[0]); 

} 


} 


if (optind + 1 »- argc) 
usageError(argv[0]); 


size = getLong(argv[optind + 1], GN ANY BASE, "size"); 

perms = (argc <= optind + 2) ? (S IRUSR | S IWUSR) : 
getLong(argv[optind + 2], GN BASE 8, "octal-perms"); 

/* Create shared memory object and set its size */ 

fd = shm open(argv[optind], flags, perms); 

if (fd == -1) 


errExit("shm open"); 


if (ftruncate(fd, size) -- -1) 
errExit("ftruncate"); 


/* Map shared memory object */ 
addr = mmap(NULL, size, PROT READ | PROT WRITE, MAP SHARED, fd, O); 
if (addr -- MAP FAILED) 


errExit("mmap"); 


exit(EXIT SUCCESS); 


一 pshm/pshm create.c 
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54.3 使 用 共享 内 存 对 象 


程序 清单 54-2 和 程序 清单 54-3 演 和 一 个 共享 内 存 对 象 将 数据 从 一 个 进程 传 
输 到 另 一 个 进程 中 。 程 序 清单 54-2 将 其 第 二 个 命令 行 参数 中 包含 的 字符 串 复制 到 了 一 人 
名 字 通 过 其 第 一 个 命令 行 参 数 指 ww 在 映射 这 个 对 象 和 执行 复制 
之 前 , 这 个 程序 使 用 了 ftruncate() 来 将 共享 内 存 对 象 的 长 度 设置 为 与 竺 复制 的 字符 串 的 长 
度 一 样 。 


程序 清单 54-2: 将 数据 复制 进 一 个 POSIX 共享 内 存 对 象 














pshm/pshm write.c 


include «fcntl.h» 
#include «sys/mman.h» 
include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 
int fd; 


size t len; /* Size of shared memory object */ 
char *addr; 


if (argc != 3 || stremp(argv[1], "--help") == 0) 
usageErr("%s shm-name Me , argv[0]); 
fd = shm open(argv[1], O RDWR, 0); /* Open existing object */ 


if (fd -- -1) 
errExit("shm open"); 


len = strlen(argv[2]); 

if (ftruncate(fd, len) == -1) /* Resize object to hold string */ 
errExit("ftruncate"); 

printf("Resized to %ld bytes\n", (long) len); 


addr = mmap(NULL, len, PROT READ | PROT WRITE, MAP SHARED, fd, O); 
if (addr -- MAP FAILED) 
errExit("mmap"); 


if (close(fd) -- -1) 
errExit("close"); /* 'fd' is no longer needed */ 


printf("copying %ld bytesWn", (long) len); 
memcpy(addr, argv[2], len); /* Copy string to shared memory */ 
exit(EXIT SUCCESS); 


pshm/pshm write.c 


程序 清单 54-3 中 的 程序 在 标准 输出 上 显示 了 名 字 通 过 其 命令 行 参数 指定 的 既 有 共 孚 内 存 
对 象 中 的 字符 串 。 在 调用 shm_open0O 之 后 ， 这 个 程序 使 用 了 fstatO 来 确定 共享 内 存 的 大 小 并 在 
映射 该 对 象 的 mmap0 〇 调用 中 和 打印 这 个 字符 串 的 write0 调 用 中 使 用 这 个 值 。 
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程序 清单 54-3. 从 一 个 POSIX 共享 内 存 对 象 中 复制 数据 


pshm/pshm read.c 
include «fcntl.h» 
include «sys/mman.h» 
#include «sys/stat.h» 
include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


int fd; 
char *addr; 
struct stat sb; 


if (argc != 2 || stremp(argv[1], "--help") == 0) 
usageErr("Xs shm-nameWNn", argv[0]); 


fd = shm open(argv[1], O RDONLY, 0); /* Open existing object */ 
if (fd == -1) 
errExit("shm open"); 


/* Use shared memory object size as length argument for mmap() 
and as number of bytes to write() */ 


if (fstat(fd, &sb) -- -1) 
errExit("fstat"); 


addr - mmap(NULL, sb.st size, PROT READ, MAP SHARED, fd, O); 
if (addr -- MAP FAILED) 
errExit("mmap"); 


if (close(fd) -- -1); /* 'fd' is no longer needed */ 
errExit("close"); 


write(STDOUT FILENO, addr, sb.st size); 
printf("An"); 
exit(EXIT SUCCESS); 


pshm/pshm read.c 


下 面 的 shell 会 话 演示 了 如 何 使 用 程序 清单 54-2 和 程序 清单 54-3 中 的 程序 。 首 先 使 用 程 
序 请 单 54-1 中 的 程序 创建 了 一 个 长 度 为 零 的 共 孚 内 存 对 象 。 


$ ./pshm create -c /demo shm 0 











$ ls -1 /dev/shm Check the size of object 
total 4 
-IW------- 1 mtk users O Jun 21 13:33 demo shm 


然后 使 用 程序 清单 54-2 中 的 程序 将 一 个 字符 串 复 制 进 共 孚 内 存 对 象 。 
$ ./pshm write /demo shm 'hello' 


$ ls -1 /dev/shm Check that object has changed in size 
total 4 
-IW------- 1 mtk Users 5 Jun 21 13:33 demo shm 





从 上 面 的 输出 中 可 以 看 出 这 个 程序 重新 设 定 了 共享 内 存 对 象 的 大 小 使 之 具备 足够 的 空间 
来 存储 指定 的 字符 串 。 
最 后 使 用 程序 请 单 54-3 中 的 程序 来 显示 共享 内 存 对 象 中 的 字符 证 。 
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$ ./pshm read /demo shm 
hello 


应 用 程序 通 当 需要 使 用 一 些 同步 拉 术 来 让 进程 协调 它们 对 共享 内 存 的 访问 。 在 这 里 给 出 
的 示例 shell 会 话 中 ， 这 种 协调 是 通过 用 户 一 个 一 个 运行 这 些 程序 来 完成 的 。 通 常 ， 应 用 程序 
会 使 用 一 种 同步 原 语 《如 信号 量 ) 来 协调 对 共享 内 存 对 象 的 访问 。 


54.4 ”删除 共享 内 存 对 象 


SUSv3 要 求 POSIX 共享 内 存 对 象 至 少 具 备 内 核 持久 性 ， 即 它们 会 持续 存在 直到 被 显 式 删 
除 或 系统 重 司 。 当 不 再 需要 一 个 共享 内 存 对 象 时 就 应 该 使 用 shm unlink oE E 









































#include «sys/mman.h» 


int shm unlink(const char *namoe); 


Returns 0 on success, or -1 on error 








shm_unlink0O 函 数 会 市 除 通 过 name 指定 的 共享 内 存 对 象 。 删 除 一 个 共享 内 存 对 象 不 会 影 
响 对 象 的 既 有 映射 〈 它 会 保持 有 效 直 到 相应 的 进程 调用 munmap(0 或 终止 )， 但 会 阻止 后 续 的 
shm open(O 调 用 打开 这 个 对 象 。 一 旦 所 有 进程 都 解除 映射 这 个 对 象 ， 对 象 台 会 被 删除 ， 其 中 的 
内 容 会 丢失 。 

程序 清单 54-4 中 的 程序 使 用 shm_unlinkO 来 删除 通过 程序 的 命令 行 参 数 指定 的 共享 内 存 
对 象 。 


程序 清单 54-4: 使 用 shm_unlink0 来 断 开 链 接 一 个 POSIX 共享 内 存 对 象 
pshm/pshm unlink.c 





#include «fcntl.h» 
#include «sys/mman.h» 
#include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 
if (argc != 2 || stremp(argv[1], "--help") == 0) 
usageErr("Xs shm-nameNn", argv[0]); 
if (shm unlink(argv[1]) == -1) 


errExit("shm unlink"); 
exit(EXIT. SUCCESS); 


} 
pshm/pshm unlink.c 


54.5 dtzpfrAPI 比较 


到 现在 为 止 已 经 考虑 了 儿 种 不 同 的 在 无 关 进 程 间 共 享 内 存 区 域 的 技术 。 
e System V 共享 内 存 (第 48 T). 

e ET IFRI (49.4.2 T). 

。 POSIX 共 孕 内存 对 象 〈 本 章 的 主题 )。 
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本 节 中 列 出 的 很 多 要 点 也 适用 于 共享 匿名 英 射 (49.7 三 )， 它 用 于 通过 forkO 关 联 的 进 
程 间 共享 内 存 。 


下 列 要 点 适用 于 所 有 这 些 技术 。 

e 它们 提供 了 快速 IPC， 应 用 程序 通常 必须 要 使 用 一 个 信号 量 〈 或 其 他 同步 原 语 ) 来 同 
步 对 共享 区 域 的 访问 。 

e 一 旦 共享 内 存 对 象 区 域 被 映射 进 进程 的 虚拟 地 址 空间 之 后 ， 它 就 与 进程 的 内 存 空间 中 
的 基 亿 部 分 无 下 了 。 

e 系统 会 以 类 似 的 方式 将 共享 内 存 区 域 放置 进 进程 的 虚拟 地 址 空间 中 。 在 48.5 节 中 介 
System V d MM MEAE 
列 出 与 所 有 种 类 的 共享 内 存 区 域 相 关 的 信息 。 

。 假设 不 会 将 一 个 共享 内 存 区 域 映 射 到 一 个 固定 的 地 址 处 ， 那 么 怠 需 要 确保 所 有 对 区 域 
中 的 位 置 的 引用 会 使 用 偏 移 量 来 表示 ， 而 不 是 使 用 指针 来 表示 ， 这 是 因为 这 个 区 域 在 
不 同 进程 中 所 处 的 虚拟 地 址 可 能 是 不 同 的 《48.6 T). 

。 在 第 50 章 中 介绍 的 操作 虚拟 内 存 区 域 的 函数 可 被 应 用 于 使 用 这 些 技 术 中 任意 一 项 技 
术 创 建 的 共享 内 存 区 域 。 

在 这 些 共享 内 存 技术 之 间 还 存在 一 些 显 著 的 差异 。 

。 一 个 共享 文件 映 冉 的 内 容 会 与 压 层 映射 文件 同步 意味 着 存储 在 共享 内 存 区 域 中 的 数 
据 能 够 在 系统 重启 之 间 得 到 持久 保存 。 

e System V 和 POSIX 共享 内 存 使 用 了 不 同 的 机 制 来 标识 和 3 引用 共 Malis mese 
使 用 了 其 日 己 的 键 和 标识 符 模 型 ， 它 们 与 标准 的 UNIX. LO 模型 是 不 匹配 的 并 且 需 
单独 的 系统 调用 (如 shmctlO) 和 命令 (ipcs 和 ipcrm)。 与 之 形成 对 比 的 是 ，POSIX 
共享 内 存 使 用 了 名 学 和 文件 摘 述 符 ， 其 结果 是 使 用 各 种 既 有 的 UNIX 系统 调用 (如 
fstat() 和 fchmodO 3i fi g 饮 查看 和 操作 共 ENFINS T -o 

e System V 共享 内 存 段 的 大 小 在 创建 时 (shmgetO ) 就 确定 了 。 与 之 形成 对 比 的 是 ， 
在 基于 文件 的 映射 和 POSIX 共享 内 存 对 象 上 可 以 使 用 ftruncate() 来 调整 底层 对 象 
的 大 小 ， 然 后 使 用 munmapO0 和 mmap() (或 Linux 特有 的 mremapO) 重建 映射 。 

e 因为 历史 原因 ，System V 共享 内 存 受 文 持 程 度 比 mmap0 和 POSIX 共享 内 存 对 象 广 得 
多 ， 尽 管 现在 大 多 数 UNIX 实现 都 已 经 提供 所 有 这 些 技 术 。 

除了 最 后 有 关 可 移植 性 的 一 点 之 外 ， 上 面 列 出 的 差异 都 是 共享 文件 映射 和 POSIX 共享 内 

存 对 象 的 优势 。 因 此 在 新 应 用 程序 中 应 该 优先 从 这 些 接口 中 挑选 一 个 使 用 ， 而 不 是 System V 
共享 内 存 。 至 于 选择 哪个 接口 则 取决 于 是 否 需要 一 个 持久 性 存储 。 共 享 文件 映射 提供 了 持久 
性 存储 ， 而 POSIX d 共享 内 存 对 象 则 中 免 了 在 无 需 持 久 存 储 时 使 用 磁盘 文件 所 产生 的 开销 ， 
































































































































54.6 AR 


POSIX 共享 内 存 对 象 用 来 在 无 关 进 程 间 共 享 一 块 内 存 区 域 而 无 需 创 建 一 个 底层 的 磁盘 文 
NF o HASE POSIX 共 孚 内 存 对 象 需要 使 用 shm_openO 调 用 来 符 换 通 单 在 mmapO 调 用 之 前 调用 
的 openO0。shm_openO 调 用 会 在 基于 内 存 的 文件 系统 中 创建 一 个 文件 ， 并 且 可 以 使 用 传统 的 文 
件 摘 述 符 系 统 调用 在 这 个 虚拟 文件 上 执行 各 种 操作 。 特 别 地 ， 必 须要 使 用 ftruncate(0 来 设置 共 
享 内 存 对 象 的 大 小 ， 因 为 其 初始 长 度 为 零 。 
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现在 已 经 介绍 了 无 天 进程 间 的 三 种 共 亨 内 存 区 域 技术 : System V RENT Moe 
WAR POSIX 共 孚 内 存 对 象 。 这 三 种 技术 之 间 存 在 很 多 相似 乙 处， 但 也 存在 一 些 重 要 的 差 
别 ， 除 了 可 移植 性 问题 外 ， 这 些 兰 开 都 对 共 旦 文件 映射 和 POSIX 共计 内 存 对 象 有 利 。 





54.7 ”习题 


54-1. 重 写 程序 清单 48-2 (svshm xfr writerc) 和 程序 清单 48-3 (svshm xfr readerc )， 
使 之 使 用 POSIX 共 孕 内存 对 象 来 取代 System V 共享 内 存 。 
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文件 加 锁 











前 面 的 章节 介绍 了 进程 能 用 来 同步 动作 的 各 项 扩 术 ， 包 括 信 号 《第 20 章 到 第 22 E) 和 
信号 量 〈 第 47 EMR 53 音 )。 本 章 将 介绍 专门 为 文件 设计 的 同步 扩 术 。 





55.1 概述 


应 用 程序 的 一 个 常见 需求 是 从 一 个 文件 中 读 取 一 些 数据 ， 修 改 这 些 数据 ， 然 后 将 这 些 数 
据 写 回 文 件 。 呈 要 在 一 个 时 刻 只 有 一 个 进程 以 这 种 方式 使 用 文件 残 不 会 存在 问题 ， 但 当 多 个 
进程 同时 更 新 一 个 文件 时 间 题 就 出 现 了 。 假 设 各 个 进程 按照 下 面 的 顺序 来 更 新 一 个 包含 了 一 
IIF: 

1. 从 文件 中 读 取 序号 。 

2. ”使 用 这 个 序号 完成 应 用 程序 定义 的 任务 。 

3. 递增 这 个 序号 并 将 其 写 回 文件 。 

这 里 存在 的 问题 是 两 个 进程 在 没有 采用 任何 同步 技术 的 情况 下 可 能 会 同时 执行 上 面 
的 步骤 ， 从 而 导致 《举例 ) 出 现 图 55-1 中 给 出 的 结 琳 〈 这 里 假设 序号 的 初始 值 为 1000). 

问题 很 明显 : 在 执行 完 上 述 步 又 之 后 ,文件 中 包含 的 值 为 1001,， 但 其 所 包 仿 的 值 应 该 
是 1002。( 这 是 一 种 苋 争 条 件 。) 为 防止 出 现 这 种 情况 惑 需要 采用 茶 种 形式 的 进程 间 同 步 。 

AE EH EWRO 信和 号 量 来 完成 所 需 的 同步 ， 但 通 币 文件 锁 更 好 一 些 ， 因 为 和 内核 
能 够 目 动 将 锁 与 文件 关联 起 来 。 


[Stevens & Rago, 2005] 声 称 第 一 个 UNIX 文件 加 锁 实 现 可 追溯 到 1980 年 ， 并 指出 本 章 
着 重 介 绍 的 fentl0) 加 锁 函 数 于 1984 年 出 现在 了 System V Release 2 中 。 


本 章 将 介绍 两 组 不 同 的 给 文件 加 锁 的 API。 

e flockO 对 整个 文件 加 锁 。 

e fcntO 对 一 个 文件 区 域 加 锁 。 

flockO 系 统 调 用 源 自 BSD， 而 fcntO 则 源 自 System V. 
使 用 flockO0 和 fentlO 的 常规 方法 如 下 。 
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进程 A 进程 B 





| 

| | 

污 序 号 # (获得 1000) 
| 

| 时 间 片 i 

HER = ga S 


读 序号 # (38191000) 


使 用 序号 # 


增 量 序号 # {到 1001) 
并 写 回 文件 





时 间 片 | | | 时 间 片 
开始 结束 


下 —  -— — —-— E E —A- E AA E E A—— EE ë EE — EE 8 EE ë E ë E ë E AA HAAS — 


使 用 序号 # 


图 例 说 明 


在 CPU 上 
执行 


增 量 序 号 # (到 1001) 
并 写 回 文件 


55-1: 两 个 进程 在 无 同步 的 情况 下 同时 更 新 一 个 文件 





1. 给 文件 加 锁 。 

2. 执行 文件 YO. 

3. ”解锁 文件 使 得 其 他 进程 能 够 给 文件 加 锁 。 

尽管 文件 加 锁 通 常会 与 文件 IO 一 起 使 用 , 但 也 可 以 将 其 作为 一 项 更 通用 的 同步 技术 来 使 
Ho 协作 进程 可 以 约定 一 个 进程 对 整个 文件 或 一 个 文件 区 域 进行 加 锁 表 示 对 一 些 共享 资源 (如 
一 个 共享 内 存 区 域 ) 而 非 文件 本 身 的 访问 。 








混合 使 用 加 锁 和 stdio 函数 

由 于 stdio 库 会 在 用 户 空间 进行 缓冲 ， 因 此 在 混合 使 用 stdio 函数 与 本 章 介 绍 的 加 锁 
技术 时 需要 特别 小 心 。 这 里 的 问题 是 一 个 输入 缓冲 器 在 被 加 锁 之 前 可 能 会 被 填 满 或 者 一 
个 输出 缓冲 器 在 锁 被 删除 之 后 可 能 会 被 刷新 。 要 避免 这 些 问 题 则 可 以 采用 下 面 这 些 方法 。 

e 使 用 read RI write) (以 及 相关 的 系统 调用 〉 取代 stdio 库 来 执行 文件 IO. 

e 在 对 文件 加 锁 之 后 立即 刷新 stdio Zi, JF HERO Bi v BI FARATA Tft o 

e 使 用 setbuf() (或 类 似 的 函数 ) 来 禁用 stdio 缓冲 ， 当 然 这 可 能 会 牺牲 一 些 效率 。 


劝告 式 和 强制 式 加 锁 

在 本 章 剩 余 的 部 分 中 会 将 锁 分 成 劝告 式 和 强制 式 两 种 。 在 默认 情况 下 ， 文 件 锁 是 劝告 式 
的 ， 这 表示 一 个 进程 可 以 简单 地 忽略 另 一 个 进程 在 文件 上 放置 的 锁 。 要 使 得 劝告 式 加 锁 模 型 
能 够 正常 工作 , 所 有 访问 文件 的 进程 都 必须 要 配合 ,， 即 在 执行 文件 VO 之 前 首先 需要 在 文件 上 
放置 一 把 锁 。 与 之 对 应 的 是 ， 强制 式 加 锁 系 统 会 强制 一 个 进程 在 执行 VO 时 需要 遵从 其 他 进程 
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持 有 的 锁 。 在 55.4 TPR RSI AAE E EET ENT 2 


55.2 ”使 用 flock() 给 文件 加 锁 


AE fentlO VE DET] ZI fed ui 了 flockO 提 供 的 功能 ,但 这 里 仍然 需要 对 其 进行 介绍 ,因为 在 
一 些 应 用 程序 中 仍然 使 用 着 flockO 并 且 其 在 继承 和 锁 释 放 方 面 的 一 些 语义 与 fentl0) 是 不 同 的 。 











#include «sys/file.h» 


int flock(int fd, int operation); 


Returns 0 on success, or -1 on error 








flockO 系 统 调 用 在 整个 文件 上 放置 一 个 锁 。 竺 加 锁 的 文件 是 通过 传 入 fd 的 一 个 打开 着 的 
文件 摘 述 符 来 指定 的 。operation 参数 指定 了 表 55-1 中 描述 的 LOCK. SH, LOCK EX 以 及 
LOCK UN 值 中 的 一 个 。 

在 默认 情况 下 ， 如 果 另 一 个 进程 已 经 持 有 了 文件 上 的 一 个 不 兼容 的 锁 ， 那 么 flockO 会 阻 
塞 。 如 果 需 要 防止 出 现 这 种 情况 ， 那 么 可 以 在 operation 参数 中 对 这 些 值 取 OR (|)。 在 这 种 情 
况 下 ， 如 果 另 一 个 进程 已 经 持 有 了 文件 上 的 一 个 不 兼容 的 锁 ， 那 么 fiockO 就 不 会 阻塞 ， 相 反 
它 会 返回 -1 并 将 errno 设置 成 EWOULDBLOCK。 


表 55-1: flock() 中 operation 参数 的 可 取 值 





值 描 x 
LOCK SH 在 fd 引用 的 文件 上 放置 一 把 共享 锁 
LOCK EX 在 fa 引用 的 文件 上 放置 一 把 互 斥 锁 
LOCK UN 解锁 fd 引 用 的 文件 
LOCK NB 发 起 一 个 非 阻 塞 锁 请 求 


任意 数量 的 进程 可 同时 持 有 一 个 文件 上 的 共享 锁 ， 但 在 同一 个 时 刻 只 有 一 个 进程 能 够 持 
有 一 个 文件 上 的 互 斥 锁 。( 换 句 话 说， 互 斥 锁 会 拒绝 其 他 进程 的 互 斥 和 共享 锁 请 求 。) K 552 
对 flockO 锁 的 兼容 规则 进行 了 总 结 。 这 里 假设 进程 A 首先 放置 了 锁 ， 表 中 给 出 了 进程 B 是 否 
能 够 放置 一 把 锁 。 

X 55-2: flock() 加 锁 类 型 的 兼容 性 











进程 也 
进程 A 
LOCK SH LOCK EX 
LOCK SH 是 得 
LOCK EX fi 否 


不 管 一 个 进程 在 文件 上 的 访问 模式 是 什么 〈 读 、 写 、 或 读 写 )， 它 都 可 以 在 文件 上 放置 一 
把 共享 锁 或 互 斥 锁 。 

通过 再 次 调用 flockO 并 在 operation 参数 中 指定 恰当 的 值 可 以 将 一 个 既 有 共享 锁 转 换 成 一 
个 互 奈 锁 (反之 亦 然 )。 将 一 个 共 侍 锁 转 换 成 一 个 互 矿 锁 ， 在 男 一 个 进程 持 有 了 文件 上 的 共 圣 
锁 时 会 阻 竖 ， 除 非 同 时 指定 了 LOCK _NB 标记 。 
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锁 转 换 的 过 程 不 一 定 是 原子 的 。 在 转换 过 程 中 首先 会 删除 既 有 的 锁 ， 然 后 创建 一 个 新 锁 。 
在 这 两 步 之 间 另 一 个 进程 对 一 个 不 兼容 锁 的 未 决 请 求 可 能 会 得 到 满足 。 如 果 发 生 了 这 种 情况 ， 
那么 转换 过 程 会 被 阻塞 ， 或 者 在 指定 了 LOCK NB 的 情况 下 转换 过 程 会 失败 并 且 进 程 会 丢失 
其 原先 持 有 的 锁 。( 在 最 初 的 BSD flockO 实 现 和 很 多 其 他 UNIX 实现 上 会 出 现 这 种 行为 。) 











尽管 这 不 是 SUSv3 的 一 部 分 ， 但 大 多 数 UNIX 实现 都 提供 了 flockO。 一 些 实现 要 求 包 
含 <fcntl.h> 或 <sys/fcntl.h>， 而 不 是 <sys/file.h>。 由 于 fockO 源 目 BSD， 因 此 这 个 函数 所 施 
加 的 锁 有 时 候 会 被 称 为 BSD 文件 锁 。 
程序 清单 55-1 演示 了 如 何 使 用 fockO0。 这 个 程序 首先 对 一 个 文件 加 锁 ， 睡 眠 指定 的 秒 数 ， 

然后 对 文件 解锁 。 程 序 接收 三 个 命令 行 参 数 ， 其 中 第 一 个 参数 是 竺 加 锁 的 文件 ， 第 二 个 参数 
指定 了 锁 的 类 型 〈 共 享 或 互 斥 ) 以 及 是 否 包 含 LOCK NB CJEBH2E) 标记 ， 第 三 个 参数 指定 了 
在 获取 和 释放 锁 之 间 睡 眠 的 秒 数 ， 并 且 这 个 参数 是 可 选 的 ， 其 默认 值 是 00 秒 。 
程序 清单 55-1: 使 用 flock() 





filelock/t flock.c 


include «sys/file.h» 

#include «fcntl.h» 

#include "curr time.h" /* Declaration of currTime() */ 
include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


int fd, lock; 
const char *lname; 


if (argc < 3 || stremp(argv[1], "--help") == 0 || 
strchr("sx", argv[2][0]) == NULL) 
usageErr("Xs file lock [sleep-time]Wn" 
'lock' is 's' (shared) or 'x' (exclusive)Nn" 
optionally followed by 'n' (nonblocking)Wn" 
'secs' specifies time to hold lockWin", argv[0]); 


lock = (argv[2][0] == 's') ? LOCK SH : LOCK EX; 
if (argv[2][1] == 'n') 
lock |= LOCK NB; 


fd = open(argv[1], O RDONLY); /* Open file to be locked */ 
if (fd -- -1) 
errExit("open"); 


lname = (lock & LOCK SH) ? "LOCK SH" : "LOCK EX"; 


printf("PID %ld: requesting ^s at %s\n", (long) getpid(), lname, 
currTime("XT")); 


if (flock(fd, lock) == -1) { 
if (errno -- EWOULDBLOCK) 
fatal("PID %ld: already locked - bye!", (long) getpid()); 
else 
errExit("flock (PID-$1d)", (long) getpid()); 
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printf("PID %ld: granted 4s at %s\n", (long) getpid(), lname, 
currTime("XT")); 


sleep((argc » 3) ? getInt(argv[3], GN NONNEG, "sleep-time") : 10); 


printf("PID %ld: releasing ^s at %s\n", (long) getpid(), lname, 
currTime("XT")); 
if (flock(fd, LOCK UN) -- -1) 
errExit(" flock"); 


exit(EXIT SUCCESS); 


filelock/t flock.c 
使 用 程序 清单 55-1 中 的 程序 可 以 开展 一 些 实验 来 研究 HockO 的 行为 。 下 面 的 shell 会 话 给 出 了 
其 中 一 些 例子 。 下 面 首先 创建 了 一 个 文件 ， 然 后 在 后 台 局 动 一 个 程序 实例 并 持 有 一 个 共 圣 锁 60 P». 
$ touch tfile 
$ ./t flock tfile s 60 & 
[1] 9777 


PID 9777: requesting LOCK SH at 21:19:37 
PID 9777: granted LOCK SH at 21:19:37 


接 看 月 动 万 一 个 能 够 成 功 请 求 一 个 共享 锁 的 程序 实例 ， 然 后 释放 这 个 共 孚 锁 。 
$ ./t flock tfile s 2 

PID 9778: requesting LOCK SH at 21:19:49 

PID 9778: granted LOCK SH at 21:19:49 

PID 9778: releasing LOCK SH at 21:19:51 


但 当局 动 另 一 个 程序 实例 来 非 阻 塞 地 请 求 一 个 互 斥 锁 时 就 会 立即 失败 。 
$ ./t flock tfile xn 

PID 9779: requesting LOCK EX at 21:20:03 

PID 9779: already locked - bye! 


"1H 5953 — 4 FEY SCPIDICEH 2E SK — 1 EL FR BURSEEEIY SUA PHASE. DAJBSORK BERG ICE BU 
后 台 进 程 在 60 TE JECREBOX AI BLZ Jes SEBELSEITIH ROUES E BUE» 

$ ./t flock tfile x 

PID 9780: requesting LOCK EX at 21:20:21 

PID 9777: releasing LOCK SH at 21:20:37 


PID 9780: granted LOCK EX at 21:20:37 
PID 9780: releasing LOCK EX at 21:20:47 


55.2.1 锁 继承 与 释放 的 语义 

根据 表 55-1, 通 过 flockO 调 用 并 将 operation 参数 指定 为 LOCK_UN 可 以 释放 一 个 文件 锁 。 
此 外 ， 锁 会 在 相应 的 文件 描述 符 被 关闭 之 后 上 自动 被 释放 。 但 问题 其 实 要 更 加 复杂 ,通过 flock() 
获取 的 文件 锁 是 与 打开 的 文件 摘 述 (5.4 节 ) 而 不 是 文件 摘 述 符 或 文件 (i-node) 本 喘 相 关联 
的 。 这 意味 痢 当 一 个 文件 描述 符 被 复制 时 〈 通 过 dupO0、dup20 或 一 个 fentl) F DUPFD 操作 )， 
新 文件 描述 符 会 引用 同一 个 文件 锁 。 人 例如， 如果 获取 了 fd 所 引用 的 文件 上 的 一 个 锁 ， 那 么 下 
面 的 代码 (忽略 了 错误 检查 ) 会 释放 这 个 锁 。 

































































flock(fd, LOCK EX); /* Gain lock via 'fd' */ 
newfd = dup(fd); /* 'newfd' refers to same lock as 'fd' */ 
flock(newfd, LOCK UN); /* Frees lock acquired via 'fd' */ 





如 末 已 经 通过 了 一 个 特定 的 文件 插 述 符 获 取 了 一 个 锁 并 创建 了 该 文件 插 述 从 的 一 个 或 多 
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个 副本 ， 那 么 一 一 如 条 不 显 式 地 执行 一 个 解锁 操作 
后 锁 才 会 被 释放 。 

如 果 使 用 openO0 获 取 第 二 个 引用 同一 个 文件 的 文件 描述 符 ( 以 及 关联 的 打开 的 文件 描述 )， 
那么 flockO 会 将 第 二 个 描述 符 当 成 是 一 个 不 同 的 描述 符 。 例 如 执行 下 面 这 些 代 码 的 进程 会 在 
第 二 个 flockO 调 用 上 阻塞 。 

fd1 = open("a.txt", O RDWR); 

fd2 = open("a.txt", O RDWR); 


flock(fdi1, LOCK EX); 
flock(fd2, LOCK EX); /* Locked out by lock on 'fdi' */ 


JUEE T OERESLBE 5H flock0 〇 来 将 目 己 锁 在 一 个 文件 之 外 。 读 者 和 后 丈 会 看 到 ,使 用 fentlO 
返回 的 记录 锁 是 无 法 取得 这 种 效果 的 。 

当 使 用 forkO 创 建 一 个 子 进程 时 ， 这 个 子 进程 会 复制 其 父 进程 的 文件 描述 符 ， 并 且 与 使 用 
dup0 调 用 之 类 的 函数 复制 的 描述 符 一 样 ， 这 些 描述 符 会 引用 同一 个 打开 的 文件 描述 ， 进 而 会 
引用 同一 个 锁 。 例 如 下 面 的 代码 会 导致 一 个 子 进程 删除 一 个 父 进程 的 锁 。 


只 有 当 所 有 的 摘 述 符 副 本 都 家 关闭 之 


























flock(fd, LOCK EX); /* Parent obtains lock */ 
if (fork() == 0) /* If child.. */ 
flock(fd, LOCK UN); /* Release lock shared with parent */ 





有 了 时候 可 以 利用 这 些 语义 来 将 一 个 文件 锁 从 父 进程 (原子 地 ) 传输 到 子 进程 :在 fork) 
之 后 ， 父 进程 关闭 其 文件 摘 述 符 ， 然 后 锁 束 只 在 子 进程 的 控制 之 下 了 。 读 者 稍 后 就 会 看 到 使 
用 fentl0) 返 回 的 记录 锁 是 无 法 取得 这 种 效果 的 。 

通过 flockO 创 建 的 锁 在 execO) 中 会 得 到 保留 (除非 在 文件 描述 从 上 设置 了 close-on-exec 
标记 并 且 该 文件 描述 符 是 最 后 一 个 引用 底层 的 打开 的 文件 描述 的 描述 符 )。 

上 面 描述 的 fockO 在 Linux 上 的 语义 与 其 在 经 典 的 BSD 实现 上 的 语义 是 一 致 的 。 在 一 些 
UNIX 实现 上 ，flockO 是 使 用 fentO 实 现 的 ， 读 者 稍 后 就 会 看 到 fcntl0 锁 的 继承 和 释放 语义 与 
flockO 锁 的 继承 和 释放 语义 是 不 同 的 。 由 于 flockO 创 建 的 锁 与 fcntlO 创 建 的 锁 之 间 的 交互 是 未 
定义 的 ， 因 此 应 用 程序 应 该 只 使 用 其 中 一 种 文件 加 锁 方 法 。 


55.2.2 flock() 的 限制 


通过 flockO 放 置 的 锁 存 在 儿 个 限制 。 
。 只 能 对 整个 文件 加 锁 。 这 种 粗 粒 度 的 加 锁 会 限制 协作 进程 之 间 的 并 发 性 。 例 如 ， 假 设 
存在 多 个 进程 ,其 中 各 个 进程 都 想 要 同时 访问 同一 个 文件 的 不 同 部 分 ,那么 通过 flock() 
加 锁 会 不 必要 地 阻止 这 些 进 程 并 发 完成 这 些 操作 。 
e 通过 flockO 只 能 放置 劝告 式 锁 。 
e 很 多 NFS 实现 不 识别 flockO 放 置 的 锁 。 
下 一 节 中 介绍 的 fentlO 加 锁 模 型 弥补 了 所 有 这 些 不 足 。 
因为 历史 的 原因 ，Linux NFS 服务 器 不 文 持 flockO 锁 。 从 内 核 2.6.12 起 ，Linux NFS 服务 
器 通过 将 flockO 锁 实现 成 整个 文件 上 的 一 个 fentl0 锁 来 支持 fockO 锁 。 这 种 做 法 在 混合 服务 器 
上 的 BSD 锁 和 客户 端 上 的 BSD 锁 时 会 导致 一 些 奇怪 的 结果 :客户 端 通常 无 法 看 到 看 到 服务 器 
HB BL ANA 


55.3 ”使 用 fcntl() 给 记录 加 锁 


使 用 fentlO (5.2 W) 能 够 在 一 个 文件 的 任意 部 分 上 放置 一 把 锁 ， 这 个 文件 部 分 既 可 以 是 
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一 个 字 节 ， 也 可 以 是 整个 文件 。 这 种 形式 的 文件 加 锁 通 党 被 称 为 记录 加 锁 ， 但 这 种 称谓 是 不 
恰当 的 ， 因 为 UNIX 系统 上 的 文件 是 一 个 字 节 序列 ， 并 不 存在 记录 边界 的 概念 ， 文 件 记录 的 
概念 只 存在 于 应 用 程序 中 。 

一 般 来 讲 ，fcntlO 会 被 用 来 锁 住 文件 中 与 应 用 程序 定义 的 记录 边界 对 应 的 字 节 范围 ， 这 也 
是 术语 记录 加 锁 的 由 来 。 术 语 字 下 范围 、 文 件 区 域 以 及 文件 段 很 少 被 用 到 ， 但 它们 更 加 精确 
地 摘 述 了 这 种 锁 。( 由 于 这 是 唯一 一 种 在 最 初 的 POSIX.1 标准 和 SUSv3 中 予以 规定 的 加 锁 技 
术 ， 因 此 它 有 时 候 也 被 称 为 POSIX 文件 加 锁 。) 

SUSv3 要 求 普通 文件 支持 记录 加 锁 ， 同 时 也 人 允许 其 他 文件 类 型 也 支持 文件 加 锁 。 尺 管 
记录 锁 通 常 只 有 在 应 用 于 普通 文件 上 时 才 有 意义 (因为 对 于 大 多 数 其 他 文件 类 型 ， 讨 论文 
件 中 所 包含 的 数据 的 字 节 范围 是 毫 无 意义 的 ), BEA Linux Enf EU —A4dusk SUN HIXETE 
意 类 型 的 文件 描述 符 上 。 

图 55-2 显示 了 如 何 使 用 记录 锁 来 同步 两 个 进程 对 一 个 文件 中 的 同一 块 区 域 的 访问 。( 在 这 
幅 图 中 假设 所 有 的 锁 请 求 都 会 阻 窜 ， 这 样 它们 在 锁 被 男 一 个 进程 持 有 时 就 会 等 待 。) 












































进程 A 进程 BB 


在 0 一 99 字 节 上 
请 求 写 锁 
在 0 一 99 字 节 上 
HPR EEH 


更 新 0 一 99 字 节 


将 0 一 99 字 节 的 锁 
转换 为 读 锁 


fiH 


读 取 0 一 99 字 节 赎 取 0 一 99 字 节 


将 0 一 99 字 节 上 的 


解锁 0 一 99 字 节 





更 新 0 一 99 字 节 


解锁 0 一 99 字 节 
55-2: 使 用 记录 锁 同步 对 一 个 文件 的 同一 区 域 的 访问 





用 来 创建 或 删除 一 个 文件 锁 的 fcntlO 调 用 的 常规 形式 如 下 。 
struct flock flockstr; 


/* Set fields of 'flockstr' to describe lock to be placed or removed */ 


fcntl(fd, cmd, &flockstr); /* Place lock defined by 'fl' */ 
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fd Sž -SHAFER wSIH T Sane str. 
在 讨论 cmd 参数 之 前 首先 摘 述 一 下 flock 结构 。 





flock 结构 


flock 结构 定义 了 行 获取 或 删除 的 锁 ， 其 定义 如 下 所 示 。 
struct flock { 
short 1 type; /* Lock type: F RDLCK, F WRLCK, F UNLCK */ 
short 1 whence; /* How to interpret 'l start': SEEK SET, 
SEEK CUR, SEEK END */ 


off t 1 start; /* Offset where the lock begins */ 
off t 1 len; /* Number of bytes to lock; O means "until EOF" */ 
pid t 1 pid; /* Process preventing our lock (F GETLK only) */ 


L 

1 type 字段 表示 需 放 置 的 锁 的 类 型 ， 其 取 值 为 表 55-3 中 列 出 的 值 中 的 一 个 。 

从 语义 上 来 讲 ， 读 (FE RDLCKO 和 写 (F WRLCKO 锁 对 应 于 flockO 施 加 的 共享 锁 和 互 
斥 锁 ， 并 且 它 们 遵循 着 同样 的 兼容 性 规则 (〈 表 55-20: 路 和 何 效 量 的 进程 能 够 特有 皇 员 文件 区 荆 ) 











TEYP. 44 1 type 指定 为 F_UNLCK 类 似 于 flock() LOCK UN 操作 。 


表 55-3: fcntl() 加 锁 的 锁 类 型 


F RDLCK 放置 一 把 恋 锁 
F WRLCK 放置 一 把 写 锁 
F UNLCK AU ER —45 BEA Bt 


(CO RDWRO. 试图 在 文件 上 放置 一 把 与 文件 访问 模式 不 兼容 的 锁 将 会 导 任 一 个 EBADF 

HX. 

| whence, l start 以 及 1 len 字段 一 起 指定 了 竺 加 锁 的 学 下 和 范围。 六 两 个 学 段 关 似 于 传 入 
lseek() 的 whence 和 offset 参数 (4.7 T). 1 start 字段 指定 了 文件 中 的 一 个 偏 移 量 ， 其 具体 含义 
需 根 据 下 列 规则 来 解释 。 

e 当 ] whence Jj SEEK SET 时 ， 为 文件 的 起 始 位 置 。 

e ^74] whence Jj SEEK CUR 时 ， 为 当前 的 文件 偏 移 量 。 

e 7^4] whence 7j SEEK END 时 ， 为 文件 的 结尾 位 置 。 

在 后 两 种 情况 中 ，]_start 可 以 是 一 个 负数 ， 只 要 最 终 得 到 的 文件 位 置 不 会 小 于 文件 的 起 始 
位 置 ( 字 市 0) 即 可 。 

| len 学 段 包 含 一 个 指定 待 加 锁 的 学 市 数 的 整数 ， 其 起 始 位 置 由 1 whence 和 1 start 定义 。 
对 文件 结尾 之 后 并 不 存在 的 学 节 进 行 加 锁 是 可 以 的 ， 但 无 法 对 在 文件 起 始 位置 乙 前 的 字 节 进 
行 加 锁 。 

从 内 核 2.4.21 开始 , Linux 允许 在 1 len 中 指定 一 个 负 值 。 这 是 请 求 对 在 l whence 和 1_ start 
指定 的 位 置 乙 前 的 Llen 6 《〈 即 范围 在 (Lstart — abs(L_len)) 到 (Lastart — ZEAE 进行 加 
Bí. SUSv3 允许 但 并 没有 要 求 这 种 特性 ， 其 他 几 个 UNIX 实现 也 提供 了 这 个 特性 。 
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一 般 来 讲 ， 应 用 程序 应 该 上 只 对 所 需 的 最 小 字 节 范围 进行 加 锁 ， 这 样 其 他 进程 就 能 够 同时 
对 同一 个 文件 的 不 同 区 域 进行 加 锁 ， 进 而 取得 更 大 的 并 发 性 。 








在 某 些 情况 下 需要 对 术语 最 小 范围 进行 限定 。 在 诸如 NES 和 CIFS 之 类 的 网 络 文件 系 
统 上 混合 使 用 记录 锁 和 mmap(O 调 用 会 导致 不 期 望 的 结果 。 之 所 以 会 发 生 这 种 问题 是 因为 
mmapO 了 映射 文件 的 单位 是 系统 分 页 大 小 。 如 果 一 个 文件 锁 是 分 页 对 齐 的 ， 那 么 所 有 一 切 
都 会 正常 工作 ， 因 为 锁 会 覆盖 与 一 个 脏 分 页 对 应 的 整个 区 域 。 但 如 果 锁 没有 分 页 对 齐 ， 那 
么 就 会 存在 一 种 竞争 条 件 一 一 当 映 射 分 页 的 任意 部 分 发 生变 更 之 后 内 核 可 能 就 会 写 入 未 
ARCUP sis IJ Debt 














将 1 len 指定 为 0 具有 特殊 含义 , 即 “ 对 范围 从 由 1 start 和 1 whence 确定 的 起 始 位 置 到 文 
件 结尾 位 置 之 内 的 所 有 学 节 加 锁 ， 不 管 文 件 增长 到 多 大 ” 这 种 处 理 方 式 在 无 法 提前 知道 问 一 
个 文件 中 加 入 多 少 字 和 的 情况 下 是 比较 方便 鸭 。 要 锁 住 整个 文件 则 可 以 将 1 whence 指定 为 
SEEK SET， 并 将 1 start 和 1 len 都 指定 为 0。 











cmd 参数 


fcntlO 在 操作 文件 锁 时 其 cmd 参数 的 可 取 值 有 以 下 三 个 ， 其 中 前 两 个 值 用 来 获取 和 条 
放 锁 。 
F SETLK 

获取 (d type 是 F RDLCK 或 F WRLCK) 或 释放 〈Ltype 是 FE_UNLCK) Hi flockstr 指定 
Tiger ERE. 如 果 男 一 个 进程 持 有 了 一 把 等 加 锁 的 区 域 中 任意 部 分 上 的 不 兼容 的 锁 时 , fentl() 
就 会 失败 并 返回 EAGAIN 错误 。 在 一 些 UNIX 实现 上 fentl0 在 碰 到 这 种 情况 时 会 失败 并 返回 
EACCES 错误 。SUSv3 人 允许 实现 采用 其 中 任意 一 种 处 理 方式 ， 因 此 可 移植 的 应 用 程序 应 该 对 
这 两 个 值 都 进行 测试 。 
F SETLKW 

这 个 值 与 F_SETLK 是 一 样 的 ， 除 了 在 有 为 一 个 进程 持 有 一 把 待 加 锁 的 区 域 中 任意 剖 
分 上 的 不 兼容 的 锁 时 ， 调 用 就 会 阻塞 直到 锁 的 请 求 得 到 满足 。 如 果 正 在 处 理 一 个 信号 并 且 
没有 指定 SA_RESTART (21.5 节 )， 那 么 FE SETLKW 操作 就 可 能 会 被 中 断 〈 即 失败 并 返 
H] EINTR 错误 )。 开 发 人 员 可 以 利用 这 种 行为 来 使 用 alarm) &&, setitimer() 7g — 4 Jn Mi isis 
设置 一 个 超时 时 间 。 

注意 ，fcntl0 要 么 会 锁 住 指定 的 整个 区 域 ， 要 么 就 不 会 对 任何 字 节 加 锁 ， 这 里 并 不 存在 只 
锁 住 请 求 区 域 中 那些 当前 未 被 锁 住 的 字 节 的 概念 。 

剩 下 的 一 个 fentO 操 作 可 用 来 确定 是 否 可 以 在 一 个 给 定 的 区 域 上 放置 一 把 锁 。 
F GETLK 

检测 是 否 能 够 获取 flockstr 指定 的 区 域 上 的 锁 ， 但 实际 不 获取 这 把 锁 。1L_ type 字段 的 值 必 
须 为 F_ RDLCK z& F WRLCK. flockstr 结构 是 一 个 值 -结果 参数 ， 在 返回 时 它 包含 了 有 关 是 否 
能 够 放置 指定 的 锁 的 信息 。 如 果 人 允许 加 锁 《〈 即 在 指定 的 文件 区 域 上 不 存在 不 兼容 的 锁 )， 那 么 
在 1 type 字段 中 会 返回 F_UNLCK,， 并且 剩 余 的 字段 会 保持 不 变 。 如 果 在 区 域 上 存在 一 个 或 多 
个 不 兼容 的 锁 ,， 那么 flockstr 会 返回 与 那些 锁 中 其 中 一 把 锁 〈 无 法 确定 是 哪 把 锁 ) 相关 的 信息 ， 
包括 其 类 型 (1 type). yE] (d start 和 1 len; 1 whence 总 是 返回 为 SEEK SET) 以 及 持 
有 这 把 锁 的 进程 的 进程 ID (A pid). 
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注意 ， 在 使 用 F_GETLK 之 后 接着 使 用 F_SETLK Ei F SETLKW Wiin e HL 4p 
条 件 ， 因 为 在 执行 后 面 一 个 操作 时 ，F_GETLK 返回 的 信息 可 能 已 经 过 时 了 ， 因 此 F GETLK 
的 实际 作用 比 其 一 开始 看 起 来 的 作用 要 小 很 多 。 即使 F_ GETLK 表示 可 以 放置 一 把 锁 , 仍然 需 
要 为 F_SETLK 返回 一 个 错误 或 FE_SETLKW 阻塞 做 好 ;准备 。 

















GNU C 库 还 实现 了 函数 lockf(), 它 仅 仅 是 一 个 基于 fentl0 的 简化 接口 。(SUSv3 规定 了 
lockf()， 但 并 没有 规定 lockf() E; fentl0) 之 则 的 天 系 。 在 大 多 数 UNIX 系统 上 ，lockfO 的 实现 
都 是 基于 fcntlO 的 。) 形 如 lockf(fd, operation, size) 的 调用 等 价 于 在 调用 fcntlO 时 将 1 whence 
设置 为 SEEK CUR, 1 start 设置 为 0， 以 及 将 1 len XEN size, BH lockfO 将 会 锁 住 从 当前 
文件 偏 移 量 开始 到 文件 结束 的 字 节 序列 。lockftO 的 operation 参数 类 似 于 fentlO 的 cmd Zt, 
但 用 于 获取 、 释 放 以 及 测试 锁 的 存在 性 的 第 量 值 是 不 同 的 。lockftO 函 数 只 放置 互 斥 锁 。 更 
多 细节 请 参考 lockf(3) 手 册 。 




















锁 获 取 和 释放 的 细 市 

有 关 获 取 和 释放 由 fentl0 创 建 的 锁 方 面 需 要 注意 以 下 几 点 。 

e 解锁 一 块 文件 区 域 总 是 会 立即 成 功 。 即 使 当前 并 不 持 有 一 块 区 域 上 的 锁 ， 对 这 块 区 域 
解锁 也 不 是 一 个 错误 。 

e 在 任何 一 个 时 刻 ， 一 个 进程 只 能 持 有 一 个 文件 的 茶 个 特定 区 域 上 的 一 种 锁 。 在 之 前 已 
经 锁 住 的 区 域 上 放置 一 把 新 锁 会 导致 不 发 生 任何 事情 〈 新 锁 的 类 型 与 时 有 锁 的 类 型 是 
一 样 的 ) 或 原子 地 将 既 有 锁 转 换 成 新 模式 。 在 后 一 种 情况 中 ， 当 将 一 个 读 锁 转换 成 写 
锁 时 需要 为 调用 返回 一 个 错误 CF SETLKO 或 阻塞 (CF SETLKWO 做 好 准备 。( 这 与 
flockO 是 不 同 的 ， 它 的 锁 转 换 不 是 原子 的 。) 

。 一 个 进程 永远 都 无 法 将 目 己 锁 在 一 个 文件 区 域 之 外 ,即使 通过 多 个 引用 同一 文件 的 文 
件 描述 符 放 置 锁 也 是 如 此 。( 这 与 flockO 是 不 同 的， 在 55.3.5 市 中 将 会 介绍 更 多 有 关 
这 方面 的 信息 。) 

e 在 已 经 持 有 的 锁 中 间 放 置 一 把 模式 不 同 的 锁 会 产生 三 把 锁 : 在 新 锁 的 两 端 会 创建 两 
个 模式 为 之 前 模式 的 更 小 一 点 的 锁 (参见 图 55-3)。 与 此 相反 的 是 ， 获 取 与 模式 相 
同 的 一 把 既 有 锁 相 邻 或 重 登 的 第 二 把 锁 会 产生 单个 履 盖 两 把 锁 的 合并 区 域 的 聚合 
锁 。 除 此 之 外 ， 还 存在 其 他 的 组 合 情 况 。 如 对 一 个 大 型 既 有 锁 的 中 间 的 一 个 区 域 
进行 解锁 会 在 已 解锁 区 域 的 两 端 产 生 两 个 更 小 一 点 的 已 锁 住 区 域 。 如 果 一 个 新 锁 
与 一 个 模式 不 同 的 既 有 锁 重 厂 了 ， 那 么 婚 有 锁 就 会 收缩 ， 因 为 重用 的 字 节 会 合 3 
进 新 锁 中 。 




































































l. 在 放置 了 读 锁 之 后 (Lstart= 10,1 len = 30) 
FW: 10 39 





9， 在 放置 了 写 锁 之 后 (Lstart = 20, Llen = 10) 
字 节 : LO 19 20 99 30 39 





55-3: 在 同一 个 进程 中 使 用 一 把 写 锁 分 割 一 个 既 有 读 锁 
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。 (EXT DOSUBUT IB, 2E BI SCTETIASTI HUE EEANSTSITIVE XS E 55.3.5 市 将 会 对 
这 些 语义 进行 介绍 。 


55.3.1 IEH 


在 使 用 F_SETLKW 时 知 要 弄 清楚 图 55-4 中 阐述 的 场景 类 列 。 在 这 种 场景 中 ， 每 个 进程 
的 第 二 个 锁 请 求 会 被 为 一 个 进程 持 有 的 锁 阻 罕 。 这 种 场景 被 称 为 死 锁 。 如 果 内 核 不 对 这 种 情 
况 进 行 抑制 ， 那 么 会 导 任 两 个 进程 永远 阻 罕 。 为 避免 这 种 情况 ， 内 核 会 对 通过 F_SETLKW 发 
起 的 每 个 新 锁 请 求 进行 检查 以 判断 是 人 否 会 叶 公 死 锁 。 如 末 会 叶 任 死 锁 ， 那 么 内 核 右 会 选中 其 
中 一 个 被 阻 亚 的 进程 使 其 fent1l0 调 用 解除 阻 瞪 并 返回 错误 EDEADLK。( 在 Linux 上 ， 进 程 会 
选中 最 近 的 fcntlO 调 用 ， 但 SUSv3 并 没有 要 求 这 种 行为 ， 并 且 这 种 行为 在 后 续 的 Linux 版 本 
或 其 他 UNIX 实现 上 可 能 不 成 立 。 使 用 FE_SETLKW 的 所 有 进程 都 必须 要 为 处 理 EDEADLK ff 
误 做 好 准备 。) 























进程 BB 
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55-4: 当 两 个 进程 拒绝 对 方 的 加 锁 请 求 时 会 死 锁 
即使 在 多 个 不 同 的 文件 上 放置 锁 时 也 能 检测 出 死 锁 情 形 ， 即 涉及 多 个 进程 的 循环 死 锁 。 
〈《 举 个 例子 ， 对 于 循环 死 锁 ， 意 味 看 进程 A 等 待 获取 被 进程 B 锁 住 的 区 域 上 的 锁 ， 进 程 B 等 
待 进程 C 持 有 的 锁 ， 进 程 C 等 竺 进程 A 持 有 的 锁 。) 


55.3.2 ”示例 : 一 个 交互 式 加 人 锁 程 序 
程序 清单 55-2 中 的 程序 允许 交互 式 地 试验 记录 加 锁 。 这 个 程序 接收 一 个 命令 行 参 数 : f 


加 锁 的 文件 的 名 称 。 使 用 这 个 程序 能 够 验证 很 多 之 前 介绍 的 有 关 记 录 加 锁 操 作 的 论断 。 这 个 
程序 被 设计 成 了 一 个 交互 式 程序 并 接收 形 如 下 和 面 的 命令 。 











cmd lock start length | whence | 





在 cmd 参数 中 可 以 指定 g 来 执行 一 个 F GETLK, 指定 s 来 执行 一 个 F_SETLK,， 或 指定 w 来 
执行 一 个 E_SETLKEW。 剩 下 的 参数 用 来 初始 化 传 入 fentl0 的 flock 结构 。lock 参数 指定 了 1 type 
字段 的 取 值 ， 其 中 r 表示 F RDLCK, w 表示 FF WRLCK, u 表示 F_UNLCK。start 和 length 参数 
是 整数 ,它们 指定 了 1 start 和 1 len 字段 的 取 值 。 最 后 是 一 个 可 选 鸭 whence 参数 , 它 指定 了 1 whence 
字段 的 取 值 ， 其 中 s 表示 SEEK SET (SAWE), c 表示 SEEK. CUR, ex SEEK END. (RT 
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为 何在 程序 清单 55-2 的 printf0 调 用 中 将 1 start 和 1 len 字段 转换 成 long long, 15295 5.10 5.) 


程序 清单 55-2: 试验 记录 加 锁 
filelock/i fcntl locking.c 
include «sys/stat.h» 
include «fcntl.h» 
include "tlpi hdr.h" 
#define MAX LINE 100 


static void 


displayCmdFmt(void) 
printf("An Format: cmd lock start length [whence]Nn in"); 
printf(" 'cmd' is 'g' (GETLK), 's' (SETLK), or 'w' (SETLKW)Nin"); 
printf(" 'lock' is 'r' (READ), 'w' (WRITE), or 'u' (UNLOCK)An"); 
printf(" 'start' and 'length' specify byte range to lock\n"); 
printf(" '"wWhence' is 's' (SEEK SET, default), 'c' (SEEK CUR), " 

"or 'e' (SEEK END)Nn n"); 

} 

int 

main(int argc, char *argv[]) 

{ 


int fd, numRead, cmd, status; 

char lock, cmdCh, whence, line[MAX LINE ] ; 
struct flock f1; 

long long len, st; 


if (argc != 2 || stremp(argv[1], "--help") == 0) 
usageErr("Xs fileWn", argv[0]); 


fd = open(argv[1], O RDWR); 
if (fd == -1) 
errExit("open (%s)", argv[1]); 


printf("Enter ? for helpin"); 


for (55) 1 /* Prompt for locking command and carry it out */ 
printf("PID-bld» ", (long) getpid()); 
fflush(stdout); 
if (fgets(line, MAX LINE, stdin) -- NULL) p* EOE ^5 
exit(EXIT SUCCESS); 
line[strlen(line) - 1] = '\o'; /* Remove trailing '\n' */ 


if (*line == '\0') 
continue; /* Skip blank lines */ 


if (line[0] == '?') ( 


displayCmdFmt(); 
continue; 
} 
whence = 's'; /* In case not otherwise filled in */ 


numRead = sscanf(line, "Xc %c %lld %lld %c", &cmdCh, &lock, 
&st, &len, &whence); 
fl.l start - st; 
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fl.l len - len; 


if (numRead « 4 || strchr("gsw", cmdCh) -- NULL || 


strchr("rwu", lock) -- NULL || strchr("sce", whence) -- NULL) { 


printf("Invalid command! An"); 


continue; 
} 
cmd = (cmdCh == 'g ) ? F GETLK : (cmdCh -- 2) ? F SETLK : F SETLKMW; 
fl.l type = (lock == 'r') ? F. RDLCK CE 'w') ? F WRLCK : F UNLCK; 
fl.l whence = (bence == 'C') ? SEEK CUR : 

(whence -- 'e') ? SEEK END : SEEK SET; 

status = fcntl(fd, cmd, &f1); /* Perform request... */ 
if (cmd -- F GETLK) { /* ... and see what happened */ 


if (status -- -1) ( 
errMsg("fcntl - F GETLK"); 
} else { 
if (fl.l type == F UNLCK) 


printf("[PID-Xld] Lock can be placed n", (long) getpid()); 
else /* Locked out by someone else */ 
printf("[PID-4ld] Denied by %s lock on %lld:%lld " 
"(held by PID %ld)\n", (long) getpid(), 


(fl.l type -- F RDLCK) ? "READ" : 
(long long) fl.l start, 


"WRITE", 


(long long) fl.l len, (long) fl.1 pid); 


} 
} else { /* F SETLK, F SETLKW */ 
if (status == 0) 
printf("[PID-6ld] %s\n", (long) getpid(), 


(lock == 'u') ? "unlocked" : "got lock"); 


else if (errno -- EAGAIN || errno -- EACCES) 


/* F SETLK */ 


printf("[PID-*ld] failed (incompatible lock)Wn", 


(long) getpid()); 
else if (errno -- EDEADLK) 


/* F SETLKW */ 


printf("[PID-4ld] failed (deadlock)Wn", (long) getpid()); 


else 
errMsg("fcntl - F SETLK(W)"); 


filelock/i fcntl locking.c 


在 下 面 的 shel 会 话 日 志 中 演示 了 如 何 使 用 程序 清单 55-2 中 的 程序 , 其 中 运行 了 两 个 实例 
来 在 同一 个 大 小 为 100 FER Cfle) 上 放置 锁 。 图 55-5 给 出 了 shell 会 话 日 志 中 各 个 点 





上 准予 的 和 排队 的 加 锁 请 求 的 状态 并 在 下 和 耐 的 注释 中 进行 的 标注 。 














首先 局 动 程序 程序 清单 55-2 中 的 程序 的 第 一 个 实例 (进程 A) 并 在 文件 中 0 一 39 FTK 


Wk DNE UBER e 
Terminal window 1 
$ ls -1 tfile 
-IW-I--r-- 1 mtk users 100 Apr 18 12:19 tfile 
$ ./i fcntl locking tfile 
Enter ? for help 
PID-790» s r O 40 
[PID-790] got lock 
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接 看 局 动 程序 的 第 二 个 实例 (进程 B〉 并 在 文件 中 第 70 个 学 节 到 文件 结尾 的 区 域 上 放置 
一 把 读 锁 。 





Terminal window 2 

$ ./i fcntl locking tfile 
Enter ? for help 

PID-800» s r -300 e 
[PID-800] got lock 


此 刻 出 现 了 图 55-5 中 a 部 分 的 情形 ， 其 中 进程 A 进程 ID 2g 7900 和 进程 B (进程 ID 
为 8000 持 有 了 文件 的 不 同 部 分 上 的 锁 。 

现在 回 到 进程 A 让 其 答 试 在 整个 文件 上 放置 一 把 写 锁 。 首 移 通 过 下 _GETLK 检测 是 否 可 
以 加 锁 并 得 到 存在 一 个 冲突 的 锁 的 信息 。 接 看 笠 试 通过 F_SETLK 放置 一 把 锁 ， 但 这 个 操作 也 
会 失败 。 最 后 尝试 通过 F_SETLKW 放置 一 把 锁 ， 这 次 将 会 阻塞 。 

PID=790> g w00 

[PID-790] Denied by READ lock on 70:0 (held by PID 800) 

PID=790> S Ww O0 O 


[PID-790] failed (incompatible lock) 
PID=790> ww O0 O 


此 刻 出 现 了 图 55-5 中 部 分 的 情形 , 其 中 进程 A 和 进程 B 分 别 持 有 了 文件 的 不 同 部 分 上 
的 锁 ， 并 且 进 程 A 还 有 一 个 排 看 队 的 对 整个 文件 的 加 锁 请 求 。 

接 看 继续 在 进程 B 中 答 试 在 整个 文件 上 放置 一 把 与 锁 。 首 先 使 用 FE_GETLK f230— P 
侣 可 以 加 锁 并 得 到 存在 一 个 神 突 的 锁 的 信息 。 接 看 符 试 使 用 F_SETLKW 加 锁 。 


PID=800> g w 0 O 

[PID=800] Denied by READ lock on 0:40 
(held by PID 790) 

PID=800> ww00 

[PID=800] failed (deadlock) 


图 55-5 中 的 c 部 分 给 出 了 当 进 程 B 发 起 一 个 在 整个 文件 上 放置 一 把 号 锁 的 阻塞 请 求 发 生 
的 情形 : 死 锁 。 此 刻 内 核 将 会 选择 让 其 中 一 个 加 锁 请 求 失 败 一 一 在 本 例 中 进程 B 的 请 求 将 会 
被 选中 并 从 其 fentlO 调 用 中 接收 到 EDEADLK x o 

接 看 继续 在 进程 B 中 删除 其 在 文件 上 的 所 有 锁 。 


PID-800 suo 0 
[PID-800] unlocked 























[PID-790] got lock 

从 上 面 和 输出 的 最 后 一 行 中 可 以 看 出 进程 A 的 被 阻塞 的 加 锁 请 求 被 准予 了 。 

重要 的 一 点 是 ， 需 要 意识 到 即使 进程 B 的 死 锁 请 求 被 取消 之 后 它 仍然 持 有 了 其 他 的 锁 ， 
因此 进程 A 的 排 着 队 的 加 锁 请 求 仍 然 会 被 阻 塞 。 进 程 A 加 锁 请 求 只 有 在 进程 B 删除 了 其 持 有 
的 锁 之 后 才 会 被 准予 ， 这 束 出 现 了 图 55-5 中 d 部 分 的 情形 。 


55.3.3 示例: 一 个 加 锁 函 数 库 
程序 清单 55-3 给 出 了 一 组 在 其 他 程序 中 可 以 使 用 的 加 锁 函 数 ， 如 下 所 示 。 
。 lockRegionQ PAZ H] F SETLK 在 文件 描述 符 fd 引用 的 打开 看 的 文件 上 放置 一 把 锁 。 
type 参数 指定 了 锁 的 类 型 (F RDLCK H F WRLCK). whence, start 以 及 len 参数 指定 
了 需 加 锁 的 罕 节 苑 围 。 这 些 参 数 为 用 来 加 锁 的 flockstr 结构 中 名 称 类 似 的 字段 提供 了 值 。 
e lockRegionWait() 函 数 与 lockRegion()2S 4E, fH'E Aog I de — T HH 2E Xn eo, BC 
使 用 了 F_SETLKW 而 不 是 FE_SETLK。 
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0 Xf fc fe 








ooo 39 70 


PID=790, 类 型 =READ 


PID=790， 类 型 =WRITIE 








55-5: 运行 running i_fcntl_locking.c 时 被 准予 的 和 排队 的 加 锁 请 求 的 状态 
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regionIsLocked() 函 数 检 测 是 否 可 以 在 一 个 文件 上 放置 一 把 锁 。 这 个 疯 数 的 参数 与 
lockRegion() PK Zi zc IE Ze — FERE] « 这 个 函数 在 没有 进程 持 有 与 调用 中 指定 的 锁 冲 
突 的 锁 时 将 返回 0。 如 有 果 存 在 其 中 一 个 进程 持 有 了 冲突 的 锁 ， 
MIERE CBE true) 一 一 持 有 冲突 锁 的 进程 的 进程 ID. 





那么 这 个 函数 就 会 返回 


filelock/region locking.c 


#include «fcntl.h» 


#include "region locking.h" 


/* Lock a file region (private; public interfaces below) */ 


static int 
lockReg(int fd, int cmd, int type, int whence, int start, off t len) 


{ 


struct flock fl; 

fl.l type = type; 
fl.l whence = whence; 
fl.l start - start; 
fl.l len - len; 


return fcntl(fd, cmd, 8&f1); 
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int /* Lock a file region using nonblocking F SETLK */ 
lockRegion(int fd, int type, int whence, int start, int len) 


return lockReg(fd, F SETLK, type, whence, start, len); 
} 


int /* Lock a file region using blocking F SETLKW */ 
lockRegionWait(int fd, int type, int whence, int start, int len) 


return lockReg(fd, F SETLKW, type, whence, start, len); 
} 


/* Test if a file region is lockable. Return 0 if lockable, or 
PID of process holding incompatible lock, or -1 on error. */ 


pid t 
regionIsLocked(int fd, int type, int whence, int start, int len) 


struct flock f1; 


fl.l type = type; 

fl.l whence = whence; 

fl.l start - start; 

fl.l len - len; 

if (fcntl(fd, F GETLK, &fl) == -1) 
return -1; 


return (fl.l type == F UNLCK) ? O : fl.l pid; 


filelock/region locking.c 

55.9.4 锁 的 限制 和 性 能 

SUSV3 允许 一 个 实现 为 万能 获取 的 记录 锁 的 数量 设置 一 个 固定 的 、 系 统 级 别 的 上 限 。 当 达到 这 个 
限制 时 ，fent10 就 会 失败 并 返回 ENOLCK 错误 。Linux 并 没有 为 所 能 获取 的 记录 锁 的 数量 设置 一 个 固 
定 的 上 限 ， 全 于 具体 数量 则 受 限 于 可 用 的 内 存 数量 。( 很 多 其 他 UNIX 实现 也 采用 了 类 似 的 做 去 。) 

获取 和 释放 记录 锁 的 速度 有 多 快 呢 ? 这 个 问题 没有 图 定 的 答案 ， 因 为 这 些 操作 的 速度 取 
次 于 用 来 维护 记录 锁 的 内 核 数 据 结构 和 具体 的 东 一 把 锁 在 这 个 数据 结构 中 押 处 的 位 置 。 本 章 
稍 后 束 会 介绍 这 个 数据 结构 ， 在 此 之 前 前 先 来 考虑 几 扣 能 够 影响 其 设计 的 需求 。 

。 内 核 需 要 能 够 将 一 个 新 锁 和 任意 位 于 新 锁 任 意 一 端的 模式 相同 的 既 有 锁 《〈 由 同一 个 进 

ERA) 合并 起 来 。 
。 新 锁 可 能 会 完全 取代 调用 进程 持 有 的 一 把 或 多 把 既 有 锁 。 内 核 需 要 容易 地 定位 出 所 有 






































这 些 锁 。 
e 当 在 一 把 既 有 锁 的 中 间 创 建 一 个 模式 不 同 的 新 锁 时 ， 分 隔 既 有 锁 的 工作 〈 图 55-3) 应 
该 是 比较 简单 的 。 


用 来 维护 锁 相 关 信 息 的 内 核 数 据 结 构 需 要 被 设计 成 满足 这 些 需 求 。 每 个 打开 看 的 文件 都 
有 一 个 关联 链表 ， 链 表 中 保存 着 该 文件 上 的 锁 。 列 表 中 的 锁 会 先 按 照 进 程 ID 再 按照 起 始 偏 移 
量 来 排序 。 图 55-6 给 出 了 一 个 这 样 的 列表 。 
内 核 在 与 一 个 打开 着 的 文件 相关 联 的 锁链 表 中 维护 看 flockO 锁 与 文件 租用 。( 在 55.5 
节 中 讨论 /proc/locks 文件 时 将 会 对 文件 租用 进行 简要 介绍 。) 但 这 种 类 型 的 锁 的 数量 通常 要 
小 很 多 很 多 ， 因 此 不 太 可 能 会 对 性 能 产生 影响 ， 所 以 在 这 里 的 讨论 中 并 没有 考虑 它们 。 
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图 例 说 明 





55-6: 单个 文件 上 的 记录 锁 列 表 








每 次 需要 在 这 个 数据 结构 中 添加 一 把 新 锁 时 ， 内 核 孝 必须 要 和 检 奉 是 合 与 文件 上 的 既 有 锁 
有 冲突 。 这 个 搜索 过 程 是 从 列表 类 开始 顺序 开展 的 。 

假设 有 大 量 的 锁 随 机 地 分 布 在 很 多 进程 中 ， 那 么 就 可 以 说 ,添加 或 删除 一 个 锁 所 需 的 时 
间 与 文件 上 已 有 的 锁 的 数量 之 间 大 构 古 一 个 线性 关系 。 


55.3.5 ”人 锁 继承 和 释放 的 语义 
fentlO 记 录 锁 继承 和 释放 的 语义 与 使 用 flock0 创 建 的 锁 的 继承 和 释放 的 语义 是 不 同 的 ， 以 
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由 forkO 创 建 的 子 进程 不 会 继承 记录 锁 。 这 与 fockO 是 不 同 的 ， 在 使 用 flockO 创 建 的 
锁 时 ， 子 进程 会 继承 一 个 引用 同一 把 锁 的 引用 并 且 能 够 释放 这 把 锁 ， 从 而 导致 父 进程 
也 会 失去 这 把 锁 。 

记录 锁 在 execO 中 会 得 到 保留 。( 但 需要 注意 下 面 摘 述 的 close-on-exec 标记 的 作用 。) 
一 个 进程 中 的 所 有 线程 会 共享 同一 组 记录 锁 。 

记录 锁 同 时 与 一 个 进程 和 一 个 i-node (参见 5.4 市 ) 关联 。 从 这 种 关联 关系 可 以 得 出 
一 个 时 不 意外 的 结果 束 古 当 一 个 进程 终止 之 后 ， 其 所 有 记录 锁 会 被 释放 。 为 一 个 稍微 
有 点 出 乎 意料 的 结果 是 当 一 个 进程 关闭 了 一 个 文件 摘 述 符 之 后 ， 进 程 持 有 的 对 应 文件 
上 的 所 有 锁 会 被 释放 ， 不 管 这 些 锁 是 通过 哪个 文件 摘 述 符 获 得 的 。 例 如 在 下 面 的 代码 
中 ，close(fd2) 调 用 会 释放 调用 进程 持 有 的 testfile 文件 之 上 的 锁 ， 尽 管 这 把 锁 是 通过 文 
件 描述 符 fdl 获得 的 。 























struct flock fl; 


fl.l type - F WRLCK; 
fl.l whence - SEEK SET; 
fl.l start - 0; 

fl.l len = 0; 


fd1 
fd2 


open("testfile", O RDWR); 
open("testfile", O RDWR); 


if (fcntl(fdi1, cmd, &fl) == -1) 


errExit("fcnt1"); 


close(fd2); 
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最 后 一 点 中 描述 的 语义 都 是 适用 的 。 例如 dup0、dup20 以 及 fcntlO 都 可 以 用 来 获取 一 个 打开 着 
的 文件 描述 符 的 副本 。 除 了 执行 一 个 显 式 的 close0 之 外 ， 一 个 描述 符 在 设置 了 close-on-exec 
标记 时 会 被 一 个 execO 调 用 关闭 , 或 者 也 可 以 通过 一 个 dup20 调 用 来 关闭 其 第 二 个 文件 描述 符 
参数 ， 当 然 前 提 是 该 描述 符 已 经 被 打开 了 。 

fcntlO 锁 的 继承 和 释放 语义 是 一 个 架构 上 的 缺陷 。 例 如 它们 使 得 使 用 库 包 中 的 记录 锁 容 易 发 
生 问 题 ， 因 为 一 个 库 函 数 无 法 阻止 调用 者 关闭 一 个 引用 了 一 个 被 锁 住 的 文件 的 文件 描述 符 ， 从 
而 会 导致 删除 一 个 通过 库 代 码 获 得 的 锁 。 另 一 种 可 选 的 实现 方案 是 将 锁 与 文件 描述 符 关 联 起 来 ， 
而 不 是 与 inode 关联 起 来 。 但 之 所 以 采用 当前 这 种 语义 是 存在 历史 原因 的 ， 并 且 这 种 语义 现在 
已 经 变 成 了 记录 锁 的 标准 行为 。 遗 憾 的 是 ， 这 些 语义 会 极 大 地 限制 fentl() net LR SE HIE. 

在 使 用 fockO 时 ， 一 把 锁 只 会 与 一 个 打开 的 文件 描述 关联 ， 并 且 会 持续 发 挥 作用 直到 
持 有 这 把 锁 的 引用 的 任意 进程 显 式 地 释放 这 把 锁 或 所 有 引用 这 个 打开 着 的 文件 描述 的 文件 
描述 符 被 关闭 之 后 为 止 。 


55.3.6 ”锁定 猴 死 和 排队 加 和 锁 请 求 的 优先 级 

当 多 个 进程 必须 要 等 竺 以 便 能 够 在 当前 被 锁 住 的 区 域 上 放置 一 把 锁 时 ， 一 系列 的 问题 怠 出 现 了 。 

一 个 进程 是 否 能 够 等 待 以便 在 由 一 系列 进程 放置 读 锁 的 同一 块 区 域 上 放置 一 把 写 锁 并 因 
此 可 能 会 导致 俄 死 ? 在 Linux 上 (以 及 很 多 其 他 UNIX 实现 上 )， 一 系列 的 读 锁 确实 能 够 导致 
一 个 被 阻塞 的 写 锁 狐 死 ， 甚 至 会 无 限 地 饼 死 。 

当 两 个 或 多 个 进程 等 待 放置 一 把 锁 时 ， 是 否 存在 一 些 规则 来 确定 在 锁 可 用 时 哪个 进程 会 
获取 锁 ? 例如 ， 锁 请 求 是 否 满足 FIFO 顺序 ? 规则 中 每 个 进程 请 求 的 锁 的 类 型 是 否 有 关系 〈 即 
一 个 请 求 读 锁 的 进程 是 否 会 优先 于 请 求 一 个 写 锁 的 进程 ， 或 反之 亦 然 ， 或 都 不 是 ) ? 在 Linux 
上 的 规则 如 下 所 述 。 

e 排队 的 锁 请 求 被 准予 的 顺序 是 不 确定 的 。 如 果 多 个 进程 正在 等 待 加 锁 ， 那 么 它们 被 满 

足 的 顺序 取决 于 进程 的 调度 。 

。 写 者 并 不 比 读者 拥有 更 高 的 优先 权 ， 反 之 亦 然 。 

在 其 他 系统 上 这 些 论 断 可 能 加 是 不 正确 的 了 。 在 一 些 UNIX 实现 上 ， 锁 请 求 的 服务 是 按 
HE FIFO 的 顺序 来 完成 的 ， 并 且 读 者 比 写 者 拥有 更 高 的 优先 权 。 






















































































55.4 强制 加 锁 


到 目前 为 止 介绍 的 锁 都 是 劝告 式 锁 。 这 意味 看 一 个 进程 可 以 和 目 由 地 忽略 fentl0 (或 flock()) 
的 使 用 或 简单 地 在 文件 上 执行 IO。 内 核 不 会 阻止 进程 的 这 种 行为 。 在 使 用 劝告 式 锁 时 ， 应 用 
程序 的 设计 者 需要 : 
e 为 文件 设置 合适 的 所 有 权 〔 或 组 所 有 权 〉 以 及 权限 以 防止 非 协作 进程 执行 文件 LO; 
e 通过 在 执行 VO 之 前 获取 恰当 的 锁 来 确保 构成 应 用 程序 的 进程 相互 协作 。 
与 其 他 很 多 UNIX 实现 一 样 ，Linux 也 允许 fcntl0 记 录 锁 是 强制 式 的 。 这 表示 需 对 每 个 文 
件 UO 操作 进行 检查 以 判断 其 他 进程 在 执行 VO 所 在 的 文件 区 域 上 是 否 持 有 任何 不 兼容 的 锁 。 
劝告 式 模式 加 锁 有 时 候 被 称 为 目 由 加 锁 (discretionary locking)， 而 强制 式 加 锁 有 时 候 
则 被 称 为 强制 模式 加 锁 Cenforcement-mode locking)。SUSv3 并 没有 规定 强制 式 加 锁 ， 但 在 
大 多 数 现代 UNIX 实现 上 都 存在 这 种 加 锁 模式 〈 细 节 方 面 可 能 存在 一 些 差 异 )。 
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为 了 在 Linux Lf HJ RRA D EEE E SERVE CFR ERRE EA SC REA EUH 
锁 的 文件 上 局 用 这 一 项 功能 。 通 过 在 挂 载 文件 系统 时 使 用 《Linux 特有 的 ) -o mand 选项 能 够 
在 该 文件 系统 上 局 用 强制 式 加 锁 。 

# mount -o mand /dev/sda10 /testfs 

在 程序 中 可 以 通过 在 调用 mount) (14.8.1 55 时 指定 MS MANDLOCK 标记 来 取得 同 
样 的 结 

通过 但 看 不 市 任何 选项 的 mount(8) 命 令 的 输出 驳 能 够 看 出 一 个 挂 载 文件 系统 是 否 司 用 了 
强制 式 加 锁 。 


# mount | grep sda10 
/dev/sda10 on /testfs type ext3 (rw,mand) 


文件 上 强制 式 加 锁 的 司 用 是 通过 开局 set-group-ID 权限 位 和 关闭 group-execute 权 限 来 完成 
的 。 这 种 权限 位 组 合 在 其 他 场景 中 是 坚 无 意义 的 ， 并 且 在 之 前 的 UNIX 实现 中 并 没有 用 到 这 
种 权限 位 组 合 。 正 因为 如 此 ， 后 面 的 UNIX 系统 在 新 增强 制式 加 锁 时 融 无 需 修 改 既 有 程序 或 
添加 狐 的 系统 调用 了 。 在 shell 中 可 以 按照 下 面 的 方法 在 一 个 文件 上 局 用 强制 式 加 锁 。 

$ chmod g+s,g-x /testfs/file 

在 一 个 程序 中 可 以 通过 使 用 chmod0 或 fchmod() (15.4.7 市 ) 恰当 地 设置 文件 上 的 权限 来 
局 用 该 文件 上 的 强制 式 加 锁 。 

当 显 示 一 个 局 用 了 强制 式 加 锁 权 限 位 的 文件 的 权限 时 ，1s(1) 会 在 group-execute 权限 列 中 
显示 一 个 S。 

$ ls -1 /testfs/file 

-IW-Ir-Sr-- 1 mtk users O Apr 22 14:11 /testfs/file 

所 有 原生 Linux 和 UNIX 文件 系统 部 支持 强制 式 加 锁 ， 但 一 些 网 络 文件 系统 和 非 UNIX 
文件 系统 可 能 束 不 支持 强制 式 加 锁 了 ,例如 , 微软 的 VFAT 文件 系统 没有 set-group-ID 权限 位 ， 
因此 在 VFAT 文件 系统 上 束 无 法 局 用 强制 式 加 锁 了 。 


强制 式 加 锁 对 文件 VO 操作 的 影响 


如 末 在 一 个 文件 上 局 用 强制 式 加 锁 时 , 那么 执行 数据 传输 的 系统 调用 (如 readO 或 write()) 
在 倍 到 锁 神 突 《〈 即 在 当前 被 读 或 号 操作 锁 住 的 区 域 上 执行 一 个 写 入 操作 或 在 当前 被 写 锁 住 的 
区 域 上 执行 一 个 读 操作 ) 时 会 发 生 什 么 呢 ? 这 个 问题 的 答案 取决 于 是 以 阻塞 模式 还 是 非 阻 宕 
模式 打开 了 文件 。 如 果 以 阻 蹇 模式 打开 了 文件 ， 那 么 系统 调用 就 会 阻塞。 如 果 在 打开 文件 时 
使 用 了 O NONBLOCK 标记 ， 那 么 系统 调用 就 会 立即 失败 并 返回 EAGAIN 错误 。 类 似 的 规则 
同样 适用 于 truncate0 和 ftruncate(), 前 提 是 它们 尝试 从 中 增加 或 删除 学 节 的 文件 当前 被 男 一 个 
进程 锁 住 〈 为 了 该 或 者 写 ) To 

如 果 以 阻塞 模式 打开 了 一 个 文件 ( 即 在 open0 调 用 中 没有 指定 O NONBLOCK ), 那么 IO 
系统 调用 可 能 会 导致 死 锁 情形 的 出 现 。 考 虑 图 55-7 中 给 出 的 例子 ， 其 中 两 个 进程 都 打开 了 同 
一 个 文件 以 执行 阻 窜 式 IO， 它们 先 获 取 了 文件 中 不 同 部 分 上 的 与 锁 ， 然 后 分 别 答 试 写 入 被 对 
方 锁 住 的 区 域 。 内 核 在 解决 这 个 问题 时 采用 的 方式 与 解决 由 两 个 fcntO 调 用 引起 的 死 锁 问题 时 
所 用 的 方式 是 一 样 的 (55.3.1 T): 它 选择 死 锁 所 涉及 到 的 其 中 一 个 进程 并 使 其 writeO 系 统 调 
用 失败 并 返回 EDEADLK 错误 。 

使 用 O_TRUNC 标记 open( 一 个 文件 在 存在 其 他 进程 持 有 该 文件 任意 部 分 上 的 一 个 读 锁 
或 写 锁 时 会 立即 失败 (返回 EAGAIN 错误 )。 
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进程 A 进程 B 


[El 





定位 到 文件 X 的 字 节 0 处 ， 





然后 执行 writel) 


死 锁 
55-7: 启用 强制 式 加 锁 时 发 生 的 死 锁 


如 果 存 在 进程 持 有 了 一 个 文件 任意 部 分 上 的 强制 式 读 锁 或 写 锁 ， 那 么 就 无 法 在 该 文件 上 
创建 一 个 共 孚 内存 映射 〈《 即 在 调用 mmap(O 时 指定 了 MAP SHARED 标记 )。 同 样 ， 如 果 一 个 
文件 参与 了 一 个 共享 内 存 映射 ， 那 么 就 无 法 在 该 文件 的 任意 部 分 上 放置 一 把 强制 式 锁 。 在 这 
两 种 情况 中 ， 相 关 的 系统 调用 会 立即 失败 并 返回 EAGAIN 错误 。 之 所 以 存在 这 些 限 制 的 原因 
在 考虑 内 存 映射 的 实现 之 后 就 变 得 清晰 起 来 了 。 在 49.4.2 节 中 曾经 介绍 过 一 个 既 从 文件 中 读 
取 叉 问 文 件 写 入 的 共享 文件 映射 (特别 是 后 一 个 操作 会 与 文件 上 任意 类 型 的 锁 产 生 冲 突 )。 此 
外 ,这 种 文件 VO 是 通过 内 存 管理 子 系统 完成 的 ， 而 这 个 子 系统 是 不 清楚 系统 中 任意 一 个 文件 
锁 所 处 的 位 置 的 。 因 此 为 防止 一 个 映射 更 新 一 个 被 放置 了 强制 式 锁 的 文件 ， 内 核 需要 执行 一 




















个 简单 的 检查 一 一 在 执行 mmapO 调 用 时 检 和 碍 符 映 射 的 文件 中 所 有 位 置 上 是 人 否 存在 锁 〈 对 于 
fentlO 调 用 也 是 如 此 )。 
强制 式 加 锁 警 告 





强制 式 锁 所 起 的 作用 其 实 没 有 其 一 开始 看 起 来 那么 大 ， 它 存在 一 些 潜在 的 缺陷 和 问题 。 

e 在 一 个 文件 上 持 有 一 把 强制 式 锁 并 不 能 阻止 其 他 进程 删除 这 个 文件 ， 因 为 只 要 在 父 日 
录 上 拥有 合适 的 权限 就 能 够 与 一 个 文件 断 开 链接 。 

e 在 一 个 可 公开 访问 的 文件 上 局 用 强制 式 锁 之 前 需要 经 过 深思 的 夸 ， 因 为 即使 是 特权 进 
程 也 无 法 颖 盖 一 个 强制 式 锁 。 和 恶意 用 户 可 能 会 持续 地 持 有 该 文件 上 的 锁 以 制造 拒绝 服 
务 的 攻击 。( 在 大 多 数 情况 下 可 以 通过 关闭 set-group-ID 位 来 使 得 该 文件 再 次 可 访问 ， 
但 当 强 制式 文件 锁 造 成 系统 挂 起 时 束 无 法 这 样 做 了 。) 

e 使 用 强制 式 加 锁 存 在 性 能 开销 。 在 局 用 了 强制 式 加 锁 的 文件 上 执行 的 每 个 IO 系统 调 
用 中 ， 内 核 都 必须 要 检 得 在 文件 上 有 是否 存在 种 突 的 锁 。 如 采 文 件 上 存在 大 量 的 锁 ， 那 
么 这 种 检查 工作 会 极 大 地 降低 VO 系统 调用 的 效率 。 

e 强制 式 加 锁 还 会 在 应 用 程序 设计 阶段 造成 额外 的 开销 ， 因 为 需要 处 理 每 个 IO 系统 调 
用 返回 EAGAIN 〈 非 阻塞 IJO) 或 EDEADLK (MÆ I0) 错误 的 情况 。 

。 因为 在 当前 的 Linux 实现 中 存在 一 些 内 核 苋 争 条件 ， 因 此 在 有 些 情况 下 执行 VO 操作 
的 系统 调用 在 文件 上 存在 本 应 该 拒绝 这 些 操作 的 强制 式 锁 时 也 能 成 功 。 
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总 的 来 说 ， 应 该 尽 可 能 避免 使 用 强制 式 锁 。 


55.5 /proc/locks 文件 


WLA Linux 特有 的 /proc/locks 文件 中 的 内 容 能 够 得 看 系统 中 当前 存在 的 锁 。 下 面 给 出 
了 一 个 示例 文件 所 包含 的 信息 《在 本 例 中 是 四 个 锁 )。 


$ cat /proc/locks 
1: POSIX ADVISORY WRITE 458 03:07:133880 O EOF 


2: 
3: 








FLOCK ADVISORY WRITE 404 03:07:133875 O EOF 
POSIX ADVISORY WRITE 312 03:07:133853 O EOF 


4: FLOCK ADVISORY WRITE 274 03:07:81908 0 EOF 


/proc/locks 文件 显示 了 使 用 fockO0 和 fcntlO 创 建 的 锁 的 相关 信息 。 每 把 锁 的 8 个 字段 的 含 
XLW F MERA). 


E ico de 











锁 在 该 文件 上 所 有 锁 中 的 序号 〈 参 见 55.3.4 市 )。 

锁 的 类 型 。 其 中 FLOCK 表示 flockO 创 建 的 锁 ，POSIX 表示 fentlO 创 建 的 锁 。 

锁 的 模式 ， 其 值 是 ADVISORY 或 MANDATORY。 

锁 的 类 型 ， 其 值 是 READ 或 WRITE (对 应 于 fentlO0 的 共享 锁 和 互 斥 锁 )。 

持 有 锁 的 进程 的 进程 ID。 

三 个 用 冒号 分 隔 的 数字 ， 它 们 标识 出 了 锁 所 属 的 文件 。 这 些 数字 是 文件 所 处 的 文件 系 
统 的 主要 和 次 要 设备 号， 后 面 跟着 文件 的 i-node 号 。 

锁 的 起 始 字 节 。 对 于 flock0 锁 来 讲 ， 其 值 永远 是 0。 

锁 的 结尾 字 节 。 其 中 EOF 表示 锁 延 伸 到 文件 的 结尾 〈 即 对 于 fentlO 创 建 的 锁 来 讲 是 将 
| len 指定 为 0)。 对 于 flockO 锁 来 讲 ， 这 一 列 的 值 永 远 是 EOF。 




















TE Linux 2.4 以 及 之 前 的 版 本 上 , /proc/locks 文件 中 的 每 一 行 部 还 包含 五 个 额外 的 十 六 进 制 值 。 
它们 是 内 核 用 来 记录 在 各 个 列表 中 的 锁 的 指针 地 址 ， 这 些 值 对 于 应 用 程序 来 讲 是 室 无 用 处 的 。 

使 用 /proc/locks 中 的 信息 能 够 找 出 哪个 进程 持 有 了 哪个 文件 上 的 锁 。 下 面 的 shell 会 话 显 
示 了 如 何 找 出 上 面 列表 中 序号 为 3 的 锁 的 此 类 信息 。 这 个 锁 由 进程 ID 为 312 的 进程 持 有 ， 其 

















所 属 的 文件 在 主要 ID 29 3 次 要 JID 为 7 的 设备 上 的 第 133853 个 i-node 上 。 下 面 首 先 使 用 ps(]) 
列 出 进程 ID 为 312 的 进程 的 相关 信息 。 


938 


$ 





ps -p 312 
PID TTY TIME CMD 
312 ? 00:00:00 atd 





从 上 面 的 输出 可 以 看 出 持 有 锁 的 程序 是 atd， 即 执行 批 处 理 作 业 的 daemon. 
为 找 出 被 锁 住 的 文件 ， 下 面 首 先 在 /dev 目录 中 搜索 文件 并 确定 ID 为 3:7 的 设备 是 /dev/sda7。 


$ 


ls -li /dev/sda7 | awk '$6 == "3," 8& $7 == 10' 
1311 brw-rw---- 1 root disk 3, 7 May 12 2006 /dev/sda7 





接 看 确定 设备 /dev/sda7 的 挂 载 挟 并 在 该 部 分 文件 系统 中 搜索 inode 号 为 133853 的 文件 。 


$ mount | grep sda7 

/dev/sda7 on / type reiserfs (rw) Device is mounted on / 

$ su So we can search all directories 
Password: 

4 find / -mount -inum 133853 Search for i-node 133853 


/ var/run/atd.pid 
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find -mount 选项 防止 find 进入 /下 的 子 目 录 〈 表 示 其 他 文件 系统 的 挂 载 点 ) 进行 搜索 。 
最 后 显示 被 锁 住 的 文件 的 内 容 。 


# cat /var/run/atd.pid 
312 


这 样 就 能 看 出 atd daemon 持 有 了 /Var/run/atd.pid 文件 上 的 一 把 锁 ， 而 这 个 文件 中 的 内 容 就 
是 运行 atd 的 进程 的 进程 ID 。 这 个 daemon 采用 了 一 项 技术 来 确保 在 一 个 时 刻 只 有 一 个 daemon 
实例 在 运行 ， 在 55.6 节 中 将 会 对 这 项 技术 进行 描述 。 

通过 /proc/locks 还 能 够 获取 被 阻 融 的 锁 请 求 的 相关 信息 ， 如 下 面 的 输出 所 示 。 


$ cat /proc/locks 

: POSIX ADVISORY WRITE 11073 03:07:436283 100 109 

-> POSIX ADVISORY WRITE 11152 03:07:436283 100 109 
POSIX MANDATORY WRITE 11014 03:07:436283 0 9 

-» POSIX MANDATORY WRITE 11024 03:07:436283 0 9 

-> POSIX MANDATORY READ 11122 03:07:436283 0 19 
FLOCK ADVISORY WRITE 10802 03:07:134447 O EOF 

-» FLOCK ADVISORY WRITE 10840 03:07:134447 O EOF 


Jt Hp Cs Je TRO B B NE -> SE IIIA T AES ABUFH D s EHL 2E FR GO 2. o KEMA E TER FSI h n] UA 
看 出 一 个 请 求 被 阻塞 在 锁 1 上 ， 两 个 请 求 被 阻塞 在 锁 2 上 《使 用 fent10 创 建 的 一 把 锁 )， 一 个 
请 求 被 阻 窗 在 锁 3 上 《使 用 fockO 创 建 的 一 把 锁 )。 
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/proc/locks 文件 还 显示 了 系统 中 进程 持 有 的 文件 租用 的 相关 信息 。 文 件 租用 是 Linux 
特有 的 的 机 制 ， 它 自 Linux 2.4 起 可 用 。 如 果 一 个 进程 租用 了 一 个 文件 ， 那 么 该 进程 在 其 他 
进程 尝试 open0 或 truncateO 该 文件 时 会 收 到 通知 〈 通 过 发 送信 号 )。( 包 括 truncateO0 是 有 必 
要 的 ， 因 为 它 是 唯一 一 个 在 无 需 打 开 文 件 的 情况 下 就 能 够 改变 文件 的 内 容 的 系统 调用 。) 之 
所 以 提供 文件 租用 功能 是 为 了 使 得 Samba 能 够 文 持 Microsoft SMB 的 机 会 锁 Coplocks) 功 
能 以 及 允许 第 4 版 的 NFS 支持 委托 (delegations， 它 与 SMB oplocks 类 似 )。 更 多 有 关 文 件 
租用 的 细节 可 以 在 fentl(2) 手 册 中 关于 F_SETLEASE 操作 的 描述 中 找到 。 














55.6 ” 仅 运 行 一 个 程序 的 单个 实例 


些 程序 一 一 特别 是 很 多 daemon 一 一 需要 确保 同一 时 刻 只 有 一 个 程序 实例 在 系统 中 运 
行 。 完 成 这 项 任务 的 一 个 常见 方法 戌 是 daemoa 在 全 个 标准 目录 申 创建 个 灾 件 并 在 该 灾 件 晤 
ME EKM daemon 在 其 执行 期 间 一 直 持 有 这 个 文件 锁 并 在 即将 终止 之 前 删除 这 个 文件 。 
WRH I daemon 的 态 一 个 实例 ， 那 么 它 在 获取 该 文件 上 的 瑟 锁 时 束 会 失败 ， 其 结 末 是 它 会 
意识 到 daemon 的 另 一 个 实例 肯定 正在 运行 ， 然 后 终止 。 


很 多 网 络 服 务 器 采用 了 田 一 种 常规 做 法 ， 即 当 服 务 器 绑 定 的 众所周知 的 socket m O 5 
已 经 钻 使 用 时 就 认为 该 服务 占 实 例 已 经 处 于 运行 状态 了 61.10 市 )。 


Vvar/run 目录 通常 是 存放 此 类 锁 文件 的 位 置 。 或 者 也 可 以 在 daemon 的 配置 文件 中 加 一 行 
来 指定 文件 的 位 置 。 

通常 ，daemon 会 将 其 进程 ID 写 入 锁 文件 ， 因 此 这 个 文件 在 命名 时 通常 将 .pid 作为 扩展 名 (如 
syslogd 会 创建 文件 /Var/run/syslogd.pid)。 这 对 于 那些 需要 找 出 daemon 的 进程 ID. 的 应 用 程序 来 讲 是 
比较 有 用 的 。 它 还 允许 执行 额外 的 健全 检查 一 一 可 以 像 20.5 节 中 描述 的 那样 使 用 Kill(pid, 0) 来 检查 
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进程 ID 是 否 存在 。( 在 较 早 的 不 提供 文件 加 锁 的 UNIX 实现 上 ， 这 是 一 种 不 完美 但 很 实用 的 方法 ， 
用 于 检查 一 个 daemon 实例 是 否 在 运行 或 新 一 个 实例 在 终止 乙 前 是 否 没 有 成 功 删 除 这 个 文件 。) 

用 来 创建 和 锁 住 一 个 进程 ID. 锁 文 件 的 代码 存在 很 多 微小 的 差异 。 程 序 清单 55-4 根据 
[Stevens, 1999] 提 供 的 想法 提供 了 一 个 函数 createPidFile0， 它 封装 了 上 面 描述 的 步骤 。 调 用 这 
个 冰 数 通常 会 使 用 下 和 面 这 样 的 代码 。 


if (createPidFile("mydaemon", "/var/run/mydaemon.pid", 0) == -1) 
errExit("createPidFile"); 


createPidFile() K Zi rH [f] — 53 40» 2. Ab ze fH] ftruncate() 158 ER BOCTTE UP ZZ BULTETEHR PT E 
从 串 。 之 所 以 要 这 样 做 是 因为 daemon 的 上 一 个 实例 在 删除 文件 时 可 能 因 系 统 骨 省 而 失败 。 在 
这 种 情况 下 , 如 果 新 daemon 实例 的 进程 ID 较 小 , 那么 可 能 残 无 法 完全 敌 盖 之 前 文件 中 的 内 容 。 
例如 ， 如 时 进程 ID 是 789， 那 么 就 只 会 同文 件 写 入 789n， 12 ATK] daemon 实例 可 能 已 经 同文 
件 号 入 了 1234Sm， 这 时 如 果 不 规 断 文件 的 话 得 到 的 内 容 吉 会 是 789mSm。 从 严格 意义 上 来 讲 ， 
清除 所 有 既 有 字符 串 并 不 是 必需 的 ， 但 这 样 做 显得 更 加 简洁 并 且 能 排除 产生 泥 清 的 可 能 。 

在 flags 参数 中 可 以 指定 常量 CPF_CLOEXEC 将 会 导致 createPidFileO 为 文件 描述 符 设 置 
close-on-exec 标记 (27.4 广 )。 这 对 于 通过 调用 exec() 音 局 日 己 的 服务 占 来 讲 是 比较 有 用 的 。 
如 果 在 execO 时 文件 摘 述 符 没 有 被 关闭, 那么 重新 局 动 的 服务 占 会 认为 服务 占 的 男 一 个 实例 正 
处 于 运行 状态 。 
程序 清单 55-4: 创建 一 个 PID 锁 文件 以 确保 只 有 一 个 程序 实例 被 启动 了 

filelock/create pid file.c 









































#include «sys/stat.h» 

#include «fcntl.h» 

#include "region locking.h" /* For lockRegion() */ 

#include "create pid file.h" /* Declares createPidFile() and 
defines CPF CLOEXEC */ 

include "tlpi hdr.h" 


#define BUF SIZE 100 /* Large enough to hold maximum PID as string */ 
/* Open/create the file named in 'pidFile', lock it, optionally set the 
close-on-exec flag for the file descriptor, write our PID into the file, 
and (in case the caller is interested) return the file descriptor 
referring to the locked file. The caller is responsible for deleting 
'pidFile' file (just) before process termination. 'progName' should be the 
name of the calling program (i.e., argv[O] or similar), and is used only for 
diagnostic messages. If we can't open 'pidFile', or we encounter some other 
error, then we print an appropriate diagnostic and terminate. */ 
int 
createPidFile(const char *progName, const char *pidFile, int flags) 
{ 
int fd; 
char buf[BUF SIZE]; 


fd - open(pidFile, O RDWR | O CREAT, S IRUSR | S IWUSR); 
if (fd -- -1) 

errExit("Could not open PID file Xs", pidFile); 
if (flags & CPF CLOEXEC) ( 


/* Set the close-on-exec file descriptor flag */ 


flags = fcntl(fd, F GETFD); /* Fetch flags */ 
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if (flags -- -1) 
errExit("Could not get flags for PID file Xs", pidFile); 


flags |- FD CLOEXEC; /* Turn on FD CLOEXEC */ 


if (fcntl(fd, F SETFD, flags) == -1) /* Update flags */ 
errExit("Could not set flags for PID file Xs", pidFile); 
} 


if (lockRegion(fd, F WRLCK, SEEK SET, 0, O) == -1) { 
if (errno == EAGAIN || errno -- EACCES) 
fatal("PID file '%s' is locked; probably " 
"'%s' is already running", pidFile, progName); 
else 
errExit("Unable to lock PID file 'Xs'", pidFile); 


j 


if (ftruncate(fd, 0) -- -1) 
errExit("Could not truncate PID file '%s'", pidFile); 


snprintf(buf, BUF SIZE, "%ld\n", (long) getpid()); 
if (write(fd, buf, strlen(buf)) !- strlen(buf)) 
fatal("Writing to PID file '%s'", pidFile); 


return fd; 


filelock/create pid file.c 


55.7 ZNAI 


在 较 早 的 不 文 持 文件 加 锁 的 UNIX KI Ea ELSE FI ERER. SEA aE 
技术 都 已 经 被 fentlO 记 录 加 锁 押 取代 , 但 这 里 仍然 要 介绍 它们 ， 因 为 在 一 些 较 早 的 应 用 程序 中 
仍然 存在 它们 的 号 影 。 所 有 这 些 撤 术 在 性 质 上 都 是 劝告 式 的 。 




















open(file, 0_CREAT | 0 EXCL,...) 加 上 unlink(file) 


SUSv3 要 求 使 用 了 O CREAT 和 O EXCL 标记 的 openO 调 用 有 原子 地 执行 检查 文件 的 存 
在 性 以 及 创建 文件 两 个 步骤 C5.1 节 )。 这 意味 着 如 果 两 个 进程 尝试 在 创建 一 个 文件 时 指定 这 
些 标 记 ， 那 么 就 保证 只 有 其 中 一 个 进程 能 够 成 功 。( 为 一 个 进程 会 从 open0 中 收 到 EEXIST 错 
误 。) 这 种 调用 与 unlinkO 系 统 调用 组 合 起 来 区 构成 了 一 种 加 锁 机 制 的 基础 。 获 取 锁 可 通过 成 
功 地 使 用 O CREAT 和 O EXCL 标记 打开 文件 后 ， 立 即 跟 看 一 个 close0 来 完成 。 释 放 锁 则 可 
以 通过 使 用 unlink0 来 完成 。 尽 管 这 项 技术 能 够 正常 工作 ， 但 它 存 在 一 些 局 限 。 

e WR open0 失 败 了 , 即 表示 其 他 进程 拥有 了 锁 , 那么 束 必 须要 在 某 种 循环 中 重 试 openO 

操作 ， 这 种 循环 既 可 以 是 持续 不 停 地 (这 将 会 浪费 CPU 时 间 )， 也 可 以 在 相 邻 两 次 党 
试 之 间 加 上 一 定 的 延迟 〈 意 味 着 在 锁 可 用 的 时 刻 和 实际 获取 锁 的 时 刻 之 间 可 能 存在 一 
ERER). AT fentl0 之 后 则 可 以 使 用 F_SETLKW 来 阻塞 下 到 锁 可 用 为 止 。 

e 使 用 open0 和 unlinkO 获 取 和 释放 锁 涉 及 到 文件 系统 的 操作 , 这 比 记 录 锁 要 慢 很 多 。( 在 
笔者 的 一 侣 运行 Linux 2.6.31 的 x86-32 系统 上 ， 使 用 这 里 描述 的 技术 获取 和 释放 一 个 
ext3 文件 上 的 1 百 万 个 锁 需 要 花费 44 秒 。 获 取 和 释放 该 文件 中 同样 字 节 上 的 1 百 万 
个 记录 锁 仅 需要 2.5 秒 。) 
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e 如 打 一 个 进程 意外 终止 并 且 没 有 删除 锁 文 件 ， 那 么 锁 就 不 会 被 释放 。 处 理 这 个 问题 存 
在 特别 的 技术 ， 包 括 检 得 文件 的 上 次 修改 时 间 和 让 锁 的 持 有 者 将 其 进程 ID 写 入 文件 ， 
这 样 束 能 够 检查 进程 是 否 存 在 ， 但 这 些 技术 中 没有 一 项 技术 是 安全 可 菲 的 。 与 之 相反 
的 是 ， 在 一 个 进程 终止 时 记录 锁 的 释放 操作 是 原子 的 。 

e 如 果 放 置 多 把 锁 《〈 即 使 用 多 个 锁 文 件 )， 那 么 就 无 法 检测 出 死 锁 。 如 果 发 生 了 死 锁 ， 
那么 造成 死 锁 的 进程 就 会 永远 保持 阻塞 。( 每 个 进程 都 会 定 在 那里 检查 是 否 能 够 获取 
请 求 的 锁 。) 与 之 形成 对 比 的 是 ， 内 核 会 对 fcntlO 记 录 锁 进程 死 锁 检测 。 

e 第 二 版 的 NFS 不 支持 O EXCL iE Y. Linux 2.4 NFS 客户 端 也 没有 正确 地 实现 
O_EXCL， 即 使 是 第 三 版 的 NFS 以 及 之 后 的 版 本 也 没 能 完成 这 个 任务 。 





























link(file, lockfile) 加 上 unlink(lockfile) 


linkO 系 统 调用 在 新 链接 已 经 存 在 时 会 失败 的 事实 可 用 作 一 种 加 锁 机 制 ， 而 解锁 功能 则 还 
征 使 用 unlinkO0 来 完成 。 币 规 的 做 法 是 让 需要 获取 锁 的 进程 创建 一 个 唯一 的 临时 文件 名 ， 一 般 
来 讲 需 要 包含 进程 ID 如 果 锁 文件 被 创建 于 一 个 网 络 文 件 系统 上 ， 那 么 可 能 的 话 再 加 上 主机 
名 )。 要 获取 锁 则 需要 将 这 个 临时 文件 链接 到 录 个 约定 的 标准 路 径 名 上 。( 便 链接 在 语义 上 需 
要 两 个 路 径 名 位 于 同一 个 文件 系统 上 。) 如果 link0 调 用 成 功 ， 那 么 就 是 获取 了 锁 。 如 果 失 败 
(EEXIST)， 那 么 就 古 为 一 个 进程 持 有 了 锁 ， 因 此 必须 要 在 舟 后 某 个 时 刻 重新 符 试 获取 锁 。 这 
项 技术 与 上 面 介绍 的 open(file, O_CREAT | O_EXCL,…) 技 术 存在 相同 的 局 限 。 

open(file, O CREAT | O TRUNC | O WRONLY, O) plus unlink(file) 

当 指 定 O TRUNC 并 且 写 权限 被 拒绝 时 在 一 个 既 有 文件 上 调用 open0 会 失败 的 事实 可 作 
为 一 项 加 锁 撤 术 的 基础 。 要 获取 一 把 锁 可 以 使 用 下 面 的 代码 《和 省略 了 错误 检查 ) 来 创建 一 个 
狐 文 件 。 


fd = open(file, O CREAT | O TRUNC | O WRONLY, (mode t) o); 
close(fd); 























至 于 为 何在 上 和 而 的 open) H PEH (mode 4) 转换 可 参见 附录 C. 


WR open0 调 用 成 功 ( 即 文件 之 前 不 存在 )， 那 么 就 是 获取 了 锁 。 如 果 因 EACCES 而 失败 
即 文件 存在 但 没有 人 拥有 权限 )， 那 么 其 他 进程 持 有 了 锁 ， 还 需要 在 后 面 茶 个 时 刻 符 试 重新 
获取 锁 。 这 项 扩 术 与 前 面 介绍 的 扩 术 存在 相同 的 局 上限， 还 需要 注意 的 是 不 能 在 具备 超级 用 户 
符 权 的 程序 中 使 用 这 项 技术 ， 因 为 open0 总 是 会 成 功 ， 不 管 文件 上 设置 的 权限 是 什么 。 


























55.8 ati 


文件 锁 使 得 进程 能 够 同步 对 一 个 文件 的 访问 。Linux 提供 了 两 种 文件 加 锁 系 统 调用 : 从 
BSD 衍生 出 来 的 lock0 和 从 System V 衍生 出 来 的 fentl0。 尽 管 这 两 组 系统 调用 在 大 多 数 UNIX 
实现 上 都 是 可 用 的 ， 但 只 有 fcntO 加 锁 在 SUSv3 中 进行 了 标准 化 。 

flockO 系 统 调 用 对 整个 文件 加 锁 ， 可 放置 的 锁 有 两 种 : 一 种 是 共享 锁 ， 这 种 锁 与 其 他 进程 
持 有 的 共享 锁 是 兼容 的 ; 另 一 种 是 互 斥 锁 ， 这 种 锁 能 够 阻止 其 他 进程 放置 这 两 种 锁 。 

fcntlO 系 统 调 用 将 一 个 文件 的 任意 区 域 上 放置 锁 (“记录 锁 ”)， 这 个 区 域 可 以 是 单个 字 节 
也 可 以 是 整个 文件 。 可 放置 的 锁 有 两 种 ， 读 锁 和 写 锁 ， 它 们 之 间 的 兼容 性 语义 与 flockO 放 置 
的 共享 锁 和 互 斥 锁 之 间 的 兼容 性 语义 类 似 。 如 果 一 个 阻塞 式 (FE_SETLKW) 锁 请 求 将 会 导致 
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w, 35A EE ER HT SEXEUIEREH fent KK OGRE] EDEADLK 错误 )。 

使 用 flock0O 和 fcntlO 放 置 的 锁 之 间 是 相互 不 可 见 的 〈 除 了 在 使 用 fentl() S3. flockO 的 系 
统 )。 通 过 flock() 和 fcntlO0 放 置 的 锁 在 forkO 中 的 继承 语义 和 在 文件 摘 述 符 被 关闭 时 的 释放 语义 
是 不 同 的 。 

Linux 特有 的 /proc/locks 文件 给 出 了 系统 中 所 有 进程 当期 持 有 的 文件 锁 。 


更 多 信息 
[Stevens & Rago,2005] 和 [Stevens，1999] 对 fentl0 记 录 加 锁 进 行 了 详尽 的 讨论 。[Bovet & 


Cesati, 2005] 提 供 了 Linux 上 fltockO 和 fentl0 加 锁 的 一 些 实现 细节 。[Tanenbaum, 2007] 和 [Deitel 
et al., 2004] 从 总 体 上 描述 了 死 锁 的 概念 ， 包 括 死 锁 检 测 罗 辣 、 避 免 以 及 防止 。 
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55.9 习题 
55-1。 试验 运行 程序 清单 55-1 中 给 出 的 程序 (t_flock'c ) 的 多 个 实例 以 确认 下 列 有 关 flock0 

















操作 的 各 项 要 后: 
(a) 一 系列 取得 一 个 文件 上 的 共享 锁 的 进程 是 否 会 导致 一 个 尝试 在 该 文件 上 放置 
互 斥 锁 的 进程 饿 死 ? 


(b) 假设 一 个 文件 被 互 斥 地 锁 住 了 , 并 且 其 他 进程 正在 等 竺 在 该 文件 上 放置 共享 锁 
和 互 斥 锁 。 那 么 当 第 一 把 锁 被 释放 之 后 是 否 存在 什么 规则 来 确定 哪个 进程 能 够 
获取 这 把 锁 ? 如 共享 锁 是 否 比 互 斥 锁 拥 有 更 高 的 优先 级 , 或 反之 亦 然 ? 锁 的 准 
予 是 否 按照 FIFO 顺序 ? 

(c) 读者 如 果 能 够 访问 其 他 提供 了 flock0 的 UNIX 实现 , 那么 在 该 实现 上 对 这 些 规 














则 进行 确认 。 
55-2. 写 一 个 程序 来 确认 flock0 在 被 两 个 进程 用 来 锁 住 两 个 不 同 的 文件 时 是 否 对 死 锁 进 
行 检测 。 





55-3. 写 一 个 程序 来 验证 55.2.1 节 中 有 关 flockO 锁 的 继承 和 释放 语义 的 论断 。 
55-4. 试验 运行 程序 清单 55-1 中 的 程序 (t flock.c) 和 程序 清单 55-2 中 的 程序 
(i fentl locking.c) 来 观察 通过 flock() 8 fentl0 取 得 的 锁 是 否 会 相互 影响 。 读 者 如 果 
能 够 访问 其 他 UNIX 实现 ， 那 么 请 在 那些 实现 上 开展 同样 的 实验 。 
55-5. 55.3.4 市 中 指出 过 在 Linux 上 ， 添 加 或 检 碍 一 把 锁 的 存在 性 所 需 的 时 间 取 决 于 锁 在 
该 文件 上 所 有 锁 的 列表 中 的 位 置 。 编 写 两 个 程序 验证 : 
(a) 第 一 个 程序 应 该 在 一 个 文件 上 获取 《比如 说 ) 40 001 个 写 锁 。 这 些 锁 交 替 地 被 
放置 在 文件 中 的 各 个 字 节 上 ， 即 锁 会 被 放置 在 学 和 0、2、4、6， 以 此 类 推 直 
到 《比如 说 ) F 80 000。 取 得 这 些 锁 之 后 进程 就 进入 睡 虐 。 
(b) 在 第 一 个 程序 处 于 睡眠 的 时 候 ， 第 二 个 程序 循环 〈 比 如 说 ) 10 000 次 ， 在 每 个 
循环 中 使 用 FE_SETLK 来 尝试 锁 住 被 上 一 个 程序 锁 住 的 其 中 一 个 字 节 《这些 加 
锁 请 求 总 是 会 失败 )。 不 管 在 哪 次 运行 中 ,这 个 程序 总 是 尝试 锁 住 文件 的 第 NN * 
2g a 
使 用 shell 内 置 的 time 命令 ， 测 量 N 等 于 0. 10000, 20000, 30 000 以 及 40 000 
时 执行 第 二 个 程序 所 需 的 时 间 。 得 到 的 结果 是 否 与 预期 的 线性 行为 匹配 ? 
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55-6. 


55-7. 


55-8. 


55-9. 


试验 程序 清单 55-2 中 的 程序 G fentl locking.c) 来 验证 55.3.6 TPAR DMIRIEN 
fentlO 记 录 锁 优先 级 的 论断 。 

读者 如 果 能 够 访问 其 他 UNIX 实现 ， 那 么 请 使 用 程序 清单 55-2 中 的 程序 
(i fentl locking.c) 来 观察 是 否 可 以 得 出 fcntlO 记 录 加 锁 在 写 者 铬 死 方面 以 及 多 个 排 
队 锁 请 求 被 准予 的 顺序 方面 的 处 理 规则 。 

使 用 程序 清单 55-2 中 的 程序 (i_fentl locking.c 来 说 明 内 核 会 检测 出 包含 三 个 (或 
更 多 ) 对 同一 文件 进行 加 锁 的 进程 的 循环 死 锁 。 

编写 一 对 程序 〈 或 使 用 一 个 子 进 程 的 单个 程序 ) 使 它们 使 用 55.4 市 中 描述 的 强制 
式 锁 来 造成 死 锁 的 情形 。 





























55-10. 阅读 procmail 提供 的 lockfile() 实 用 工具 的 手册 ， 为 该 程序 编写 一 个 简化 版 。 
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SOCKET: 介绍 











socket 是 一 种 IPC 方法 ， 它 允许 位 于 同一 主机 (计算 机 ) 或 使 用 网 络 连接 起 来 的 不 同 主机 
的 应 用 程序 之 间 交 换 数据 。 第 一 个 被 广泛 接受 的 socket API 实现 于 1983 年 ,出 现在 了 4.2BSD 
中 ， 实 际 上 这 组 API 已 经 被 移植 到 了 所 有 UNIX 实现 以 及 其 他 大 多 数 操作 系统 上 了 。 








socketAPI 是 在 POSIX.1g 中 进行 正式 规定 的 , 它 作为 标准 草案 在 经 历 了 10 年 之 后 于 2000 
年 被 正式 认可 。 现 在 它 已 经 被 SUSv3 所 取代 了 。 


本 章 以 及 后 续 和 章节 将 介绍 socket 的 用 法 ， 具 体 如 下 。 
e 木 半 将 对 socket API 进行 一 个 全 面 的 介绍 。 下 面 的 章节 将 假设 读者 已 经 理解 了 本 章 介 
绍 的 常规 概念 。 本 半 不 会 介绍 任何 示例 代 人 码 , 后 续 革 市 将 会 介绍 有 关 UNIX 和 Internet 
domain 的 代码 示例 。 
e 第 57 章 将 介绍 UNIX domain socket， 它 允许 位 于 同一 主机 系统 上 的 应 用 程序 之 间 通 信 。 
。 第 58 章 将 介绍 各 种 计算 机 联网 概念 并 描述 TCP/IP 联网 协议 的 关键 特性 ， 它 为 后 续 草 
节 提 供 了 需要 的 背景 知识 。 
e 第 59 章 将 描述 Internet domain socket， 它 允许 位 于 不 同 主机 上 的 应 用 程序 之 间 通 过 一 
AN TCP/IP 网 络 进行 通信 。 
。 第 60 章 将 讨论 使 用 socket 的 服务 设计 。 
e 第 61 章 将 介绍 一 些 高 级 主题 , 包括 socket IO 的 其 他 特性 、TCP 协议 的 细节 信息 以 及 
如 何 使 用 socket 选项 来 获取 和 修改 socket 的 各 种 特性 。 
这 些 章 节 的 目标 仅仅 是 让 读者 在 使 用 socket 方面 建立 展 好 的 基础 。socket 程序 设计 , 特别 
是 网 络 通信 ， 本 和 映 束 是 一 个 庞大 的 主题 ， 它 需要 使 用 一 整 本 书 来 介绍 。59.15 市 列 出 了 有 关 这 
一 主题 的 更 多 信息 源 。 
































56.1 Bb 


在 一 个 典型 的 客户 端 /服务 器 场景 中 ， 应 用 程序 使 用 socket 进行 通信 的 方式 如 下 。 
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。 各 个 应 用 程序 创建 一 个 socket. socket 是 一 个 允许 通信 的 “设备 ”， 两 个 应 用 程序 都 需 











要 用 到 它 。 
e 服务 器 将 上 自己 的 socket 绑 定 到 一 个 众所周知 的 地 址 〈 名 称 ) 上 使 得 客户 端 能 够 定位 到 
它 的 位 置 。 
使 用 socket0 系 统 调用 能 够 创建 一 个 socket， 它 返回 一 个 用 来 在 后 续 系 统 调用 中 引用 该 
socket 的 文件 摘 述 符 。 


fd = socket(domain, type, protocol); 
在 后 续 章 节 中 将 会 对 socket domain 和 类 型 进行 介绍 。 在 本 书 介绍 的 所 有 应 用 程序 中 ， 
protocol 参数 总 是 被 指定 为 0。 








通信 domain 
socket 存在 于 一 个 通信 domain 中 ， 它 确定 : 
e 识别 出 一 个 socket 的 方法 〈 即 socket“ 地 址 ”的 格式 ); 
e 通信 范围 〈 即 是 在 位 于 同一 主机 上 的 应 用 程序 之 间 还 是 在 位 于 使 用 一 个 网 络 连 接 起 来 
的 不 同 主机 上 的 应 用 程序 之 间 )。 

现代 操作 系统 至 少 文 持 下 列 domain. 

e UNIX (AF UNIX) domain 允许 在 同一 主机 上 的 应 用 程序 之 间 进 行 通信 。(POSIX.1g 使 
用 名 称 AF LOCAL 作为 AF UNIX 的 同义词 ， 但 SUSv3 并 没有 使 用 这 个 名 称 。) 

。 IPv4 (AF INET) domain 允许 在 使 用 因特网 协议 第 4 版 (IPv4) 网 络 连 接 起 来 的 主机 上 
的 应 用 程序 之 间 进 行 通 信 。 

e JIPv6 (AF_INET6) domain 允许 在 使 用 因特网 协议 党 6 版 IPv6) 网 络 连接 起 来 的 主机 

上 的 应 用 程序 之 间 进 行 通信 。 尺 省 IPv6 被 设计 成 了 IPv4 接任 者 ， 但 目前 后 一 种 协议 

仍然 是 使 用 最 广 的 协议 。 

表 56-1 对 这 些 socket domain 的 特点 进行 了 总 结 。 

在 一 些 代码 中 读者 可 能 会 看 到 名 称 诸 如 PF_UNIX 而 不 是 AF UNIX 的 常量 。 在 这 种 上 下 
XB, AF 表示 “地 址 族 (address family)", PF 表示 “协议 族 (protocol family)”. 在 一 开始 
的 时 候 ， 设 计 人 员 相 信和 单个 协议 族 可 以 文 持 多 个 地 址 族 。 但 在 实践 中 ， 没 有 哪 一 个 协议 族 能 
够 文 持 多 个 已 经 被 定义 的 地 址 族 , 并 且 所 有 既 有 实现 都 将 PE 音量 定义 成 对 应 的 AF unn p] 
义 词 。(SUSv3 规定 了 AF 第 量 ， 但 没有 规定 PE E) 在 本 书 中 会 一 直 使 用 AF "E. 

多 有 关 这 些 第 量 的 历史 信息 可 以 在 [Stevens et al., 2004] 的 4.2 $H ERTI. 



























































表 56-1: socket domain 


Domain 执行 的 通信 应 用 程序 间 的 通信 地 址 格式 地 址 结构 


AF UNIX 内 核 中 同一 主机 路 径 名 sockaddr_un 

AF_INET 通过 IPv4 通过 IPv4 网 络 连接 | 32 位 IPv4 地 址 | sockaddr in 
起 来 的 主机 +16 位 端口 号 

AF INET6 通过 IPv6 通过 IPv6 网 络 连 接 | 128 位 IPv6 地 址 | sockaddr in6 


起 来 的 主机 +16 位 端口 号 





socket 类 型 
每 个 socket 实现 都 至 少 提 供 了 两 种 socket: 流 和 数据 报 。 这 两 种 socket 类 型 在 UNIX 和 
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Internet domain 中 都 得 到 了 文 持 。 表 56-2 对 这 两 种 socket 类 型 的 属性 进行 了 总 结 。 
表 56-2: socket 类 型 及 其 属性 


socket 类 型 


属性 
流 数据 报 
可 靠 地 递送 ? ^E D 
消息 边界 你 留 ? f 7E 
面 癌 连接 ? JE f 








jù socket (SOCK STREAM) 提供 了 一 个 可 徘 的 双 同 的 子 太 流通 信 信 道 。 在 这 段 插 述 中 
的 术语 的 含义 如 下 。 

e 可 靠 的 : 表示 可 以 保证 发 送 者 传输 的 数据 会 完整 无 缺 地 到 达 接 收 应 用 程序 〈 假 设 网 络 

链接 和 接收 者 都 不 会 月 沉 ) 或 收 到 一 个 传输 失败 的 通知 。 

e XI): 表示 数据 可 以 在 两 个 socket 之 间 的 任意 方 问 上 传输 。 

e FER: 表示 与 管道 一 样 不 存在 消 恩 边界 的 概念 〈 参 见 44.1 市 )。 

一 个 流 socket 类 似 于 使 用 一 对 允许 在 两 个 应 用 程序 之 间 进 行 双 回 通信 的 管道 ， 它 们 之 间 
的 差别 在 于 (nternet domain) socket 允许 在 网 络 上 进行 通信 。 

流 socket 的 正常 工 作 和 需要 一 对 相互 连接 的 socket， 因 此 流 socket 通 第 被 称 为 面 癌 连接 的 。 
术语 “对 等 socket” 是 指 连 接 另 一 唤 的 socket,“ 对 等 地 址 ”表示 该 socket 的 地 址 ,“ 对 等 应 用 
程序 ”表示 利用 这 个 对 等 socket 的 应 用 程序 。 有 些 时 候 ， 术 语 “ 远 程 ”( 或 外 部 ) 是 作为 对 等 
的 同义词 使 用 。 类 似 地 ， 有 些 时 候 术 语 “ 本 地 ”被 用 来 指 连接 的 这 一 端 上 的 应 用 程序 、socket 
或 地 址 。 一 个 流 socket 只 能 与 一 个 对 等 socket 进行 连接 。 

数据 报 socket CSOCK_DGRAM) 允许 数据 以 被 称 为 数据 报 的 消息 的 形式 进行 交换 。 在 数 
据 报 socket 中 ， 消 息 边 界 得 到 了 保留 ， 但 数据 传输 是 不 可 靠 的 。 消 息 的 到 达 可 能 是 无 序 的 、 
重复 的 或 者 根本 束 无 法 到 达 。 

数据 报 socket 是 更 一 般 的 无 连接 socket 概念 的 一 个 示例 。 与 流 socket 不 同 ， 一 个 数据 报 
socket 在 使 用 时 无 需 与 另 一 个 socket 连接 。( 在 56.6.2 节 中 将 会 看 到 数据 报 socket 可 以 与 另 一 
个 socket 连接 ， 但 其 语义 与 连接 的 流 socket 是 不 同 的 。) 

ft Internet domain 中 ， 数 据 报 socket 使 用 了 用 户 数 据 报 协议 (UDP)， 而 流 socket N) GBA) 
使 用 了 传输 控制 协议 TCP)。 一 般 来 讲 ， 在 称呼 这 两 种 socket 时 不 会 使 用 术语 “Internet domain 
数据 报 socket” 和 “JInternet domain 流 socket", 而 是 分 别 使 用 术语 “UDP socket” 和 “TCP socket”. 
























































socket 系统 调用 


关键 的 socket 系统 调用 包括 以 下 儿 种 。 

e SocketO 系 统 调 用 创建 一 个 新 socket. 

e bind0 系 统 调用 将 一 个 socket 绑 定 到 一 个 地 址 上 。 通 第， 服务 器 需要 使 用 这 个 调用 来 
将 其 socket 绑 定 到 一 个 众所周知 的 地 址 上 使 得 客户 冰 能 够 定位 到 该 socket E- 

e listen() 系 统 调用 允许 一 个 流 socket 接受 来 日 其 他 socket 的 接 入 连接 。 

e accept(O 系 统 调 用 在 一 个 监听 流 socket. 上 接受 来 自 一 个 对 等 应 用 程序 的 连接 , 并 可 选 地 
返回 对 等 socket 的 地 址 。 

e connectO 系 统 调用 建立 与 另 一 个 socket 之 间 的 连接 。 
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在 大 多 数 Linux 架构 上 (除了 Alpha 和 IA-64)， 所 有 这 些 socket 系统 调用 实际 上 被 实 
现成 了 通过 单个 系统 调用 socketcall0 进 行 多 路 复 用 的 库 函 数 。( 这 是 Linux socket 实现 的 最 
初 的 开发 工作 , 作为 一 个 单独 的 项 目的 产物 。) 但 在 本 书 中 将 所 有 这 些 函 数 都 称 为 系统 调用 ， 
因为 它们 在 最 初 的 BSD 实现 以 及 其 他 很 多 同时 代 的 UNIX 实现 上 是 被 实现 成 系统 调用 的 。 














socket I/O 可 以 使 用 传统 的 read0 和 writeO 系 统 调 用 或 使 用 一 组 socket 特有 的 系统 调用 (如 
send()、recv()、sendtoO 以 及 recvfrom()) 来 完成 。 在 默认 情况 下 ， 这 些 系 统 调用 在 IO 操作 无 
法 和 被 立即 完成 时 会 阻 套 。 人 通过 使 用 fat F SETFL 操作 《5.3 I 来 启用 O NONBLOCK 打 
开 文 件 状 态 标 记 可 以 执行 非 阻 塞 IO 


在 Linux 上 可 以 通过 调用 ioctl(fd，FIONREAD，&cnt) 来 获取 文件 描述 符 fd 引用 的 流 
socket 中 可 用 的 未 读 字 节 数 。 对 于 数据 报 socket 来 讲 ， 这 个 操作 会 返回 下 一 个 未 读数 据 报 
中 的 字 贡 数 〈 如 果 下 一 个 数据 报 的 长 度 为 零 的 话 殴 返回 堆 ) 或 在 没有 未 决 数据 报 的 情况 下 
返回 0。 这 种 特性 没有 在 SUSv3 中 了 予以 规定 。 








56.2 ”创建 一 个 socket: socket() 
SocketO 系 统 调 用 创建 一 个 新 socket. 





#include «sys/socket.h» 


int socket(int domain, int type, int protocol); 





Returns file descriptor on success, or -1 on error 





domain 参数 指定 了 socket 的 通信 domain. type 参数 指定 了 socket 类 型 。 这 个 参数 通常 在 
创建 流 socket 时 会 被 指定 为 SOCK STREAM, ， 而 在 创建 数据 报 socket 时 会 被 指定 为 
SOCK DORAM。 

protocol 参数 在 本 书 描述 的 socket 类 型 中 总 会 被 指定 为 0。 在 一 些 socket 类 型 中 会 使 用 非 
零 的 protocol 值 ， 但 本 书 并 没有 对 这 些 socket 类 型 进行 描述 。 如 在 裸 socket (SOCK RAW) 
中 会 将 protocol 指定 为 IPPROTO RAW. 

socketO 在 成 功 时 返回 一 个 引用 在 后 续 系 统 调用 中 会 用 到 的 新 创建 的 socket 的 文件 描述 符 。 

















从 内 核 2.6.27 FUR, Linux 为 type 参数 提供 了 第 二 种 用 途 , 即 允 许 两 个 非 标准 的 标记 与 
socket 类 型 取 OR, SOCK. CLOEXEC 标记 会 导致 内 核 为 狐 文 件 描述 符 局 用 close-on-exec 标 
记 〈FD_CLOEXEC)。 这 个 标记 之 所 以 有 用 的 原因 与 4.3.1 节 中 描述 的 open) O CLOEXEC 
标记 有 用 的 原因 是 一 样 的 。SOCK NONBLOCK 标记 导致 内 核 在 底层 打开 着 的 文件 描述 符 
上 设置 ONONBLOCK 标记 ， 这 样 后 面 在 该 socket 上 发 生 的 IO 操作 就 变 成 非 阻塞 了 ， 从 
而 无 需 通 过 调用 fcnt10 来 取得 同样 的 结果 。 

















56.3 将 socket 绑 定 到 地 址 : bind() 


bind() 系 统 调用 将 一 个 socket 绑 定 到 一 个 地 址 上 。 
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include «sys/socket.h» 


int bind(int sockfd, const struct sockaddr *addr, socklen t addrlen); 





Returns 0 on success, or -1 on error 








sockfd 参数 是 在 上 一 个 socketO 调 用 中 获得 的 文件 描述 符 。addr 参数 是 一 个 指针 ， 它 指 问 了 一 个 
指定 该 socket 绑 定 到 的 地 址 的 结构 。 传 入 这 个 参数 的 结构 的 类 型 取决 于 socket domain。addrlen 参数 
指定 了 地 址 结构 的 大 小 。addrlen 参数 使 用 的 socklen t 数据 类 型 在 SUSv3 被 规定 为 一 个 整数 类 型 。 

一 般 来 讲 ， 会 将 一 个 服务 器 的 socket 绑 定 到 一 个 众所周知 的 地 址 一 一 即 一 个 固定 的 与 服 

务 器 进行 通信 的 客户 端 应 用 程序 提前 就 知道 的 地 址 。 








ER TEMP HRS dH] socket 绑 定 到 一 个 众所周知 的 地 址 之 外 还 存在 其 他 做 法 。 例 如 ， 

对 于 一 个 Internet domain socket 来 讲 ， 服 务 器 可 以 不 调用 bind0 而 直接 调用 listen0， 这 将 会 
导致 内 核 为 该 socket 选择 一 个 临时 闹 口 。( 在 58.6.1 节 中 将 会 介绍 临时 端口 。〉 之 后 服务 器 
可 以 使 用 getsockname()(61.5 市 ) 来 获取 socket 的 地 址 。 在 这 种 场景 中 ， 服 务 右 必须 要 发 
布 其 地 址 使 得 客户 姗 能 够 知道 如 何 定位 到 服务 器 的 socket。 这 种 发 布 可 以 通过 同一 个 中 心目 
录 服 务 应 用 程序 注册 服务 器 的 地 址 来 完成 ， 之 后 客户 问 可 以 通过 这 个 服务 来 获取 服务 器 的 
地 址 。( 如 Sun RPC 使 用 了 目 己 的 portmapper 服务 上 右 来 解决 这 个 问题 。〉 当然 ， 目 录 服 务 应 
用 程序 的 socket 必须 要 位 于 一 个 众所周知 的 地 址 上 。 











56.4 通用 socket 地 址 结构 : struct sockaddr 


传 入 bind0 的 addr 和 addrlen 参数 比较 复杂 ,， 有 必要 对 其 做 进一步 解释 。 从 表 56-1 中 可 以 
看 出 每 种 socket domain 都 使 用 了 不 同 的 地 址 格式 。 如 UNIX domain socket 使 用 路 径 名 ， 而 
Internet domain socket 使 用 了 IP 地 址 和 端口 号 。 对 于 各 种 socket domain 都 需要 定义 一 个 不 同 
的 结构 类 型 来 存储 socket 地址。 然而 由 于 诸如 bind0 之 次 的 系统 调用 适用 于 所 有 socket domain, 
因此 它们 必须 要 能 够 接受 任意 类 型 的 地 址 结构 。 为 支持 这 种 行为 ，socket API 定义 了 一 个 通用 
的 地 址 结构 struct sockaddr。 这 个 类 型 的 唯一 用 途 是 将 各 种 domain 特定 的 地 址 结构 转换 成 单个 
类 型 以 供 socket 系统 调用 中 的 各 个 参数 使 用 。sockaddr 结构 通 沿 被 定义 成 如 下 所 示 的 结构 。 


struct sockaddr { 
sa family t sa family; /* Address family (AF * constant) */ 
char sa data[14]; /* Socket address (size varies 
according to socket domain) */ 











}; 

这 个 结构 是 所 有 domain 特定 的 地 址 结构 的 模板 , 其 中 每 个 地 址 结构 均 以 与 sockaddr 结构 
中 sa family 字段 对 应 的 family 字段 打头 。(sa family t 数据 类 型 在 SUSv3 中 被 规定 成 一 个 整 
数 类 型 。) 通 过 family 学 段 的 值 足以 确定 存储 在 这 个 结构 的 剩余 部 分 中 的 地 址 的 大 小 和 格式 了 。 








”一 些 UNIX 实现 还 在 sockaddr 结构 中 定义 了 一 个 额外 的 字段 sa_ Jen， 它 指定 了 这 个 结 
构 的 总 大 小 ,SUSv3 并 没有 要 求 这 个 字段 ,在 socket API 的 Linux 实现 中 也 不 存在 这 个 字段 。 
如 果 定 义 了 _GNU SOURCE 特性 测试 宏 ， 那 么 glibe 将 使 用 一 个 gce 扩展 在 
<sys/socket.h> 中 定义 各 个 socket 系统 调用 的 原型 ,从 而 就 无 需 进 行 (struct sockaddr *) 转 换 了 ， 
但 依赖 这 个 特性 是 不 可 移植 的 〈 在 其 他 系统 上 将 会 导致 编译 警告 )。 
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56.5 流 socket 


流 socket 的 运作 与 电话 系统 类 似 。 
1. socketO 系 统 调 用 将 会 创建 一 个 socket， 这 等 价 于 安装 一 个 电话 。 为 使 两 个 应 用 程序 能 
够 通信 ， 每 个 应 用 程序 都 必须 要 创建 一 个 socket. 
2. 通过 一 个 流 socket 通信 和 类似 于 一 个 电话 呼叫 。 一 个 应 用 程序 在 进行 通信 之 前 必须 要 将 
其 socket 连接 到 另 一 个 应 用 程序 的 socket Ko WA socket 的 连接 过 程 如 下 。 
(a) 一 个 应 用 程序 调用 bind0 以 将 socket. 绑 定 到 一 个 众所周知 的 地 址 上 , (然后 调用 
[En 通知 内 核 它 接受 接 天 连接 的 意愿 是 这 一 步 类 似 于 已 经 有 了 一 个 为 众人 所 知 
的 电话 号 人 码 并 人 确保 打开 了 电话 ， 这 样 人 们 束 可 以 打 进 电话 了 。 
(b) 其 他 应 用 程序 通过 调用 connectO0 建 并 连接 ， 同 时 指定 需 连 接 的 socket 的 地 址 。 这 
类 似 于 拨 茶 人 的 电话 号 但 。 
(c) 调用 listen0 的 应 用 程序 使 用 acceptO 接 受 连接 。 这 类 似 于 在 电话 啊 起 时 拿 起 电话 。 如 果 在 
对 等 应 用 程序 调用 connect0 之 前 执行 了 accept0， 那 么 acceptO 就 会 阻塞 CBE. 
3. 一 旦 建立 了 一 个 连接 之 后 束 可 以 在 应 用 程序 之 间 (类 似 于 两 路 电话 会 话 ) 进行 双 同 数据 
传输 耳 到 其 中 一 个 使 用 close0 关 闭 连 接 为 止 。 通 信和 是 通过 传统 的 read0 和 writeO 系 统 调 
用 或 通过 一 些 提 供 了 额外 功能 的 socket 特定 的 系统 调用 (如 send0 和 recvOO 来 完成 的 。 
56-1 演示 了 如 何在 流 socket 上 使 用 这 些 系统 调用 。 
被 动 socket 
服务 器 
sochet( ) 
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56-1: Jü socket 上 用 到 的 系统 调用 概述 











主动 和 被 动 socket 
Jii socket 通常 可 以 分 为 主动 和 被 动 丙 种。 
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e 在 默认 情况 下 , 使 用 socketO 创 建 的 socket 是 主动 的 。 一 个 主动 的 socket 可 用 在 connect 
调用 中 来 建立 一 个 到 一 个 被 动 socket 的 连接 。 这 种 行为 被 称 为 执行 一 个 主动 的 打开 。 
e 一 个 被 动 Socket〈 也 被 称 为 监听 socket) 是 一 个 通过 调用 listen0 以 被 标记 成 允许 接 入 
连接 的 socket。 接 受 一 个 接 入 连接 通 第 被 称 为 执行 一 个 被动 的 打开 。 
在 大 多 数 使 用 流 socket 的 应 用 程序 中 ， 服 务 器 会 执行 被 动 式 打开 ， 而 客户 庙会 执行 主动 式 
打开 。 在 后 面 的 小 节 中 将 会 假设 这 种 场景 ， 因 此 不 会 再 说 “执行 主动 socket 打开 的 应 用 程序 ”， 
而 是 直接 说 “客户 端 ”。 类似 地 ,“ 服 务 器 ”等 价 于 “执行 被 动 socket 打开 的 应 用 程序 ” 


56.5.1 ”监听 接 入 连接 ， listen() 


UistenO 系 统 调 用 将 文件 描述 符 sockfd 引用 的 流 socket 标记 为 被 动 。 这 个 socket 后 面 会 被 
用 来 接受 来 日 其 他 (主动 的 ) socket 的 连接 。 




















#include «sys/socket.h» 


int listen(int sockfd, int backlog); 





Returns 0 on success, or -1 on error 








无 法 在 一 个 已 连接 的 socket. CHI C28 J4AT connectOR] socket 或 由 acceptO 调 用 返回 的 
socket) 上 执行 listen()。 

要 理解 backlogs 参数 的 用 途 首 先 需要 注意 到 客户 端 可 能 会 在 服务 器 调用 acceptO 之 前 调用 
connect()。 这 种 情况 是 有 可 能 会 发 生 的 ， 如 服务 器 可 能 正 忙 于 处 理 其 他 客户 端 。 这 将 会 产生 一 
个 未 决 的 连接 ， 如 图 56-2 Drm. 

被 动 socket 
服务 器 


bindi) 





































主动 socket 
A P? 3 
socket( ) 





! 可 能 阻塞 ， 这 取决 于 后 各 
| 登录 的 连接 请 求 的 数量 





56-2: 一 个 未 决 的 socket 连接 





内 核 必须 要 记录 所 有 未 决 的 连接 请 求 的 相关 信息 , 这 样 后 续 的 acceptO 就 能 够 处 理 这 些 请 求 
J. backlog 参数 允许 限制 这 种 未 决 连接 的 数量 。 在 这 个 限制 之 内 的 连接 请 求 会 立即 成 功 。( 对 
T TOP socket 来 讲 事 情 束 稍微 有 点 复杂 了 ， 具 体会 在 61.6.4 市 中 进行 介绍 。) 之 外 的 连接 请 求 束 
会 阻塞 直到 一 个 未 决 的 连接 被 接受 〈 通 过 accept0)， 并 从 未 决 连接 队列 删除 为 止 。 

SUSv3 允许 一 个 实现 为 backlog 的 可 取 值 规定 一 个 上 限 并 允许 一 个 实现 静默 地 将 backlog 
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值 癌 下 舍 入 到 这 个 限制 值 。SUSv3 规定 实现 应 该 通过 在 <sys 人 socketh> 中 定义 SOMAXCONN 
i OK Aci m. 在 Linux 上 ， 这 个 常量 的 值 被 定义 成 了 128。 但 从 内 核 2.4.25 起 ，Linux 
允许 在 运行 时 通过 Linux 特有 的 /proc/sys/net/core/somaxconn 文件 来 调整 这 个 限制 。( 在 早期 的 
内 核 版 本 中 ，SOMAXCONN 限制 是 不 可 变 的 。) 

















在 最 初 的 BSD socket KILP, backlog 的 上 限 是 5， 并 且 在 较 早 的 代码 中 可 以 看 到 这 个 
数值 。 所 有 现代 实现 允许 为 backlog 指定 更 高 的 值 ， 这 对 于 使 用 TCP socket 服务 大 量 客户 的 
网 络 服 务 器 来 讲 是 有 必要 的 。 











56.5.2 ”接受 连接 accept() 


accept() 系 统 调用 在 文件 描述 符 sockfd 引用 的 监听 流 socket 上 接受 一 个 接 入 连接 。 如 果 在 
调用 acceptO 时 不 存在 未 决 的 连接 ， 那 么 调用 就 会 阻塞 直到 有 连接 请 求 到 达 为 目 。 





#include «sys/socket.h» 


int accept(int sockfd, struct sockaddr *addr, socklen t *addrlen); 








Returns file descriptor on success, or -1 on error 


理解 acceptO 的 关键 点 是 它 会 创建 一 个 新 socket, 并 且 正 是 这 个 新 socket 会 与 执行 connect() 
的 对 等 socket 进行 连接 。acceptO 调 用 返回 的 函数 结果 是 已 连接 的 socket 的 文件 描述 符 。 监 听 
socket (sockfd) 会 保持 打开 状态 ， 并 且 可 以 被 用 来 接受 后 续 的 连接 。 一 个 典型 的 服务 喜 应 用 
程序 会 创建 一 个 监听 socket, 将 其 绑 定 到 一 个 众所周知 的 地 址 上 , 然后 通过 接受 该 socket. 上 的 
连接 来 处 理 所 有 客户 端的 请 求 。 

传 入 acceptO 的 剩余 参数 会 返回 对 端 socket 的 地 址 。addr 参数 指 癌 了 一 个 用 来 返回 socket 
地 址 的 结构 。 这 个 参数 的 类 型 取决 于 socket domain (5 bind() 一 样 )。 

addrlen 参数 是 一 个 值 -结果 参数 。 它 指 问 一 个 整数 ， 在 调用 被 执行 之 前 必须 要 将 这 个 整数 
初始 化 为 addr 指 问 的 绥 冲 区 的 大 小 ， 这 样 内核 束 知道 有 多 少 空间 可 用 于 返回 socket 地 址 了 。 
当 accept0 返 回 之 后 ， 这 个 整数 会 被 设置 成 实际 被 复 制 进 绥 冲 区 中 的 数据 的 池 节 数 。 

如 果 不 关 心 对 等 socket 的 地 址 ， 那 么 可 以 将 addr 和 addrlen 分 别 指定 为 NULL 和 0。( 如 果 希 望 
的 话 可 以 像 61.5 节 中 描述 的 那样 在 后 面 某 个 时 刻 使 用 (Betpeername0 系 统 调用 来 获取 对 端的 地 址 : ) 


从 内 核 2.6.28 开始 ，Linux 文 持 一 个 新 的 非 标准 系统 调用 accept40。 这 个 系统 调用 执行 的 任 
务 与 acceptO 相 同 ， 但 文 持 一 个 额外 的 参数 flags， 而 这 个 参数 可 以 用 来 改变 系统 调用 的 行为 。 目 
前 系统 支持 两 个 标记 : SOCK CLOEXEC 和 SOCK NONBLOCK., SOCK CLOEXEC 标记 导致 
内 核 在 调用 返回 的 新 文件 描述 符 上 启用 close-on-exec 标记 (FD CLOEXEC)。 这 个 标记 之 所 以 有 
用 的 原因 与 4.3.1 节 中 描述 的 open0 O_CLOEXEC 标 记 有 用 的 原因 是 一 样 的 .SOCK NONBLOCK 
标记 导致 内 核 在 底层 打开 看 的 文件 描述 上 月 用 O_NONBLOCK 标记 ， 这 样 在 该 socket. 上 发 生 的 
后 续 VO 操作 将 会 变 成 非 阻 塞 了 ， 从 而 无 需 通 过 调用 fcnt10 来 取得 同样 的 结果 。 












































56.5.3 ”连接 到 对 等 socket. connect() 
connectO 系 统 调 用 将 文件 描述 符 sockfd 引用 的 主动 socket 连接 到 地 址 通过 addr 和 addrlen 
指定 的 监听 socket 上 。 
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include «sys/socket.h» 


int connect(int sockfd, const struct sockaddr *addr, socklen t addrlen); 


Returns 0 on success, or -1 on error 

















addr 和 addrlen 参数 的 指定 方式 与 bind0 调 用 中 对 应 参数 的 指定 方式 相同 。 
JUR. connectO 失 败 并 且 和 希望 重新 进行 连接 ， 那 么 SUSv3 规定 完成 这 个 任务 的 可 移植 的 方 
法 是 关闭 这 个 socket， 创 建 一 个 新 socket， 在 该 新 socket 上 重新 进行 连接 。 


56.5.4 socket I/O 


一 对 连接 的 流 socket 在 两 个 端点 之 间 提 供 了 一 个 双 问 通信 信道 ， 图 56-3 给 出 了 UNIX 
domain 的 情形 。 





应 用 入 


sock fd 





56-3: UNIX domain 流 socket 提供 了 一 个 双向 通信 信道 


连接 流 socket 上 IO 的 语义 与 管道 上 VO 的 语义 类 似 。 

o 要 执行 VO 需要 使 用 read0 和 write0 系 统 调用 (或 在 61.3 市 中 摘 述 的 socket 特有 的 send() 
和 recv0O 调 用 )。 由 于 socket 是 双 癌 的， 因此 在 连接 的 两 端 都 可 以 使 用 这 两 个 调用 。 

e 一 个 socket 可 以 使 用 close0 系 统 调用 来 关闭 或 在 应 用 程序 终止 之 后 关闭 。 之 后 当 对 等 
应 用 程序 试图 从 连接 的 另 一 端 谈 取 数据 时 将 会 收 到 文件 结束 〈 当 所 有 绥 冲 数据 都 被 读 
取 之 后 )。 如 果 对 等 应 用 程序 试图 癌 其 socket 写 入 数据 , 那么 它 束 会 收 到 一 个 SIGPIPE 
信号 ， 并 且 系 统 调 用 会 返回 EPIPE 错误 。 在 44.2 节 中 曾 提 及 过 处 理 这 种 情况 的 常见 
方式 是 忽略 SIGPIPE 信号 并 通过 EPIPE 错误 找 出 被 关闭 的 连接 。 


56.5.5 ”连接 终止 : close() 


终 上 上 一 个 流 socket 连接 的 第 见方 式 是 调用 close0。 如 末 多 个 文件 摘 述 符 引 用 了 同一 个 
socket， 那 么 当 所 有 描述 符 被 关闭 之 后 连接 束 会 终止 

假设 在 关闭 一 个 连接 之 后 ， 对 等 应 用 程序 崩溃 或 没有 读 取 或 错误 处 理 了 之 前 发 送 给 它 的 
数据 。 在 这 种 情况 下 吏 无 法 知道 已 经 上 友 生 了 一 个 铺 误 。 如 条 需 要 确保 数据 被 成 功 地 恋 取 和 处 
理 ， 那 么 就 必须 要 在 应 用 程序 中 构建 菜 种 确认 协议 。 这 通常 由 一 个 从 对 每 应 用 程序 传 过 来 的 
显 式 的 确认 消 恩 构成 。 

在 61.2 节 将 会 描述 shutdownO 系 统 调 用 ， 它 为 如 何 关 闭 一 个 流 socket 连接 提供 了 更 加 精 
细 的 控制 。 


56.6 ”数据 报 socket 


数据 报 socket 的 运作 类 似 于 邮政 系统 
1. socketO 系 统 调用 等 价 于 创建 一 个 邮箱 。《〈 这 里 假设 一 个 系统 与 一 些 国家 的 农村 中 的 邮 
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5. 








政 服 务 类 似 ， 取 信和 送信 都 是 在 邮箱 中 发 生 的 。 ) 所 有 需要 发 送 和 接收 数据 报 的 应 用 
程序 都 需要 使 用 socketO 创 建 一 个 数据 报 socket. 

为 允许 另 一 个 应 用 程序 发 送 其 数据 报 〈 信 )， 一 个 应 用 程序 需要 使 用 bind0 将 其 socket Z9 
定 到 一 个 众所周知 的 地 址 上。 一般 来 讲 ， 一 个 服务 器 会 将 其 socket 绑 定 到 一 个 众所周知 
的 地 址 上 ， 而 一 个 客户 端 会 通过 向 该 地 址 发 送 一 个 数据 报 来 发 起 通信 。( 在 一 些 domain 
中 一 一 特别 是 UNIX domain 一 一 客户 端 如 果 想 要 接受 服务 器 发 送 来 的 数据 报 的 话 可 能 还 
需要 使 用 bind0 将 一 个 地 址 赋 给 其 socket. ) 

要 发 送 一 个 数据 报 ， 一 个 应 用 程序 需要 调用 sendto()， 它 接收 的 其 中 一 个 参数 是 数据 
报 发 送 到 的 socket 的 地 址 。 这 类 似 于 将 收 信 人 的 地 址 写 到 信件 上 并 投递 这 封 信 。 

为 接收 一 个 数据 报 ， 一 个 应 用 程序 需要 调用 recvfrom0， 它 在 没有 数据 报到 达 时 会 阻塞 。 
由 于 recvfromO 人 允许 获取 发 送 者 的 地 址 ， 因 此 可 以 在 需要 的 时 候 发 送 一 个 啊 应 。( 这 在 发 送 
者 的 socket 没有 绑 定 到 一 个 众所周知 的 地 址 上 时 是 有 用 的 ， 客 户 端 通常 是 会 碰 到 这 种 情 
况 。) 这 里 对 这 个 比喻 做 了 一 点 延伸 ， 因 为 已 投递 的 信件 上 是 无 需 标记 上 发 送 者 的 地 址 的 。 
当 不 再 需要 socket 时 ， 应 用 程序 需要 使 用 close0 关 闭 socket. 


















































与 邮政 系统 一 样 ， 当 从 一 个 地 址 癌 为 一 个 地 址 发 送 多 个 数据 报信 )〉 时 是 无 法 你 证 它们 按照 
被 发 送 的 顺序 到 达 的 ， 甚 至 还 无 法 保证 它们 都 能 够 到 达 。 数 据 报 还 新 增 了 邮政 系统 所 不 具备 的 一 


NRE: 








H PERRA ANA THES EC 89 — 1 2c C. 因此 同样 的 数据 包 可 能 会 多 次 到 达 。 








图 56-4 演示 了 数据 报 socket 相关 系统 调用 的 使 用 。 


56.6.1 


服务 器 


| e Pim 
Find) 


(可 能 有 多 个 ) 数据 在 
任 一 方 癌 上 传输 



































sendto( ) 
| sendto() | 


56-4: 数据 报 socket 系统 调用 概述 


交换 数据 报 ， recvfrom 和 sendto() 





preen- 





recvfromO ll sendto0O 系 统 调 用 在 一 个 数据 报 socket 上 接收 和 发 送 数据 报 。 
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include «sys/socket.h» 


ssize t recvfrom(int sockfd, void *buffer, size t length, int flags, 


ssize t sendto(int sockfd, const void *buffer, size t length, int flags, 


struct sockaddr *src addr, socklen t *addrlem); 





Returns number of bytes received, 0 on EOF, or -1 on error 


const struct sockaddr *dest addr, socklen t addrlen); 


Returns number of bytes sent, or -1 on error 
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这 两 个 系统 调用 的 返回 值 和 前 三 个 参数 与 read RI. write0 中 的 返回 值 和 相应 参数 是 一 样 的 。 

第 四 个 参数 flags é — 1 ER, 它 控制 者 了 socket 特定 的 IO 特性 。 在 61.3 和 中 介绍 recv() 
和 send( 系 统 调用 时 将 对 这 些 特性 进行 介绍 ,如 果 无 需 使 用 其 中 任何 一 种 特性 , 那么 可 以 将 flags 
指定 为 0。 

src. addr 和 addrlen 参数 被 用 来 获取 或 指定 与 之 通信 有 的 对 等 socket 的 地 址 。 

对 于 recvfrom() 来 讲 , sre. addr 和 addrlen 参数 会 返回 用 来 友 送 数据 报 的 远程 socket 的 地 址 。 
(这 些 参数 类 似 于 acceptO P IJ addr 和 addrlen 和 参数， 它们 返回 已 连接 的 对 等 socket 的 地 址 。) 
src addr 参数 是 一 个 指针 ， 它 指 问 了 一 个 与 通信 domain 匹配 的 地 址 结构 。 与 acceptO 一 样 ， 
addrlen 是 一 个 值 -结果 参数 。 在 调用 之 前 应 该 将 addrlen 初始 化 为 src_addr 指 问 的 结构 的 大 小 ; 
在 返回 之 后 ， 它 包含 了 实际 写 入 这 个 结构 的 字 节 数 。 

如 条 不 关心 发 送 者 的 地 址 ， 那 么 可 以 将 sre. addr 和 addrlen 都 指定 为 NULL。 在 这 种 情况 
下 ，recvfrom() 等 价 于 使 用 recv0 来 接收 一 个 数据 报 。 也 可 以 使 用 read0 来 谈 取 一 个 数据 报 ， 这 
等 价 于 在 使 用 recvyO 时 将 flags 参数 指定 为 0。 

不 管 length 的 参数 值 是 什么 ，Feevfrom0O 只 会 从 一 个 数据 报 socket 申 读 取 一 条 消息 。 如 果 
消息 的 大 小 超过 了 length 字 节 ， 那 么 消息 会 补 静 默 地 截断 为 length F. 


如 果 使 用 了 recvmsg0 系 统 调用 (61.13.2 节 ), 那么 通过 返回 的 msghdr 结构 中 的 msg flags 
字段 中 的 MSG_TRUNC 标记 来 找 出 被 截断 的 数据 报 ， 有 基体 细节 请 参考 recvmsg(2) 手 册 。 


























对 于 sendtoO2&UF, dest addr 和 addrlen 参数 指定 了 数据 报 发 送 到 的 socket。 这 些 参数 的 
使 用 方式 与 connect0 中 相应 参数 的 使 用 方式 是 一 样 的 。dest_addr 参数 是 一 个 与 通信 domain [C 
配 的 地 址 结构 ， 它 会 被 初始 化 成 目标 socket 的 地 址 。addrlen 参数 指定 了 addr 的 大 小 。 


这 样 做 的 。 


56.6.2 ”在 数据 报 socket 上 使 用 connect() 


尽管 数据 报 socket 是 无 连接 的 ， 但 在 数据 报 socket 上 应 用 connectO 系 统 调 用 仍然 是 起 作 
用 的 。 在 数据 报 socket 上 调用 comnaectO 会 导致 内 核 记 录 这 个 socket 的 对 等 socket 的 地 址 。 术 
语 已 连接 的 数据 报 socket 就 是 指 此 种 socket。 术 语 非 连接 的 数据 报 socket 是 指 那些 没有 调用 
connect() 的 数据 报 socket《〈 即 新 数据 报 socket 的 默认 行为 )。 

当 一 个 数据 报 socket 已 连接 之 后: 

e 数据 报 的 发 送 可 在 socket 上 使 用 write) (或 send0) 来 完成 并 且 会 目 动 被 发 送 到 同样 

的 对 等 socket 上 。 与 sendto0 一 样 ， 每 个 write0) 调 用 会 发 送 一 个 独立 的 数据 报 ; 

e 在 这 个 socket 上 只 能 该 取 由 对 等 socket 发 送 的 数据 报 。 

注意 connectO 的 作用 对 数据 报 socket 是 不 对 称 的 。 上 面 的 论断 只 适用 于 调用 了 connectO 
数据 报 socket， 并 不 适用 于 它 连 接 的 远程 socket (除非 对 等 应 用 程序 在 其 socket 上 也 调用 了 
connect() ) 。 

通过 再 发 起 一 个 connectO 调 用 可 以 修改 一 个 已 连接 的 数据 报 socket 的 对 等 socket。 此 外 ， 
通过 指定 一 个 地 址 族 (如 UNIX domain 中 的 sun. family 字段 ) 为 AF UNSPEC 的 地 址 结构 还 
可 以 解除 对 等 关联 关系 。 但 需要 注意 的 是 ， 其 他 很 多 UNIX 实现 并 不 文 持 将 AF UNSPEC 用 
于 这 种 用 途 。 
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地 址 ”的 connect() 调 用 可 以 重 置 一 个 连接 ， 并 没有 定义 那样 一 个 术语 。SUSv4 则 明确 规定 
了 需要 使 用 AF UNSPEC., 


为 一 个 数据 报 socket 设置 一 个 对 等 socket， 这 种 做 法 的 一 个 明显 优势 是 在 该 socket 上 传 
输 数据 时 可 以 使 用 更 简单 的 WO 系统 调用 ， 即 无 需 使 用 指定 了 dest addr 和 addrlen 参数 的 
sendto(, 而 内需 要 使 用 EECEO 即 可 设置 一 个 对 等 socket 主要 对 那些 需要 向 单个 对 等 socket 
(通常 是 某 种 数据 报 客户 端 ) 发 送 多 个 数据 报 的 应 用 程序 是 比较 有 用 的 。 





在 一 些 TCP/IP 实践 中 , 将 一 个 数据 报 socket 连接 到 一 个 对 等 socket 能 够 带 来 性 能 上 的 
提升 (([Stevens et al., 2004])。 在 Linux 上 ， 连 接 一 个 数据 报 socket 能 对 性 能 产生 些许 差异 。 





56.7 At 


socket 允许 在 同一 主机 或 通过 一 个 网 络 连 接 起 来 的 不 同 主机 上 的 应 用 程序 之 间 通 信 。 

一 个 socket 存在 于 一 个 通信 domain F, WF domain 确定 了 通信 范围 和 用 来 标识 socket 
的 地 址 格式 。SUSv3 规定 了 UNIX (AF UNIX), IPv4 (AF INET) 以 及 JIPv6 (AF INET6) 
通信 domain 。 

大 多 数 应 用 程序 使 用 流 socket 和 数据 报 socket 中 的 一 种 。 流 socket (SOCK STREAM) 
为 两 个 端 之 间 提 供 了 一 颗 可 靠 的 、 双 辐 的 字 节 流通 信人 信道 。 数 据 报 socket (SOCK DGRAMD 
提供 了 不 可 靠 的 、 无 连接 的 、 面 癌 消 县 的 通信 。 

一 个 典型 的 流 socket 服务 占 会 使 用 socketO 创 建 其 socket， 然 后 使 用 bind0 将 这 个 socket 
绑 定 到 一 个 众所周知 的 地 址 上。 服务 需 接 着 调用 listen0 以 允许 在 该 socket 上 接受 连接 。 监 听 
socket 上 的 客户 问 连 接 是 通过 accept0 来 接受 的 ， 它 将 返回 一 个 与 客户 端的 socket 进行 连接 的 
新 socket 的 文件 描述 符 。 一 个 典型 的 流 socket 客户 端 会 使 用 socketO 创 建 一 个 socket， 然 后 通 
过 调用 connect0 建 立 一 个 连接 并 制定 服务 器 的 众所周知 的 地 址 。 当 两 个 流 socket 连接 之 后 残 可 以 
使 用 read0 和 write0 在 任意 一 个 方 癌 上 传输 数据 了 。 一 旦 拥有 引用 一 个 流 socket 端点 的 文件 描述 
符 的 所 有 进程 都 执行 了 一 个 隐 式 或 显示 的 close0 之 后 ， 连 接 就 会 终止。 

一 个 典型 的 数据 报 socket 服务 器 会 使 用 socketO 创 建 一 个 socket， 然 后 使 用 bindo KHH 
定 到 一 个 众所周知 的 地 址 上 。 由 于 数据 报 socket 是 无 连接 的 ， 因 此 服务 器 的 socket 可 以 用 来 
接收 任意 客户 闯 的 数据 报 。 使 用 read0 或 socket 特定 的 recvfrom(O 系 统 调 用 能 够 接收 数据 报 ， 
其 中 recvfromO 能 够 返回 发 送 socket 的 地 址 。 一 个 数据 报 socket 客户 端 会 使 用 socketO 创 建 一 
个 socket， 然 后 使 用 sendto0 将 一 个 数据 报 发 送 到 指定 的 〈 即 服务 器 的 ) 地 址 上 。connectO 系 
统 调用 可 以 用 来 为 数据 报 socket 设 定 一 个 对 等 地 址 。 在 设 定 完 对 等 地 址 之 后 就 无 需 为 发 出 去 
的 数据 报 指定 目标 地 址 了 ; writeO 调 用 可 以 用 来 发 送 一 个 数据 报 。 


更 多 信息 
参考 59.15 节 列 出 的 更 多 信息 源 。 
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94. 


SOCKET: UNIX DOMAIN 








本 章 将 介绍 允许 位 于 同一 主机 系统 上 的 进程 之 间 相 互通 信 的 UNIX domain socket 的 用 法 ， 
包括 UNIX domain 中 流 socket 和 数据 报 socket 的 使 用 ， 如 何 使 用 文件 权限 来 控制 对 UNIX 
domain socket 的 访问 ， 如 何 使 用 socketpairO 创 建 一 对 相互 连接 的 UNIX domain socket， 以 及 
Linux 抽象 socket 名 空间 。 





57.1 UNIX domain socket 地 址 : struct sockaddr un 


在 UNIX domain 中 ，socket 地 址 以 路 径 名 来 表示 ，domain 特定 的 socket 地 址 结构 的 定义 


Al Fr. 
struct sockaddr un { 
sa family t sun family; /* Always AF UNIX */ 
char sun path[108]; /* Null-terminated socket pathname */ 





sockaddr un 结构 中 字段 的 sun p% Sun Microsystems 没有 任何 关系 ， 它 是 根据 socket 
unix 而 来 的 。 

SUSv3 并 没有 规定 sun path 学 段 的 大 小 。 早 期 的 BSD 实现 使 用 108 和 104 55, ig 4 
稍微 现代 一 点 的 实现 CHP-UX 11) 则 使 用 了 92 字 市 。 可 移植 的 应 用 程序 在 编码 时 应 该 采用 最 
低 值 ， 并 且 在 回 这 个 字段 写 入 数据 时 使 用 snprintfO 9X strnepyO LA WE 46 22 n DC Tí H e 

为 将 一 个 UNIX domain socket 绑 定 到 一 个 地 址 上 ， 需要 初始 化 一 个 sockaddr un 结构 ， 然 
后 将 指 问 这 个 结构 的 一 个 (转换 ) 指针 作为 addr 参数 传 入 bind() 并 将 addrlen 指定 为 这 个 结构 
的 大 小 ， 如 程序 清单 57-1 所 示 。 


程序 清单 57-1:， 绑 定 一 个 UNIX domain socket 








const char *SOCKNAME = "/tmp/mysock"; 
int sfd; 
struct sockaddr un addr; 


sfd = socket(AF UNIX, SOCK STREAM, 0); /* Create socket */ 
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if (sfd == -1) 
errExit("socket"); 


memset(&addr, O0, sizeof(struct sockaddr un)); /* Clear structure */ 
addr.sun family - AF UNIX; /* UNIX domain address */ 
strncpy(addr.sun path, SOCKNAME, sizeof(addr.sun path) - 1); 


if (bind(sfd, (struct sockaddr *) &addr, sizeof(struct sockaddr un)) == -1) 
errExit("bind"); 





程序 清单 57-1 使 用 memsetO 调 用 来 确保 结构 中 所 有 字段 的 值 都 为 0。(〈 后 面 的 stmepyO Vs 
用 利用 这 一 点 并 将 其 最 后 一 个 参数 指定 为 sun_path 字段 的 大 小 减 一 来 确保 这 个 字段 总 是 拥有 
一 个 结束 的 null 字 节 。) 使 用 memsetO 将 整个 结构 清 零 而 不 是 一 个 字段 一 个 字段 地 进行 初始 化 
能 够 确保 一 些 实现 提供 的 所 有 非 标准 字段 都 会 被 初始 化 为 0。 


M BSD 衍生 出 来 的 bzero0 函 数 是 一 个 可 以 用 来 取代 memset0 对 一 个 结构 的 内 容 进行 清 
去 的 图 数 。SUSv3 规定 了 bzero0 以 及 相关 的 bcopy0 C memmove0 关 似 )， 但 将 这 两 个 函 
数 标记 成 了 LEGACY 并 指出 首选 使 用 memset0 和 memmove()。SUSv4 则 删除 了 与 bzero0 
和 bcopy0 有 关 的 规范 。 














当 用 来 绑 定 UNIX domain socket 时 , bindO 会 在 文件 系统 中 创建 一 个 条 目 。( 因 此 作为 socket 
路 径 名 的 一 部 分 的 目录 需要 可 访问 和 可 写 。) 文件 的 所 有 权 将 根据 常规 的 文件 创建 规则 来 确定 
(15.3.1 节 )。 这 个 文件 会 被 标记 为 一 个 socket。 当 在 这 个 路 径 名 上 应 用 stat0 时 ， 它 会 在 stat 结构 
的 st_mode 字 段 中 的 文件 类 型 部 分 返回 值 S IFSOCK(15.1 节 ),。 当 使 用 1s 汪 列 出 时 , UNIX domain 
socket 在 第 一 列 将 会 显示 类 型 s， 而 ls -FE 则 会 在 socket 路 径 名 后 面 附 加 上 一 个 等 号 (=)。 








”尽管 UNIX domain socket 是 通过 路 径 名 来 标识 的 ， 但 在 这 些 socket 上 发 生 的 J/O 无 须 
对 底层 设备 进行 操作 。 


有 天 绑 定 一 个 UNIX domain socket 方面 还 需要 注意 以 下 几 点 。 
e 无 法 将 一 个 socket 绑 定 到 一 个 既 有 路 径 名 上 (bind0 会 失败 并 返回 EADDRINUSE 错误 )。 
。 通常 会 将 一 个 socket 绑 定 到 一 个 绝对 路 径 名 上 , 这 样 这 个 socket 就 会 位 于 文件 系统 中 的 
一 个 固定 地 址 处 。 当 然 ， 也 可 以 使 用 一 个 相对 路 径 名 ， 但 这 种 做 法 并 不 常见 ， 因 为 它 要 
求 想 要 connectO 这 个 socket 的 应 用 程序 知道 执行 bnd0 的 应 用 程序 的 当前 工作 目录 。 
e 一 个 socket 只 能 绑 定 到 一 个 路 径 名 上 ， 相 应 地 ， 一 个 路 径 名 只 能 被 一 个 socket 绑 定 。 
e 无 法 使 用 open0 打 开 一 个 socket. 
e 当 不 再 需要 一 个 socket 时 可 以 使 用 unlinkO (或 removeOO. 删除 其 路 径 名 条 目 〈 通 常 
也 应 该 这 样 做 )。 
在 本 章 给 出 的 大 多 数 示 例 程 序 中 ， 将 会 把 UNIX domain socket 绑 定 到 /tmp 目录 下 的 一 个 
路 人 径 名 上 上 ， 因 为 通常 这 个 目录 在 所 有 系统 上 都 是 存在 并 且 可 写 的 。 这 样 读者 束 能 够 很 容易 地 
运行 这 些 程序 而 无 需 编辑 这 些 socket 路 人 径 名 了 。 但 需要 知道 的 是 这 通常 不 是 一 种 优秀 的 设计 
技术 。 正 如 在 38.7 节 中 指出 的 那样 ， 在 诸如 /tmp 此 类 公共 可 写 的 目录 中 创建 文件 可 能 会 导致 
各 种 各 样 的 安全 问题 。 例 如 在 /tmp 中 创建 一 个 名 学 与 应 用 程序 socket 的 路 径 名 一 样 的 路 径 名 之 
后 就 能 够 完成 一 个 人 务 单 的 拒绝 服务 攻击 了 。 现 实 世 界 中 的 应 用 程序 应 该 将 UNIX domain socket 
bindO0 到 一 个 采取 了 恰当 的 安全 保护 措施 的 目录 中 的 绝对 路 径 名 上 。 






























































958 Linux/UNIX 系统 编程 手册 ( 下 册 ) 
异步 社区 会 员 flyman150(2410757683 (9 qq.com) EF 尊重 版 权 


57.2 UNIX domain 中 的 流 socket 


下 面 讲解 一 个 简单 的 使 用 了 UNIX domain 中 的 流 socket 的 客户 端 -服务 器 应 用 程序 。 客 户 
端 程序 (程序 清单 57-4 ) 连 接 到 服务 器 并 使 用 该 连接 将 其 标准 输入 中 的 数据 传输 到 服务 器 上 。 
服务 器 程序 (程序 清单 57-3) 接受 客户 端 连接 并 将 客户 端 在 该 连接 上 发 过 来 的 数据 传输 到 标 
准 输出 上 。 这 个 服务 器 是 一 个 简单 的 欠 代 式 服 务 堪 一 一 服务 器 在 处 理 下 一 个 客户 端 之 前 一 次 
只 处 理 一 个 客户 端 。( 在 第 60 章 中 将 会 考虑 更 多 有 关 服 务 器 设计 方面 的 细节 。) 

程序 清单 57-2 是 这 些 程序 使 用 的 头 文件 。 


程序 清单 57-2:， us xfr sv.c 和 us xfr cl.c 的 头 文件 





























sockets/us xfr.h 


include «sys/un.h» 
include «sys/socket.h» 
include "tlpi hdr.h" 


define SV SOCK PATH "/tmp/us xfr" 


#define BUF SIZE 100 
sockets/us xfr.h 


E MEJLA P CAR UAR ÓS RUE EIU, ATE EET BARS OPER B — 
个 使 用 这 两 个 程序 的 例子 。 


程序 清单 57-3: 一 个 简单 的 UNIX domain 流 socket 服务 器 














sockets/us xfr sv.c 
include "us xfr.h" 


#define BACKLOG 5 


int 
main(int argc, char *argv[]) 
{ 
struct sockaddr un addr; 
int sfd, cfd; 
ssize t numRead; 
char buf[BUF SIZE]; 


sfd - socket(AF UNIX, SOCK STREAM, 0); 
if (sfd -- -1) 
errExit("socket"); 


/* Construct server socket address, bind socket to it, 
and make this a listening socket */ 


if (remove(SV SOCK PATH) == -1 8& errno !- ENOENT) 
errExit("remove-As", SV SOCK PATH); 


memset(&addr, 0, sizeof(struct sockaddr un)); 


addr.sun family - AF UNIX; 
strncpy(addr.sun path, SV SOCK PATH, sizeof(addr.sun path) - 1); 
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if (bind(sfd, (struct sockaddr *) &addr, sizeof(struct sockaddr un)) == -1) 


errExit("bind"); 


if (listen(sfd, BACKLOG) -- -1) 
errExit(" listen"); 


for (55) (1 /* Handle client connections iteratively */ 


/* Accept a connection. The connection is returned on a new 
socket, 'cfd'; the listening socket ('sfd') remains open 


and can be used to accept further connections. */ 


cfd = accept(sfd, NULL, NULL); 
if (cfd == -1) 
errExit("accept"); 


/* Transfer data from connected socket to stdout until EOF */ 


while ((numRead = read(cfd, buf, BUF SIZE)) > O) 


if (write(STDOUT FILENO, buf, numRead) !- numRead) 


fatal("partial/failed write"); 


if (numRead -- -1) 
errExit(" read"); 

if (close(cfd) -- -1) 
errMsg("close"); 


程序 清单 57-4: 一 个 简单 的 UNIX domain 流 socket 客户 端 


#include "us xfr.h" 


int 
main(int argc, char *argv[]) 


struct sockaddr un addr; 
int sfd; 

ssize t numRead; 

char buf[BUF SIZE]; 


sockets/us xfr sv.c 


sockets/us xfr cl.c 


sfd = socket(AF UNIX, SOCK STREAM, 0); /* Create client socket */ 


if (sfd -- -1) 
errExit("socket"); 


/* Construct server address, and make the connection */ 


memset(&addr, 0, sizeof(struct sockaddr un)); 
addr.sun family - AF UNIX; 


strncpy(addr.sun path, SV SOCK PATH, sizeof(addr.sun path) - 1); 


if (connect(sfd, (struct sockaddr *) &addr, 
sizeof(struct sockaddr un)) -- -1) 
errExit("connect"); 


/* Copy stdin to socket */ 
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while ((numRead = read(STDIN FILENO, buf, BUF SIZE)) > O) 
if (write(sfd, buf, numRead) !- numRead) 
fatal("partial/failed write"); 


if (numRead -- -1) 
errExit("read"); 


exit(EXIT SUCCESS); /* Closes our socket; server sees EOF */ 
} 


sockets/us xfr cl.c 





程序 清单 57-3 给 出 了 服务 器 程序 。 这 个 服务 器 执行 了 下 列 任务 。 

e 创建 一 个 socket, 

。 删除 所 有 与 路 径 名 一 致 的 既 有 文件 ， 这 样 驶 能 将 socket 绑 定 到 这 个 路 径 名 上 。 

。 为 服务 右 socket 构建 一 个 地 址 结构 ， 将 socket 绑 定 到 该 地 址 上 ， 将 这 个 socket 标记 为 
监听 Socket。 

e 执行 一 个 无 限 循环 来 处 理 进 入 的 客户 奖 请 求 。 每 次 循环 迭代 执行 下 列 任务 。 

- ”接受 一 个 连接 ， 为 该 连接 获取 一 个 新 socket cfd, 
- ”从 已 连接 的 socket 中 读 取 所 有 数据 并 将 这 些 数据 写 入 到 标准 输出 中 。 
- ”关闭 已 连接 的 socket cfd. 

服务 噩 必须 要 手工 终止 〈 如 癌 其 发 送 一 个 信号 )。 

客户 端 程 序 〈 程 序 清单 57-4) 执行 下 列 任务 。 

e 创建 一 个 socket。 

© 为 服务 器 socket 构建 一 个 地 址 结构 并 连接 到 位 于 该 地 址 处 的 socket. 

e 执行 一 个 循环 将 其 标准 输入 复制 到 socket 连接 上 。 当 遇 到 标准 输入 中 的 文件 结尾 时 客 
FURNL EIE. JESSIRIETRJ) 3m socket 将 会 被 关闭 并 且 服 务 器 在 从 连接 的 男 一 并 的 
socket 中 读 取 数据 时 会 看 到 文件 结 

下 面 的 shell 会 话 日 志 党 示 了 如 何 使 用 这 些 程序 。 痛 先 在 后 台 运 行 服务 器 。 


$ ./us xfr sv > b & 






































[1] 9866 
$ ls -1F /tmp/us xfr Examine socket file with ls 
SIWXI-XI-X 1 mtk users O Jul 18 10:48 /tmp/us xfr- 





Aa EE A e Jm H TE LAN MASAE 11 cJ fme 
$ cat *.c > a 
$ ./us_xfr cl < a Client takes input from test file 


JEU T ERG ZA I. MERKIR AE aI AR 25 8 HEU dt Hz 16 53 27) m A 





UL RO. 


$ kill %1 Terminate server 

[1]+ Terminated ./us_ xfr sv >b Shell sees server’s termination 
$ diff a b 
$ 


diff PERA EEH, odi AGRUM HA FE. 
注意 在 服务 器 终止 之后 ，socket 路 径 名 会 继续 存在 。 这 就 是 为 何 服务 器 在 调用 bindOZ Hj 











使 用 removeO 删 除 socket 路 径 名 的 所 有 既 有 实例 。( 假 设 拥有 合适 的 权限 ， 这 个 removeO 调 用 





将 会 删除 名 称 为 这 个 路 径 名 的 所 有 类 型 的 文件 ， 即 使 这 个 文件 不 是 一 个 socket) 如果 没有 这 
样 做 ， 那 么 bind0) 调 用 在 上 一 次 调用 服务 器 时 创建 了 这 个 socket 路 径 名 时 惑 会 失败 。 
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57.3 UNIX domain 中 的 数据 报 socket 


4t 56.6 E XS socket 的 一 般 性 描述 中 指出 过 使 用 数据 报 socket 的 通信 是 不 可 徘 的 。 
这 个 论断 适用 于 通过 网 络 传输 的 数据 报 。 但 对 于 UNIX domain socket 来 讲 ， 数 据 报 的 传输 是 在 
内 核 中 发 生 的 ， 并 且 也 是 可 靠 的 。 所 有 消息 都 会 按 序 被 递送 并 且 也 不 会 发 生 重 复 的 状况 。 


UNIX domain 数据 报 socket 能 传输 的 数据 报 的 最 大 大 小 


SUSv3 并 没有 规定 通过 UNIX domain socket 传输 的 数据 报 的 最 大 大 小 。 在 Linux 上 可 以 发 送 一 
个 相当 大 的 数据 报 ， 其 限制 是 通过 SO_SNDBUF socket 选项 和 各 个 /proc 文件 来 控制 的 ， 具体 可 参考 
socket(7) 手 册 。 但 其 他 一 些 UNIX 实现 采用 的 限制 值 更 小 一 些 ， 如 2048 r7. AH] T UNIX domain 
数据 报 socket 的 可 移植 的 应 用 程序 应 该 考虑 为 所 使 用 的 数据 报 大 小 的 上 限 值 设 定 一 个 较 低 的 值 。 



































示例 程序 


程序 清单 57-6 和 程序 清单 57-7 给 出 了 一 个 简单 的 使 用 UNIX domain 数据 报 socket 的 客 
户 端 /服务 器 应 用 程序 。 程 序 清单 57-5 给 出 了 这 两 个 程序 所 用 到 的 头 文 件 。 


程序 清单 57-5，ud ucase sv.c 和 ud ucase cl.c 使 用 的 头 文件 








sockets/ud ucase.h 


include «sys/un.h» 
include «sys/socket.h» 
include «ctype.h» 
include "tlpi hdr.h" 


#define BUF SIZE 10 /* Maximum size of messages exchanged 
between client to server */ 


#define SV SOCK PATH "/tmp/ud ucase" 
sockets/ud ucase.h 

服务 器 程序 〈 程 序 清单 S7-6) 首先 创建 一 个 socket 并 将 其 绑 定 到 一 个 众所周知 的 地 址 上 。 
(服务 占 先 删除 了 与 该 地 址 匹配 的 路 人 径 名 ， 以 防 出 现 这 个 路 人 径 名 已 经 存在 的 情况 。〉 HRS dA 
后 进入 一 个 无 限 循 环 ， 在 循环 中 使 用 recvfrom(O 接 收 来 目 宫 己 病 的 数据 报 ， 将 接收 到 的 文本 转 
换 成 大 小 格式 并 使 用 通过 recvfrom(O) 获 取 的 地 址 将 转换 过 的 文本 返回 给 客户 奖 。 

客户 端 程序 〈 程 序 清单 57-7) 创建 一 个 socket 并 将 这 个 socket 绑 定 到 一 个 地 址 上 ， 这 样 
服务 器 束 能 够 发 送 啊 应 了 。 客 户 问 地 址 的 唯一 性 是 通过 在 路 径 名 中 包含 客户 问 的 进程 ID 来 你 
证 的 。 然 后 客户 中 循环 ， 将 所 有 命令 行 参数 作为 一 个 个 独立 的 消息 发 送 给 服务 右 。 在 发 送 完 
每 条 消息 之 后 ， 和 客户 站 读 取 服 务 吉 的 啊 应 并 将 内 容 显 示 在 标准 输出 上 。 
程序 清单 57-6: 一 个 简单 的 UNIX domain 数据 报 服务 器 


























sockets/ud ucase sv.c 
#include "ud ucase.h" 


int 
main(int argc, char *argv[]) 


struct sockaddr un svaddr, claddr; 
int sfd, j; 
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ssize t numBytes; 
socklen t len; 
char buf[BUF SIZE]; 


sfd = socket(AF UNIX, SOCK DGRAM, 0); /* Create server socket */ 


if (sfd -- -1) 
errExit("socket"); 


/* Construct well-known address and bind server socket to it */ 


if (remove(SV SOCK PATH) == -1 && errno !- ENOENT) 
errExit("remove-4s", SV SOCK PATH); 


memset(&svaddr, 0, sizeof(struct sockaddr un)); 
svaddr.sun family - AF UNIX; 


strncpy(svaddr.sun path, SV SOCK PATH, sizeof(svaddr.sun path) - 1); 


if (bind(sfd, (struct sockaddr *) &svaddr, sizeof(struct sockaddr un)) == -1) 


errExit("bind"); 
/* Receive messages, convert to uppercase, and return to client */ 


for (5;) { 
len = sizeof(struct sockaddr un); 
numBytes - recvfrom(sfd, buf, BUF SIZE, O, 
(struct sockaddr *) &claddr, &len); 
if (numBytes -- -1) 
errExit("recvfrom"); 


printf("Server received %1d bytes from %s\n", (long) numBytes, 
claddr.sun path); 


for (j = 0; j < numBytes; j++) 
buf[j] = toupper((unsigned char) buf[jl); 


if (sendto(sfd, buf, numBytes, O, (struct sockaddr *) 8&claddr, len) !- 


numBytes) 
fatal("sendto"); 


sockets/ud ucase sv.c 


程序 清单 57-7: 一 个 简单 的 UNIX domain 数据 报 客 户 端 


sockets/ud ucase cl.c 


#include "ud ucase.h" 


int 


main(int argc, char *argv[]) 


{ 


struct sockaddr un svaddr, claddr; 
int sfd, j; 

size_t msgLen; 

ssize t numBytes; 

char resp[BUF_SIZE]; 


if (argc < 2 || strcmp(argv[1], "--help") == 0) 
usageErr("%s msg...\n", argv[0]); 
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/* Create client socket; bind to unique pathname (based on PID) */ 


sfd = socket(AF UNIX, SOCK DGRAM, O); 
if (sfd -- -1) 
errExit("socket"); 


memset(&claddr, O, sizeof(struct sockaddr un)); 

claddr.sun family - AF UNIX; 

snprintf(claddr.sun path, sizeof(claddr.sun path), 
"/tmp/ud ucase cl.Xld", (long) getpid()); 


if (bind(sfd, (struct sockaddr *) &claddr, sizeof(struct sockaddr un)) -- -1) 


errExit("bind"); 
/* Construct address of server */ 


memset(&svaddr, 0, sizeof(struct sockaddr un)); 
svaddr.sun family - AF UNIX; 


strncpy(svaddr.sun path, SV SOCK PATH, sizeof(svaddr.sun path) - 1); 


/* Send messages to server; echo responses on stdout */ 


for (j = 1; j < argc; j++) { 


msgLen = strlen(argv[j]); /* May be longer than BUF SIZE */ 
if (sendto(sfd, argv[j], msgLen, O, (struct sockaddr *) &svaddr, 


sizeof(struct sockaddr un)) !- msgLen) 
fatal("sendto"); 


numBytes - recvfrom(sfd, resp, BUF SIZE, O, NULL, NULL); 


if (numBytes -- -1) 
errExit("recvfrom"); 


printf("Response Ad: %.*s\n", j, (int) numBytes, resp); 


j 


remove(claddr.sun path); /* Remove client socket pathname */ 


exit(EXIT SUCCESS); 


下 面 的 shell 会 话 日 六 演示 了 如 何 使 用 服务 器 和 客户 站 程序 。 


$ ./ud ucase sv & 
[1] 20113 


sockets/ud ucase cl.c 


$ ./ud ucase cl hello world Send 2 messages to server 


Server received 5 bytes from /tmp/ud ucase cl.20150 
Response 1: HELLO 
Server received 5 bytes from /tmp/ud ucase cl.20150 
Response 2: WORLD 


$ ./ud ucase cl 'long message' Send 1 longer message to server 


Server received 10 bytes from /tmp/ud ucase cl.20151 
Response 1: LONG MESSA 


$ kill 41 Terminate server 





IA mF SS SANHA EE. recvfromO 调 用 中 指定 了 一 个 比 消 妃 更 小 的 length 值 





(BUF SIZE 在 程序 清单 57-5 中 被 定义 成 了 10) 以 说 明 消 息 会 被 静默 地 截断 。 读 者 可 以 看 出 这 


种 截断 确实 及 生 了 ， 因 为 服务 左 打 印 出 了 一 








的 消息 则 由 12 AP 5E AJ o 
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57.4 UNIX domain socket 权限 


socket 文件 的 所 有 权 和 权限 决定 了 哪些 进程 能 够 与 这 个 socket 进行 通信 。 

e 要 连接 一 个 UNIX domain 流 socket 需要 在 该 socket 文件 上 拥有 写 权 限 。 

。 要 通过 一 个 UNIX domain 数据 报 socket 上 友 送 一 个 数据 报 需要 在 该 socket 文件 上 拥有 

写 权 限 。 

此 外 ， 需 要 在 存放 socket 路 径 名 的 所 有 目录 上 都 拥有 执行 《搜索 ) 权限 。 

在 默认 情况 下 ， 创 建 socket (通过 bindO0) 时 会 给 所 有 者 (用 户 )、 组 以 及 other 用 户 
赋予 所 有 的 权限 .要 改变 这 种 行为 可 以 在 调用 bind0 之 前 先 调用 umaskO2K £5 H] Avis 8 WAT? 
的 权限 。 

一 些 系 统 会 忽略 socket 文件 上 的 权限 (SUSv3 人 允许 这 种 行为 )。 因 此 无 法 可 移植 地 使 用 
socket 文件 权限 来 控制 对 socket 的 访问 , 尽管 可 以 可 移植 地 使 用 窒 主 目录 上 的 权限 来 达到 这 一 
目标 。 


























57.5 创建 互联 socket 对 : socketpair() 


有 时 候 让 单个 进程 创建 一 对 socket 并 将 它们 连接 起 来 是 比较 有 用 的 。 这 可 以 通过 使 用 两 
个 SocketO 调 用 和 一 个 bindO 调 用 以 及 对 listen()、connect()、accept()( 用 于 流 socket) 的 调用 
或 对 connect) (用 于 数据 报 socket) 的 调用 来 完成 。socketpairO 系 统 调用 则 为 这 个 操作 提供 了 
= 下 








#include «sys/socket.h» 


int socketpair(int domain, int type, int protocol, int sockfd[2]); 


Returns 0 on success, or -1 on error 











socketpairO 系 统 调用 只 能 用 在 UNIX domain 中 ， 即 domain 参数 必须 被 指定 为 AF UNIX. 
(这 个 约束 适用 于 大 多 数 实现 ,但 却 是 合理 的 ,因为 这 一 对 socket 是 创建 于 单个 主机 系统 上 的 。) 
socket IJ type 可 以 被 指定 为 SOCK DGRAM 或 SOCK STREAM. protocol 参数 必须 为 0。sockfd 
数组 返回 了 引用 这 两 个 相互 连接 的 socket 的 文件 摘 述 符 。 

将 type 指定 为 SOCK_STREAM 相当 于 创建 一 个 双 同 管道 (也 被 称 为 流 管 道 )。 每 个 socket 
都 可 以 用 来 读 取 和 写 入 ,并 且 这 两 个 socket 之 间 每 个 方向 上 的 数据 信道 是 分 开 的 。( 在 从 BSD 
演化 来 的 实现 中 ，pipe0 被 实现 成 了 一 个 对 socketpairO 的 调用 。) 

一 般 来 讲 ，socket 对 的 使 用 方式 与 管道 的 使 用 方式 类 似 。 在 调用 宛 socketpair0 之 后 ， 进 程 
会 使 用 fork0 创 建 一 个 子 进程 。 子 进程 会 继承 父 进程 的 文件 描述 符 的 副本 ,包括 引用 socket 对 
的 摘 述 符 。 因 此 父 进 程 和 子 进程 束 可 以 使 用 这 一 对 socket 来 进行 IPC 了 。 

使 用 socketpairO 创 建 一 对 socket 与 手工 创建 一 对 相互 连接 的 socket 这 两 种 做 法 之 间 的 一 
个 差别 在 于 前 一 对 socket 不 会 被 绑 定 到 任意 地 址 上 。 这 样 就 能 够 避免 一 类 安全 问题 了 ， 因 为 
这 一 对 socket 对 其 他 进程 是 不 可 见 的 。 
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从 内 核 2.6.27 开始 ，Linux 为 type 参数 提供 了 第 二 种 用 途 ， 即 允许 将 两 个 非 标 准 的 标记 
与 socket type W OR. SOCK CLOEXEC 标记 会 导致 内 核 为 两 个 新 文件 描述 符 启 用 
close-on-exec 标记 (ED CLOEXEC )。 这 个 标记 之 所 以 有 用 的 原因 与 4.3.1 PHRA open) 
O_CLOEXEC 标记 有 用 的 原因 是 一 样 的 。SOCK NONBLOCK 标记 会 导致 内 核 在 两 个 底层 打 
开 着 的 文件 描述 符 上 设置 O_ NONBLOCK 标记 , 这 样 在 该 socket 上 发 生 的 后 续 VO 操作 就 不 
会 阻塞 了 ， 从 而 就 无 需 通过 调用 fcnt10 来 取得 同样 的 结果 了 。 











57.6 Linux 抽象 Socket 名 空间 


所 谓 的 抽象 路 径 名 空间 是 Linux 特有 的 一 项 特性 ， 它 允许 将 一 个 UNIX domain socket 2? 
定 到 一 个 名 字 上 但 不 会 在 文件 系统 中 创建 该 名 字 。 这 种 做 法 具备 几 点 优势 。 

。 无 需 担 心 与 文件 系统 中 的 既 有 名 字 产 生 冲 突 。 

e 没有 必要 在 使 用 完 socket 之 后 删除 socket 路 径 名 。 当 socket 被 关闭 之 后 会 自动 删除 这 

个 抽象 名 。 
e Jii socket 创建 一 个 文件 系统 路 径 名 了 。 这 对 于 chroot 环境 以 及 在 不 具备 文件 系统 
上 的 写 权 限时 是 比较 有 用 的 。 

要 创建 一 个 抽象 绑 定 束 需 要 将 sun path 字段 的 第 一 个 学 节 指 定 为 null F (00. CHE 
能 够 将 抽象 socket 名 字 与 传统 的 UNIX domain socket 路 和 颂 名 区 分 开 来 ， 因 为 传统 的 名 字 是 由 
一 个 或 多 个 非 空 学 节 以 及 一 个 终止 null £744 EX HJ P5. sun path 学 段 的 余下 的 学 市 为 
socket 定义 了 抽象 名 字 。 在 解释 这 个 名 凶 时 需要 用 到 全 部 学 节 ， 而 不 是 将 其 看 成 是 一 个 以 null 
结尾 的 字符 串 。 

程序 清单 57-8 演示 了 如 何 创建 一 个 抽象 socket 绑 定 。 


程序 清单 57-8: 创建 一 个 抽象 socket Ste 



































from sockets/us abstract bind.c 
struct sockaddr un addr; 


memset(&addr, 0, sizeof(struct sockaddr un)); /* Clear address structure */ 
addr.sun family - AF UNIX; /* UNIX domain address */ 


/* addr.sun path[0] has already been set to 0 by memset() */ 


strncpy(&addr.sun path[1], "xyz", sizeof(addr.sun path) - 2); 
/* Abstract name is "xyz" followed by null bytes */ 


sockfd = socket(AF UNIX, SOCK STREAM, O); 
if (sockfd -- -1) 
errExit("socket"); 


if (bind(sockfd, (struct sockaddr *) &addr, 
sizeof(struct sockaddr un)) -- -1) 
errExit("bind"); 


from sockets/us abstract bind.c 


使 用 一 个 初始 null 32K [X 4) fll socket 名 和 传统 的 socket 44 Zt oe In) Ha. 
假设 变量 name EHN T -AKERI HAA UNIX domain socket 绑 定 到 一 个 按 
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照 下 列 方式 初始 化 sun path 的 名 字 上 。 

strncpy(addr.sun path, name, sizeof(addr.sun path) - 1); 

在 Linux 上 ， 束 会 在 无 意 中 创建 了 一 个 抽象 socket 绑 定 。 但 这 种 代码 可 能 并 不 是 期 望 中 
的 代码 《〈 即 一 个 bug)。 在 其 他 UNIX 实现 中 ， 后 续 的 bindOVR FH 








57.7 kt 


UNIX domain socket 允许 位 于 同一 主机 上 的 应 用 程序 之 间 进 行 通 信 。UNIX domain 文 持 流 
和 数据 报 socket. 

UNIX domain socket 是 通过 文件 系统 中 的 一 个 路 径 名 来 标识 的 。 文 件 权 限 可 以 用 来 控制 对 
UNIX domain socket 的 访问 。 

socketpairO 系 统 调用 创建 一 对 相互 连接 的 UNIX domain socket。 这 样 就 无 需 调用 多 个 系统 
调用 来 创建 、 绑 定 以 及 连接 socket, — socket 对 的 使 用 方式 通常 与 管道 关 似 : 一 个 进程 创建 
socket 对 ,然后 创建 一 个 其 引用 socket 对 的 描述 答 的 子 进程 。 然后 这 两 个 进程 就 能 够 通过 这 个 
socket 对 进行 通信 了 。 

Linux 特有 的 抽象 socket 名 空间 允许 将 一 个 UNIX domain socket 绑 定 到 一 个 不 存在 于 文件 
系统 中 的 名 字 上 。 


更 多 信息 
参考 59.15 市 中 列 出 的 更 多 信息 源 。 


























57.8 2] 


57-1. 在 57.3 节 中 指出 过 UNIX domain 数据 报 socket 是 可 靠 的 。 编 写 程序 说 明 如 果 一 个 
发 送 者 同一 个 UNIX domain 数据 报 socket 发 送 数 据 报 的 速度 大 于 接收 者 读 取 的 速 
上 度 ,， 那 么 发 送 者 最 终 会 阻 玫 ， 并 保持 阻 竖 和 直到 接收 者 谈 取 了 其 中 一 些 未 决 的 数据 报 
zer 

57-0. 重 写 程序 清单 57-3 中 的 程序 Cs xfr sv.c) 和 程序 清单 57-4 中 的 程序 Cus. xfr cl.c) 
使 它们 使 用 Linux 特有 的 抽象 socket 名 空间 (57.6 T). 

57-3. 使 用 UNIX domain 流 socket 重新 实现 44.8 下 中 的 序号 服务 器 和 客户 端 。 

57-4. 假设 创建 了 两 个 绑 定 到 路 径 /somepath/a 和 /somepath/b 上 的 UNIX domain 数据 报 
socket, 并 将 socket /somepath/a 连接 到 /somepath/b 上 。 如 果 创 建 第 三 个 数据 报 socket 
并 尝试 通过 绑 定 到 /somepath/a 的 socket 发 送 〈sendto0) 一 个 数据 报 会 发 生 什 么 情 
况 呢 ? 编写 一 个 程序 来 确认 这 个 问题 的 答案 。 恋 者 如 果 能 够 访问 其 他 UNIX 系统 的 
话 ， 可 以 在 那些 系统 上 测试 这 个 程序 并 观察 一 下 答案 是 合 会 发 生变 化 。 
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SOCKET: TCP/IP 网 络 基础 


本 革 将 介绍 计算 机 联网 概念 和 TCP/IP 联网 协议 ， 理 解 这 些 主题 对 于 有 效 利 用 下 一 草 介 绍 
的 Internet domain socket 来 讲 是 非常 有 必要 的 。 

从 本 草 开始 将 会 提 及 各 个 RFC 文档 ,在 本 书 中 介绍 的 每 一 种 联网 协议 都 是 通过 RFC 来 进 
TT IE BD Je 在 58.7 节 中 将 会 介绍 更 多 有 关 RFC 的 信息 以 及 与 本 书 介 绍 的 主题 特别 相关 的 
一 系列 RFC。 


58.1 互联 网 


互联 网 络 (internetwork)， 或 更 一 般 地 ， 互 联网 (internet， 小 写 的 让 ， 会 将 不 同 的 计算 机 
网 络 连 接 起 来 并 允许 位 于 网 络 中 的 主机 相互 乙 间 进行 通信 。 换 句 话 说 ， 一 个 互联 网 是 由 计算 
机 网 络 组 成 的 一 个 网 络 。 术 语 子 网 络 ， 或 子 网 ， 用 来 指 组 成 因特网 的 其 中 一 个 网 络 。 互 联网 
的 目标 是 隐 忠 不 同 物理 网 络 的 细 市 以 便 回 互联 网 络 中 的 所 有 主机 呈现 一 个 统一 的 网 络 架 构 ， 
例如 ， 这 意味 着 可 以 使 用 单个 地 址 格式 来 标识 互联 网 上 的 所 有 主机 。 

尽管 已 经 设计 出 了 多 种 互联 网 互联 协议 ， 但 TCP/IP 已 经 成 了 使 用 为 最 广泛 的 协议 套件 了 ， 
它 甚 全 已 经 取代 了 之 前 在 局 域 网 和 广域网 中 常见 的 私有 联网 协议 了 。 术 语 Internet KSH D 
伞 用 来 指 将 全 球 成 和 干 上 万 的 计算 机 连接 起 来 的 TCP/IP 互联 网 。 

第 一 个 航 广 泛 使 用 的 TCP/IP 实现 出 现在 了 1983 年 的 4.2BSD 中 。 一 些 TCP/IP 实现 是 下 
接 从 BSD 代码 误 化 而 来 的 ， 其 他 的 实现 〈 包 括 Linux? 则 是 从 零 开 始 编写 的 ， 但 它们 在 定义 
TCP/IP 的 操作 时 将 BSD 代码 的 操作 当成 了 参考 标准 。 

TCP/IP 是 从 美 防 部 先进 研究 项 目 局 (Advanced Research Projects Agency, ARPA, 
之 后 又 被 称 为 DARPA， 其 中 D 表示 Defense). 资助 的 一 个 项 目 中 成 长 出 来 的 ， 该 项 目 主 要 
是 想 设计 出 一 个 计算 机 联网 架构 以 供 早 期 的 广域网 ARPANET 使 用 。 在 20 世纪 70 ER, 

一 个 新 的 协议 族 被 设计 出 来 供 ARPANET 使 用 。 准 确 地 讲 ， 这 些 协议 被 称 为 DARPA 因 特 
网 协议 套件 ， 但 它们 通常 被 称 为 TCP/IP 协议 套件 ， 或 者 简单 地 被 称 为 TCP/IP。 

网 页 http://www.isoc.org/internet/history/brief.shtml 提供 了 与 Internet 和 TCP/AP 有 天 的 一 

段 简短 的 历史 。 
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图 58-1 给 出 了 一 个 简单 的 互联 网 。 在 这 幅 图 中 ， 机 器 tekapo 是 一 种 路 由 器 ， 它 一 台 将 一 
个 子 网 络 连接 到 另 一 个 子 网 络 并 在 它们 之 间 传 输 数据 的 计算 Cza 
机 。 除 了 需要 理解 所 使 用 的 互联 网 协议 之 外 ， 一 台 路 由 器 还 必 
须要 理解 它 连接 的 各 个 子 网 所 使 用 的 (可 能 ) 不 同 的 数据 链 路 
层 协议 。 

一 台 路 由 器 拥有 多 个 网 络 接口 ， 每 个 接口 都 连接 到 一 个 子 
网 上 。 更 通用 的 术语 “多 宿主 机 ”用 来 指 拥 有 多 个 网 络 接口 的 DE. 
[EE 3EBL——T E— 6 ER OR. CL PEDIS EH IR X — [————3À 
是 说 它 是 将 包 从 一 个 子 网 转发 到 另 一 个 子 网 的 一 台 多 宿主 
机 。) 一 个 多 宿主 机 的 各 个 接口 上 的 网 络 地 址 是 不 同 的 〈 即 其 ”图 58-1: 使 用 一 人 台 路 由 器 连接 
连接 的 各 个 子 网 的 地 址 是 不 同 的 )。 两 个 网 络 的 互联 网 










Network 1 




















58.2 联网 协议 和 层 


一 个 联网 协议 古 定义 如 何在 一 个 网 络 上 传输 信息 的 一 组 规则 。 联 网 协议 通明 会 被 组 织 成 
一 系列 的 层 ， 其 中 每 一 层 都 构建 于 下 层 之 上 并 提供 特性 以 供 上 层 使 用 。 

TCP/IP 协议 套件 是 一 个 分 层 联网 协议 (图 58-2)， 它 包括 因特网 协议 (IP〉 和 位 于 其 上 层 
的 各 个 协议 层 。( 实 现 这 些 层 的 代码 通 第 被 称 为 协议 栈 。) 名 字 TCP/IP 是 从 传输 控制 协议 CTCP) 
是 使 用 最 为 广泛 的 传输 层 协议 这 样 一 个 事实 而 得 出 来 的 。 























在 图 58-2 中 省 略 了 其 他 一 些 TCP/P 协议 ， 因 为 它们 与 本 章 的 主题 无 关 。 地 址 解析 协 
议 CARP) 关注 的 是 如 何 将 因特网 地 址 映射 到 硬件 (如 以 太 网 ) 地 址 。 因 特 网 控制 消息 协 
议 (ICMP) 用 来 在 网 络 中 传输 错误 和 控制 信息 。(ping 和 traceroute 程序 使 用 的 是 ICMP 协 
议 ， 人 们 通常 使 用 ping 来 检查 一 台 特 定 的 主机 是 否 存活 以 及 是 否 在 TCP/IP 网 络 中 可 见 , 使 
用 traceroute 来 跟 踊 一 个 IP 包 在 网 络 中 的 传输 路 人 径 。〉 主 机 和 路 由 器 使 用 因特网 组 省 理 协议 
(IGMP) RLF IP 数据 报 的 多 播 。 


协议 分 层 如 此 强大 和 有 灵活 的 其 中 一 个 原因 是 透明 一 一 每 一 个 协议 层 都 对 上 层 隐 藏 下 层 的 
操作 和 复杂 性 ， 如 一 个 使 用 TCP 的 应 用 程序 只 需要 使 用 标准 的 socket API 并 清楚 目 己 正在 使 
用 一 项 可 菲 的 凶 市 流传 输 服 务 ， 而 无 需 理 解 TCP 操作 的 细节 。( 在 61.9 节 中 介绍 socket 选项 
时 将 会 看 到 严格 地 讲 这 一 论断 并 不 总 是 正确 的 ， 应 用 程序 侦 尔 也 需要 弄 清楚 底层 传输 协议 的 
操作 细节 。) 应 用 程序 也 无 需 知道 IP 和 数据 链 路 层 的 操作 细节 。 从 应 用 程序 的 角度 来 讲 ， 它 束 
像 是 通过 socket API 直接 与 其 他 层 进 行 通 信 了 ， 如 图 58-3 所 示 ， 其 中 虚 横 线 表 示 对 应 应 用 程 
序 之 间 的 虚拟 通信 路 径 以 及 两 个 主机 上 的 TCP M IP 实体 。 


封 效 是 分 层 联 网 协议 中 的 一 个 重要 的 原则 。 K 58-4 给 出 了 TCP/IP. 协议 层 中 的 封闭 。 封 装 
中 的 关键 概念 是 低层 会 将 从 高 层 问 低层 传递 的 信息 〈 如 应 用 程序 数据 、TCP Bt. IP 数据 报 ) 
当成 不 透明 的 数据 来 处 理 。 换 多 话说， 低层 不 会 答 试 对 融 层 发 送 过 来 的 信息 进行 解释 ， 而 只 
会 将 这 上 坚信 息 放 到 低层 所 使 用 的 包 中 并 在 将 这 个 包 问 下 传递 到 低层 乙 前 添加 目 喘 这 一 层 的 头 
于 轧 。 当 数据 从 低层 传递 到 融 层 时 将 会 进行 一 个 逆 问 的 解 包 过 程 。 
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网 络 介质 
58-2: TCP/IP 套件 中 的 协议 


应 用 定义 的 协议 


MUHB- dae a a > 应 用 层 

Edd (传输 应 用 数据 ) 

-— 2OLQLQSOICPWEO 00008 TCP 
(传输 TCP 分 段 ) 


IP Wi 
-i E 
(传输 IP 数 据 报 ) 


ATE ]e---. mima enr 
Se (传输 数据 帧 ) Ie 


网 络 介质 
58-3: 通过 TCP/IP 协议 进行 的 分 层 通信 


封装 的 概念 还 延伸 到 了 数据 链 路 层 ， 其 中 IP 数据 报 会 被 封装 进 网 络 帧 中 ， 但 在 图 58-4 
中 并 没有 显示 出 这 些 。 封 装 可 能 还 会 延伸 到 应 用 层 中 ， 其 中 应 用 程序 可 能 会 按照 自己 的 方 
式 对 数据 进行 打包 。 
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应 用 定义 的 内 容 


应 用 数据 


w 一 一 一 
= —— = 


TCP 报头 
源 + 目的 端口 号 、 序 列 号 、 
确认 号 、 标 志 、 校 验 和 等 TCP 
28 


TCP 数据 





I | 
| | 
l | 
IP 报头 Y IP 数据 t 
源 + 目 的 了 地址 、 
报头 校 验 和 等 IP 
数据 报 





图 58-4: TCP/IP 协议 层 中 的 封装 


58.3 URHEA 


图 58-2 中 的 最 低层 是 数据 链 路 层 ， 它 由 设备 张 动 和 到 撒 层 物理 浆 介 《如 电话 线 、 同 轴 电 
d. BROGTIO 的 使 件 接口 《网 卡 ) 构成 。 数 据 链 路 层 关注 的 是 在 一 个 网 络 的 物理 链接 上 传输 
数据 。 

要 传输 数据 ， 数 据 链 路 层 知 要 将 网 络 层 传递 过 来 的 数据 报 封 滔 进补 称 为 帆 的 一 个 一 个 单 
元 。 除 了 需要 传输 的 数据 之 外 ， 每 个 帧 都 会 包含 一 个 类， 如 关中 可 能 包含 了 目标 地 址 和 帧 的 
大 小 。 数 据 链 路 层 在 物理 链接 上 传输 帧 并 处 理 来 自 接 收 者 的 确认 。( 不 是 所 有 的 数据 链 路 层 都 
使 用 确认 。) 这 一 层 可 能 会 进行 错误 检测 、 重 传 以 及 流量 控制 。 一 些 数据 链 路 层 还 可 能 会 将 大 
的 网 络 包 分 割 成 多 个 由 并 在 接收 者 病 对 这 些 帧 进行 重组 。 

从 应 用 程序 编程 的 角度 来 讲 通常 可 以 忽略 数据 链 路 层 ， 因 为 所 有 的 通信 细节 都 是 由 驱动 
和 使 件 来 处 理 的 。 

对 于 有 关 P 的 讨论 来 讲 ， 数 据 链 路 层 中 比较 重要 的 一 个 特 氮 是 最 大 传输 单元 (MTU). 
数据 链 路 层 的 MTU 是 该 层 所 能 传输 的 巾 大 小 的 上 限 。 不 同 的 数据 链 路 层 的 MTU 是 不 同 的 。 


命令 netstat -i 会 列 出 系统 中 的 网 络 接口 ， 包 括 其 MTU. 



































58.4 网 络 层 : IP 


位 于 数据 链 路 层 之 上 的 是 网 络 层 ， 它 关注 的 是 如 何 将 包 《〈 数 据 ) 从 源 主 机 发 送 到 目标 主 
机 。 这 一 层 执行 了 很 多 任务 ， 包 括 以 下 几 个 。 
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e 将 数据 分 解 成 足够 小 的 片段 以 便 数 据 链 路 层 进行 传输 《〈 如 有 必要 的 话 )。 

。 在 因特网 上 路 由 数据 。 

。 为 传输 层 提供 服务 。 

在 TCP/IP 协议 套件 中 , 网 络 层 的 主要 协议 是 IP。 在 4.2BSD 实现 中 出 现 的 IP 的 版 本 是 IP 
版 本 4 (IPv4)。 在 20 世纪 90 年代 早 期 设计 出 了 IP 的 一 个 修正 版 : IP 版 本 6 (CIPv6)。 这 两 个 
版 本 之 间 最 显著 的 差别 在 于 IPv4 使 用 32 位 地 址 来 标识 子 网 和 主机 ， 而 IPv6 则 使 用 了 128 位 
的 地 址 ， 从 而 能 为 主机 提供 更 大 的 地 址 范围 。 虽 然 目前 在 因特网 上 IPv4 仍然 古 使 用 最 广 IP 
版 本 ， 但 在 将 来 它 会 被 耻 v6 所 取代 。IPv4 和 IPv6 ASA UIT] UDP 和 了 CP 传输 层 协议 《以 
及 很 多 其 他 协议 )。 


尽管 从 理论 上 来 讲 ，32 位 的 地 址 空间 提供 了 数 以 亿 计 的 IPv4 网 络 地 址 ， 但 地 址 的 结构 和 
分 配 放 置 决定 了 实际 可 用 的 地 址 数量 要 少许 多 ,IPv4 地 址 空间 的 桂 竟 是 创造 IPv6 主要 原因 。 

^H X IPv6 的 简 史 可 在 http://www.laynetworks.com/IPv6.htm 处 找到 。 

IPv4 和 IPv6 的 存在 引出 了 一 个 问题 “IPv5 UE? ”事实 上 从 来 束 没 有 IPv5 这 种 东西 。 
每 个 IP 数据 报头 都 包含 一 个 4 位 的 版 本 号 字段 ( 即 IPv4 数据 报 的 这 个 字段 值 总 是 数字 4), 
而 版 本 号 5 则 被 指派 给 了 一 个 试验 协议 因特网 流 协 议 Internet Stream Protocol。(RFC 1819 
描述 了 这 个 协议 的 第 二 版 ， 人 简写 为 ST-I。) Æ 20 世纪 70 年代 最 初 构想 的 时 候 ， 这 个 面 问 连 
接 的 协议 吏 被 设计 成 文 持 音 频 和 视频 传输 以 及 分 布 式 仿 趴 。 由 于 IP 数据 报 版 本 写 5 已 经 被 
指派 过 了 ， 因 此 IPv4 的 升级 版 就 使 用 了 版 本 号 6。 















































图 58-2 给 出 了 一 个 裸 socket (SOCK RAW)， 它 允许 应 用 程序 直接 与 IP 层 进行 通信 。 这 
里 不 会 对 裸 socket 的 使 用 进行 描述 ， 因 为 大 多 数 应 用 程序 会 使 用 基于 其 中 一 种 传输 层 协 议 “TCP 
或 UDP) 之 上 的 socket。[Stevens et al., 2004] 的 第 28 EXTIR socket 进行 了 描述 。 有 关 裸 socket 的 
使 用 方面 的 一 个 富有 教育 意义 的 例子 是 sendip 程序 C http//www.earth.li/projectpurple/ 
progs/sendip.html)， 它 是 一 个 命令 行 驱 动 的 工具 ， 人 允许 使 用 任意 内 容 来 构建 和 传输 IP 数据 报 
(包括 构建 UDP 数据 报 和 TCP 段 的 选项 )。 


IP 传输 数据 报 


IP 以 数据 报 ( 包 ) 的 形式 来 传输 数据 。 在 两 个 主机 之 间 发 运 的 每 一 个 数据 报 邦 是 在 网 络 
上 独立 传输 的 ， 它 们 经 过 的 路 径 可 能 会 不 同 。 一 个 IP 数据 报 包 含 一 个 头 ， 其 大 小 范围 为 20 ^r 
市 到 60 学 节 。 这 个 头 中 包含 了 目标 主机 的 地 址 ， 这 样 就 可 以 在 网 络 上 将 这 个 数据 报 路 由 到 目标 
地 址 了 。 此 外 ， 它 还 包含 了 包 的 源 地 址 ， 这 样 接收 主机 就 知道 数据 报 的 源头 。 

















发 送 主 机 可 以 伪造 一 个 包 的 源 地 址 ， 这 也 是 SYN 洪 泛 这 种 TCP 拒绝 服务 攻击 的 基础 。 
[Lemon, 2002] 描 述 了 这 种 攻击 的 细 贡 以 及 现代 TCP 实现 为 解决 这 个 问题 所 采取 的 措施 。 





一 个 IP 实现 可 能 会 给 它 所 文 持 的 数据 报 的 大 小 设 定 一 个 上 限 。 所 有 IP. 实现 都 必须 做 到 数 
据 报 的 大 小 上 限 全 少 与 规定 的 卫 最 小 重组 绥 冲 区 大 小 (minimum reassembly buffer size) 一 样 
大 。 在 IPv4 中 ， 这 个 限制 值 是 576 F; 在 IPv6 中 ， 这 个 限制 值 是 1500 FI. 


IP 是 无 连接 和 不 可 靠 的 
IP 是 一 种 无 连接 协议 ， 因 为 它 并 没有 在 相互 连接 的 两 个 主机 之 间 提 供 一 个 虚拟 电路 。]IP 
也 是 一 种 不 可 靠 的 协议 : 它 尽 最 大 可 能 将 数据 报 从 发 送 者 传输 给 接收 者 ， 但 并 不 保证 包 到 达 
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fa SB 


的 顺序 会 与 它们 被 传输 的 顺序 一 致 ， 也 不 保证 包 是 否 重复 ， 其 至 都 不 保证 包 是 
通过 使 用 一 个 可 菲 


者 。 卫 也 没有 提供 错误 恢复 〈 头 信息 错误 的 包 会 被 静默 地 丢弃 )。 可 对 性 是 
的 传输 层 协 议 〈 如 TCP) 或 应 用 程序 本 喘 来 保证 的 。 


IPv4 为 IP 头 提 供 了 一 个 校 验 和 ， 这 样 就 能 够 检测 出 头 中 的 错误 ， 但 并 没有 为 包 中 所 传 
输 的 数据 提供 任何 错误 检测 机 制 。IPv6 并 没有 为 IP 头 提供 检验 和 , 它 依赖 高 层 协议 来 完成 
错误 检测 和 可 靠 性 。CUDP 校 验 和 在 IPv4 是 可 选 的 ， 但 一 般 来 讲 都 是 启用 的 ;UDP 校 验 和 
fr IPv6 是 强制 的 。TCP 校 验 和 在 IPv4 和 IPv6 中 都 是 强制 的 。) 

IP 数据 报 的 重复 是 可 能 发 生 的 ， 因 为 一 些 数据 链 路 层 采 用 了 一 些 技术 来 确保 可 靠 性 以 
及 IP 数据 报 可 能 会 以 隧道 形式 穿越 一 些 采 用 了 重 传 机 制 的 非 TCP/IP 网 络 。 

















IP 可 能 会 对 数据 报 进行 分 段 

IPv4 数据 报 的 最 大 大 小 为 65 535 学 和 。 在 默认 情况 下 ，IPv6 允许 一 个 数据 报 的 最 大 大 小 
为 65 575 字 节 “(40 字 节 用 于 存放 头 信息 ，65 535 字 节 用 于 存放 数据 )， 并 且 为 更 大 的 数据 报 
(所 谓 的 jumbograms) 提供 了 一 个 选项 。 

之 六 曾经 提 过 大 多 数 数 据 链 路 层 会 为 数据 帧 的 大 小 设 定 一 个 上 限 (MTU)。 如 在 常见 的 以 
太 网 架构 中 这 个 上 限 值 是 1500 F EA P 数据 报 的 最 大 大 小 要 小 得 多 )。IP 还 定义 了 路 
径 MTU 的 概念 ， 它 是 源 主机 到 目的 主机 之 间 路 由 上 的 所 有 数据 链 路 层 的 最 小 MTU。( 在 实践 
中 ， 以 太 网 MTU 通 弟 是 路 径 中 最 小 的 MTU 。) 

当 一 个 卫 数据 报 的 大 小 大 于 MTU 时 ， 卫 会 将 数据 报 分 段 〈 分 解 ) 成 一 个 个 大 小 适合 在 
网 络 上 传输 的 单元 。 这 些 分 段 在 达到 最 终 目 的 地 之 后 会 被 重组 成 原始 的 数据 报 。( 每 个 卫 分 段 
本 身 就 是 包含 了 一 个 偏 移 量 字段 的 IP 数据 报 ， 该 字段 给 出 了 一 个 该 分 段 在 原始 数据 报 中 的 位 
置 。) 

IP 分 段 的 发 生 对 于 高 层 协 议 层 是 透明 的 ， 并 且 一 般 来 讲 也 并 不 希望 发 生 这 种 事情 (Kent 
& Mogul, 1987])。 这 里 的 问题 在 于 由 于 IP 并 不 进行 重 传 并 且 只 有 在 所 有 分 段 都 达到 目的 地 之 后 
才能 对 数据 报 进行 组 闻 ， 因 此 如 果 其 中 一 些 分 段 丢失 或 包含 传输 错误 的 话 融 会 导致 整个 数据 报 
不 可 用 。 在 一 些 情 况 下 ， 这 会 导致 极 高 的 数据 丢失 率 〈 适 用 于 不 进行 重 传 的 高 层 协议 ， 如 UDP) 
或 降低 传输 速率 〈 适 用 于 进行 重 传 的 高 层 协议 ， 如 TCP). WAR TCP 实现 采用 了 一 些 算法 〈 路 
径 MTU RIL) 来 确定 主机 之 闻 的 一 条 路 径 的 MTU， 并 根据 该 值 对 传递 给 IP 的 数据 进行 分 解 ， 
这 样 IP 就 不 会 倍 到 需要 传输 大 小 超过 MTU 的 数据 报 的 情况 了 。UDP 并 没有 提供 这 种 机 制 ， 在 
58.62 节 中 将 会 考虑 基于 UDP 的 应 用 程序 如 何 处 理 IP 分 段 的 情况 。 



























































58.5 IP 地 址 


一 个 卫 地 址 包含 两 个 部 分 : 一 个 是 网 络 ID, 它 指定 了 主机 所 属 的 网 络 ; 另 一 个 是 主机 ID, 
它 标识 出 了 位 于 该 网 络 中 的 主机 。 





IPv4 地 址 


一 个 IPv4 地 址 包含 32 位 (图 58-3)。 当 以 人 类 可 读 的 形式 来 表示 时 ， 这 些 地 址 通 间 的 书 
写 通常 采用 点 分 十 进 制 标记 法 ， 即 将 地 址 的 4 个 字 节 写成 一 个 十 进 制 数字 ， 中 间 以 点 号 隔 开 ， 











第 58 章 SOCKET: TCP/IP 网 络 基础 973 


异步 社区 会 员 flyman150(2410757683 (9 qq.com) EF 尊重 版 权 


如 204.152.189.116. 


e — 3 位 一 ~ 


网 络 地 址 
rela 全 0 


58-5: 一 个 IPv4 网 络 地 址 和 对 应 的 网 络 掩 码 


当 一 个 组 织 为 其 主机 申请 一 组 IPv4 地 址 时 , 它 会 收 到 一 个 32 位 的 网 络 地 址 以 及 一 个 对 应 
的 32 位 的 网 络 掩 码 。 在 二 进 制 形 式 中 ， 这 个 掩 码 最 左边 的 位 由 1 构成 ， 掩 码 中 剩余 的 位 用 0 
填充 。 这 些 1 表示 地 址 中 哪些 部 分 包含 了 所 分 配 到 的 网 络 ID ， 而 这 些 0 则 表示 地 址 中 哪些 部 
分 可 供 组 织 用 来 为 网 络 中 的 主机 分 配 唯 一 的 ID 。 手 码 中 网 络 ID 部 分 的 大 小 会 在 分 配 地 址 时 确 
定 。 由 于 网 络 ID 部 分 总 是 占据 着 撼 码 最 左边 的 部 分 ， 因 此 可 以 通过 下 面 的 标记 法 来 指定 分 配 
的 地 址 范围 。 

204.152.189.0/24 

这 里 的 /24 表示 分 配 的 地 址 的 网 络 ID 由 最 左边 的 24 位 构成 ,剩余 的 8 位 用 于 指定 主机 ID。 
或 者 在 这 种 情况 下 也 可 以 说 网 络 掩 码 的 点 分 十 进 制 标 记 是 255.255.255.0. 

拥有 这 个 地 址 的 组 织 可 以 将 254 个 唯一 的 因特网 地 址 分 配给 其 计算 机 一 一 204.152.189.1 到 
204.152.189.254。 有 两 个 地 址 是 无 法 分 配给 计算 机 的 ， 其 中 一 个 地 址 的 主机 ID 的 位 都 是 0， 
它 用 来 标识 网 络 本 身 ， 另 一 个 地 址 的 主机 ID 的 位 都 是 1 一 一 在 本 例 中 是 204.152.189.255 一 一 
它 是 子 网 广播 地 址 。 

一 些 IPv4 地 址 拥有 特殊 的 含义 。 特 殊 地 址 127.0.0.1 一 般 被 定义 为 回环 地 址 ， 它 通常 会 被 
分 配给 主机 名 localhost。( 网 络 127.0.0.0/8 中 的 所 有 地 址 都 可 以 被 指定 为 IPv4 回环 地 址 , 但 通 
第 会 选择 127.0.0.1。) 发 送 到 这 个 地 址 的 数据 报 实 际 上 不 会 到 达 网 络 ， 它 会 日 动 回环 变 成 发 送 
主机 的 输入 。 使 用 这 个 地 址 可 以 便捷 地 在 同一 主机 上 测试 客户 端 和 服务 器 程序 。 在 C 程序 中 
定义 了 整数 常量 INADDR LOOPBACK 来 表示 这 个 程序 。 

常量 INADDR ANY 就 是 历 谓 的 IPv4 通 配 地 址 。 通 配 IP 地 址 对 于 将 Internet domain 
socket 绑 定 到 多 宿主 机 上 的 应 用 程序 来 讲 是 比较 有 用 的 。 如 果 位 于 一 台 多 宿主 机 上 的 应 用 程 
序 只 将 socket 绑 定 到 其 中 一 个 主机 IP 地 址 上 , 那么 该 socket 就 只 能 接收 发 送 到 该 卫 地址 上 
的 UDP 数据 报 和 TCP 连接 请 求 。 但 一 般 来 讲 都 希望 位 于 一 台 多 宿主 机 上 的 应 用 程序 能 够 接 
收 指定 任意 一 个 主机 卫 地 址 的 数据 报 和 连接 请 求 , 而 将 socket 绑 定 到 通 配 IP 地 址 上 使 之 成 
为 了 可 能 。SUSv3 并 没有 为 INADDR_ANY 规定 一 个 特定 的 值 , 但 大 多 数 实现 将 其 定义 成 了 
0.0.0.0 (全 是 0)。 

一 般 来 讲 ，IPv4 地 址 是 划分 子 网 的 。 划 分 子 网 将 一 个 IPv4 地 址 的 主机 ID 部 分 分 成 两 个 部 
4j: 一 个 子 网 ID 和 一 个 主机 ID (图 58-6)。( 如 何 划 分 主机 ID 的 位 完全 是 由 网 络 管理 员 来 决定 
的 。) 子 网 划分 的 原理 在 于 一 个 组 织 通 常 不 会 将 其 所 有 主机 接 到 单个 网 络 中 。 相 反 ， 组 织 可 能 会 
开启 一 组 子 网 (一 个 “内 部 互联 网 络 ”)， 每 个 子 网 使 用 网 络 ID 和 子 网 ID 组 合 起 来 标识 。 这 种 
组 合 通 党 被 称 为 扩展 网 络 D。 在 一 个 子 网 中 ， 子 网 扒 人 码 所 扮演 的 角色 与 之 前 描述 的 网 络 掩 人 码 的 
角色 是 一 样 的 ， 并 且 可 以 使 用 类 似 的 标记 法 来 表示 分 配给 一 个 特定 子 网 的 地 址 范围 。 

例如 假设 分 配 到 的 网 络 ID 是 204.152.189.0/24， 这 样 可 以 通过 将 主机 ID 的 8 位 中 的 4 位 
划分 成 子 网 ID 并 将 剩余 的 4 位 划分 成 主机 ID 来 对 这 个 地 址 范围 划分 子 网 。 在 这 种 情况 下 ， 
子 网 欣 码 将 由 28 个 前 导 工 后 面 跟 独 4 个 0 构成 ,ID 为 1 的 子 网 将 会 被 表示 为 204.1$2.189.16/28。 
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i — ————— — — — — $9 4i —————————————- 


网 络 地 址 FID 
一 > 


€—— 扩展 网 络 ID 





子 网 掩 码 全 1 


58-6: IPv4 子 网 划分 


IPv6 地 址 


IPv6 地 址 的 原理 与 IPv4 地 址 是 类 似 的 ， 它 们 之 间 关 键 的 甜 别 在 于 IPv6 地 址 由 128 位 构 
成 ， 其 中 地 址 中 的 前 面 一 些 位 是 一 个 格式 前 缀 ， 表 示 地 址 类 型 。( 这 里 不 会 深入 介绍 这 些 地 址 
类 型 的 细节 有， 细节 信 息 可 参考 [Stevens et al., 2004] 的 附录 A 和 RFC 3513.) 

IPv6 HEHHE 55 9 32 55 JV RIH H m S2F 16 位 的 十 六 进 制 数字 ， 如 下 所 示 。 

F000:0:0:0:0:0:A:1 

IPv6 地 址 通 癌 包含 一 个 0 序列 ， 并 且 为 了 标记 方便 ， 可 以 使 用 两 个 分 号 CO 来 表示 这 种 
序列 。 因 此 上 面 的 地 址 可 以 被 重 写成 : 

F000::A:1 

在 IPv6 地 址 中 只 能 出 现 一 个 双 骨 号 标记 ， 出 现 多 次 的 话 会 造成 混 消 。 

IPv6 也 像 IPv4 地 址 那样 提供 了 环 回 地 址 (127 个 0 后 面 跟着 一 个 1， 即 ::1) 和 通 配 地 址 
(所 有 都 为 0， 可 以 书写 成 0::0 或 ::)。 

为 允许 IPv6 应 用 程序 与 只 文 持 IPv4 的 主机 进行 通信 ,IPv6 提供 了 所 谓 的 IPv4 映射 的 卫 v6 
地 址 ， 图 58-7 给 出 了 这 些 地 址 的 格式 。 























IPv4 Hi ht 





80 位 16 位 39 位 
58-7: IPv4 映射 的 IPv6 地 址 的 格式 


在 书写 IPv4 映射 的 IPv6 地 址 时 ， 地 址 的 IPv4 部 分 〈 即 最 后 4 个 字 节 ) 会 被 书写 成 IPv4 
的 点 分 十 进 制 标记 。 此 与 204.152.189.116 等 价 的 IPv4 映射 的 IPv6 地 址 
是 ::FFFF:204.152.189.116。 


58.6 ”传输 层 


在 TCP/IP 套件 中 使 用 广泛 的 两 个 传输 层 协议 如 下 。 

e 用 户 数据 报 协议 CUDP) 是 数据 报 socket 所 使 用 的 协议 。 

o 传输 控制 协议 CTCP) 是 流 socket 所 使 用 的 协议 。 

在 介绍 这 些 协议 之 前 首先 需要 对 两 个 协议 都 用 到 的 问 口 号 这 个 概念 进行 介绍 。 


58.6.1 xm L1 9 


传输 层 协 议 的 任务 是 向 位 于 不 同 主机 《或 有 时 候 位 于 同一 主机 ) 上 的 应 用 程序 提供 端 到 
闹 的 通信 和 服务。 为 完成 这 个 任务 ， 传 输 层 宕 要 采用 一 种 方法 来 区 分 一 个 主机 上 的 应 用 程序 。 
在 TCP 和 UDP 中 ， 这 种 区 分 工作 是 通过 一 个 16 位 的 问 口 号 来 完成 的 。 
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众所周知 的 、 注 册 的 以 及 特权 端口 

有 些 众 所 周知 的 端口 号 已 经 被 永久 地 分 配给 特定 的 应 用 程序 了 《也 称 为 服务 )。 例 
如 ssh (安全 的 shell?) daemon 使 用 众所周知 的 端口 22，HTTP (Web 服务 器 和 浏览 器 之 
间 通 信 时 上 所 采 用 的 协议 ) 使 用 众所周知 的 端口 80。 众 所 周知 的 端口 的 问 口 号 位 于 0 一 
1023 之 间 ， 它 是 由 中 央 授 权 机 构 互 联网 号 码 分 配 局 (IANA, http://www.iana.org/) 来 分 
配 的 。 一 个 众所周知 的 咒 口 所 的 分 配 是 由 一 个 被 核 准 的 网 络 规范 《通关 以 REFC BÉ XO 
来 规定 的 。 

IANA 还 记录 看 注册 端口 ， 将 这 些 端口 分 配给 应 用 程序 开发 人 员 的 过 程 就 不 那么 严格 了 
《这 也 意味 痢 一 个 实现 无 需 傈 证 这 些 冰 口 是 仿真 正 用 于 它们 注册 时 申请 的 用 途 )。IANA 注册 的 
闸口 范围 为 1024~~41951。( 不 是 所 有 位 于 这 个 范围 内 的 问 口 都 被 注册 了 。) 

IANA 众所周知 的 更 新 列表 和 注册 病 口 分 配 情况 可 以 在 http:/www.iana.org/assignments/ 
port-numbers 上 找到 。 

在 大 多 数 TCP/IP 实现 (包括 Linux) F, WEA 0 到 1023 间 的 交口 号 也 是 特权 端口 ， 
这 意味 着 只 有 特权 (CAP NET. BIND SERVICE) 进程 可 以 绑 定 到 这 些 端口 上 ， 从 而 防止 
了 普通 用 户 通 过 实现 恶意 程序 〈 如 伪造 ssh) 来 获取 密码 。〈 有 些 时 候 ， 特 权 端 口 也 被 称 为 
保留 端口 。) 

尽管 问 口 号 相同 的 TCP 和 UDP 端口 是 不 同 的 实体 , 但 同一 个 众所周知 的 端口 写 通 常会 同 
时 被 分 配给 基于 TCP 和 UDP 的 服务 , 即使 该 服务 通 音 只 提供 了 其 中 一 种 协议 服务 。 这 种 惯例 
3t f. D 3m E17 4E PA BNAUT PE TRGB TIT DU 



























































临时 端口 

如 果 一 个 应 用 程序 没有 选择 一 个 特定 的 端口 ( 即 在 socket 术语 中 , 它 没 有 调用 bind() 
将 其 socket 绑 定 到 一 个 特定 的 端口 上 )， 那 么 TCP 和 UDP 会 为 该 socket 分 配 一 个 唯一 
的 临时 端口 〈《 即 存活 时 间 较 短 )。 在 这 种 情况 下 , 应 用 程序 一 一 通常 是 一 个 客户 端 
不 关心 它 所 使 用 的 端口 号 ， 但 分 配 一 个 咽 口 对 于 传输 层 协 议 标 识 通 信 端 点 来 讲 是 有 必 
要 的 。 这 种 做 法 的 另 一 个 结果 是 位 于 通信 信道 另 一 问 的 对 等 应 用 程序 惑 知 道 如 何 与 这 
个 应 用 程序 通信 了 。TCP 和 UDP 在 将 socket 绑 定 到 端口 0 上 时 也 会 分 配 一 个 临时 端 
[1 5s 

IANA 将 位 于 49152 到 65535 之 间 的 端口 称 为 动态 或 私有 端口 , io ez dot E i 1 n] BEAR 
应 用 程序 使 用 或 作为 临时 端口 分 配 。 然 后 不 同 的 实现 可 能 会 在 不 同 的 范围 内 分 配 临时 端口 。 
在 Linux 上 ， 这 个 范围 是 由 包含 在 文件 /proc/sys/neUipv4/ip_ local port range 中 的 两 个 数字 来 定 
XJ] CHE dox o roe eS RO. 


58.6.2 用户 数据 报 协 议 ( UDP ) 


UDP 仅仅 在 正之 上 诬 加 了 两 个 特性 : 疹 口号 和 一 个 进行 检 训 传输 数据 销 误 的 数据 校 验 和 。 

与 一样，UDP 也 是 无 连接 的 。 由 于 它 并 没有 在 卫 之 上 增加 可 菲 性 ， 因 此 UDP 是 不 可 
靠 的。 如 果 一 个 基于 UDP 的 应 用 程序 需要 确保 可 徘 性 ， 那 么 这 项 功能 就 必须 要 在 应 用 程序 中 
予以 实现 。 如 来 别 除 个 可 徘 这 个 特点 的 话 ， 在 有 些 时 候 可 能 倾 加 于 使 用 UDP imie TCP, H 
体 原因 可 以 在 61.12 市 中 找到 。 
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UDP 和 TCP 使 用 的 校 验 和 的 长 度 只 有 16 位 并 且 只 是 简单 的 “总 结 性 ” 校 验 和 ， 因 此 
无 法 检测 出 特定 的 错误 ， 其 结 采 是 无 法 提供 较 强 的 错误 检测 机 制 。 崇 忙 的 互联 网 服务 堪 通 
利 只 能 每 隔 儿 天 看 一 下 未 检测 出 的 传输 错误 的 平均 情况 〈[Stone & Partridge, 2000])。 需 要 
更 多 确保 数据 完整 性 的 应 用 程序 可 以 使 用 安全 Sockets J (Secure Sockets Layer, SSL), 它 
不 仅仅 提供 了 安全 的 通信 ， 而 且 还 提供 更 加 严格 的 错误 检测 过 程 。 或 者 应 用 程序 也 可 以 实 
现 目 己 的 错误 控制 机 制 。 




















选择 一 个 UDP 数据 报 大 小 以 避免 IP 分 段 

在 58.4 节 中 描述 过 IP 分 段 机 制 并 指出 过 通常 应 该 尽 可 能 地 避免 IP 分 段 。TCP 提供 了 避 
f& IP 分 段 的 机 制 ， 但 UDP 并 没有 提供 相应 的 机 制 。 使 用 UDP 时 如 果 传 输 的 数据 报 的 大 小 超 
过 了 本 地 数据 链接 的 MTU， 那 么 很 容易 就 会 导致 卫 分 段 。 

基于 UDP 的 应 用 程序 通常 不 会 知道 源 主机 和 目的 主机 之 间 的 路 径 的 MTU。 一 般 来 讲 ， 
基于 UDP 的 应 用 程序 会 采用 保守 的 方法 来 避免 IP 分 段 ， 即 确保 传输 的 IP. 数据 报 的 大 小 小 于 
IPv4 的 组 装 绥 冲 区 大 小 的 最 小 值 576 字 节 。( 这 个 值 很 有 可 能 是 小 于 路 径 MTU 的 。) 在 这 576 
字 节 中 ， 有 8 个 字 节 是 用 于 存放 UDP 头 的， 另外 最 少 需要 使 用 20 个 字 贡 来 存放 了 王 头 ， 剩 下 
的 548 字 节 用 于 存放 UDP 数据 报 本 身 。 在 实践 中 ， 很 多 基于 UDP 的 应 用 程序 会 选择 使 用 一 
个 更 小 的 值 512 FERTA (Stevens, 1994] )。 


58.6.3 ”传输 控制 协议 (TOP ) 


TCP 在 两 个 端点 〈 即 应 用 程序 ) 之 间 提 供 了 可 靠 的 、 面 癌 连 接 的 、 双 同 字 节 流 通信 信道 ， 
如 图 58-8 所 示 。 为 提供 这 些 特 性 ，TCP 必须 要 执行 本 节 中 描述 的 任务 。( 有 关 所 有 这 些 特性 
的 详细 摘 述 可 以 在 [Stevens, 1994] 中 找到 。) 
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58-8: 已 连接 的 TCP socket 


这 里 使 用 术语 TCP 端点 来 表示 TCP 连接 一 端的 内 核 所 维护 的 信息 。( 通 常会 进一步 对 这 
个 术语 进行 缩写 ， 如 仅 书写 “一 个 TCP” 来 表示 “一 个 TCP 端点 ”或 “客户 端 TCP” 来 表示 
“客户 端 应 用 程序 维护 的 TCP 端点 。”) 这 部 分 信息 包括 连接 这 一 端的 发 送 和 接收 缓冲 区 以 及 维 
护 的 用 来 同步 两 个 已 连接 的 端点 的 操作 的 状态 信息 。( 在 61.6.3 节 中 介绍 TCP 状态 迁移 图 时 
将 深入 介绍 状态 信息 的 细节 。) 在 本 书 余下 的 部 分 中 将 使 用 术语 接收 TCP 和 发 送 TCP RE 
示 一 个 用 来 在 特定 方向 上 传输 数据 的 流 socket 连接 两 端 的 接收 和 发 送 应 用 程序 。 


连接 建立 
在 开始 通信 之 前 ，TCP 需要 在 两 个 站 点 之 间 建 立 一 个 通信 信道 。 在 连接 建立 期 间 ， 发 大 
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者 和 接收 者 需要 交换 选项 来 协商 通信 的 参数 。 
将 数据 打包 成 段 
数据 会 被 分 解 成 段 ， 每 一 个 段 都 包含 一 个 校 验 和 ， 从 而 能 够 检测 出 端 到 痢 的 传输 错误 。 
每 一 个 段 使 用 单个 IP 数据 报 来 传输 。 
确认 、 重 传 以 及 超时 


当 一 个 TCP 段 无 错 地 达到 目的 地 时 ,接收 TCP 会 向 发 送 者 发 送 一 个 确认 ， 通知 它 数 据 发 
送 递 送 成 功 了 。 如 有 果 一 个 段 在 到 达 时 是 存在 错误 的 ， 那 么 这 个 段 束 会 被 丢弃， 确认 信息 也 不 
会 被 及 送 。 为 处 理 段 永远 不 到 达 或 被 丢弃 的 情况 ， 发 送 者 在 发 送 每 一 个 段 时 会 开局 一 个 定时 
名 。 如 果 在 定时 避 超 时 之 前 没有 收 到 确认 ， 那 么 束 会 重 传 这 个 段 。 























由 于 所 使 用 的 网 络 以 及 当前 的 流量 负载 会 影 啊 传 输 一 个 段 和 接收 其 确认 所 需 的 时 间 ， 
此 TCP 采用 了 一 个 算法 来 动态 地 调整 重 传 超时 时 间 〈RIO) 的 大 小 。 

接收 TCP 可 能 不 会 立即 发 送 确认 ， 而 是 会 等 待 儿 坚 秒 来 观察 一 下 是 合 可 以 将 确认 仁 进 
接收 者 返回 给 发 送 者 的 啊 应 中 。( 每 个 TCP 段 都 包含 一 个 确认 字段 ， 这 样 融 能 将 确认 穴 进 
TCP 段 中 了 。) 这 项 被 称 为 延迟 ACK 的 技术 的 目的 是 能 少 发送 一 个 TCP 段 ， 从 而 降低 网 络 
中 包 的 数量 以 及 降低 发 送 和 接收 主机 的 负载 。 


























排序 


E TOP 连接 上 传输 的 每 一 个 学 节 都 会 分 配 到 一 个 负 辑 序号 。 这 个 数字 指出 了 该 字 节 在 这 
个 连接 的 数据 流 中 所 处 的 位 置 。( 这 个 连接 中 的 两 个 流 各 目 都 有 目 己 的 序号 计数 系统 。) k 
得 一 个 TCP 分 段 时 会 在 其 中 一 个 字段 中 包含 这 个 段 的 第 一 个 学 节 的 序号 。 
1E RE—- Rp E—A ESRB ULTMEH. 
。 这 个 序号 使 得 TCP 分 段 能 够 以 正确 的 顺序 在 目的 地 进行 组 装 ,然后 以 子 市 流 的 形式 传 
递 给 应 用 层 。( 在 任意 一 个 时 刻 , 在 发 送 者 和 接收 者 之 间 可 能 存在 多 个 正在 传输 的 TCP 
分 段 ， 这 些 分 段 的 到 达 顺 序 可 能 与 被 发 送 的 顺序 可 能 是 不 同 的 。) 
。 由 接收 者 返回 给 发 送 者 的 确认 消息 可 以 使 用 序 吕 来 标识 出 收 到 了 哪个 TCP 分 段 。 
。 接收 者 可 以 使 用 序号 来 移 除 重复 的 分 段 。 发 生 重 复 的 原因 可 能 是 因为 IP 数据 段 重 复 ， 
也 可 能 是 因为 TCP 目 己 的 重 传 算法 会 在 一 个 段 的 确认 丢失 或 没有 投 时 收 到 时 重 传 一 
个 成 功 好 过 出 去 的 段 。 
一 个 流 的 初始 序号 ASN) 不 是 从 0 开始 的 ， 相 反 ， 它 是 通过 一 个 算法 来 生成 的 ， 该 算法 
会 递增 分 配给 后 续 TCP 连接 的 ISN (为 防止 出 现 前 一 个 连接 中 的 分 段 与 这 个 连接 中 的 分 段 混 
消 的 情况 )。 这 个 算法 也 使 得 猜测 ISN 变 得 困难 起 来 。 序 号 是 一 个 32 位 的 值 ， 当 到 达 最 大 取 
值 时 会 回 到 0。 
流星 控制 
流量 控制 防止 一 个 快速 的 发 送 者 将 一 个 慢 速 的 接收 者 压 苦 。 要 实现 流量 控制 ， 接 收 TCP 
就 必须 要 为 进入 的 数据 维护 一 个 缓冲 区 。( 每 个 TCP 在 连接 建立 阶段 会 通告 其 缓冲 区 的 大 小 。) 
当 从 发 送 TOP 站 收 到 数据 时 会 将 数据 累积 在 这 个 缓冲 区 中 ， 当 应 用 程序 读 取 数 据 时 会 从 缓冲 
区 中 删除 数据 。 在 每 个 确认 中 ， 接 收 者 会 通知 发 送 者 其 进入 数据 绥 冲 区 的 可 用 空间 《 即 发 送 
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者 可 以 发 送 多 少子 节 )。TCP 流量 控制 算法 采用 了 所 谓 的 滑动 窗口 算法 , 它 允 许 包含 总 共和 F 
五 《提供 的 窗口 大 小 ) 的 未 确认 段 同 时 在 发 送 者 和 接收 者 之 间 传 输 。 如 采 接 收 TCP 的 进入 数 
拓 绥 冲 区 完全 被 充满 了 ， 那 么 窗口 束 会 关闭 ， 发 送 TCP WAT bees. 


接收 者 可 以 使 用 SO RCVBUF socket 选项 来 覆盖 进入 数据 缓冲 区 的 默认 大 小 “〈 人 参见 
Socket(7) 手 册 )。 


拥塞 控制 : 慢 启 动 和 拥塞 避免 算法 

TCP 的 拥 吉 控制 算法 被 设计 用 来 防止 快速 的 发 送 者 压 挫 整个 网 络 。 如 果 一 个 发 送 TCP A 
送 包 的 速度 要 快 于 一 个 中 间 路 由 器 转 发 的 速度 ， 那 么 该 路 由 堪 了 怠 会 开始 丢弃 包 。 这 将 会 导致 
较 高 的 包 丢 失 率 ， 其 结果 是 如 果 TOP 保持 以 相同 的 速度 发 送 这 些 被 丢弃 的 分 段 的 话 驶 会 极 大 
地 降低 性 能 。TCP 的 拥 去 欣 制 算法 在 下 列 两 个 场景 中 是 比较 重要 的 。 

e 在 连接 建立 之 后 : 此 时 《或 当 传 输 在 一 个 已 经 空闲 了 一 段 时 间 的 连接 上 恢复 时 )， 发 
送 者 可 以 立即 同 网 络 中 注入 尽 可 能 多 的 分 段 ， 只 要 接收 者 公告 的 窗口 大 小 允许 即 可 。 
《事实 上 ,这 就 是 早期 的 TCP 实现 的 做 法 。) 这 里 的 问题 在 于 如 果 网 络 无 法 处 理 这 种 分 
段 洪 泛 ， 那 么 发 送 者 会 存在 立即 压 震 整个 网 络 的 风险 。 

e YMERE: 如 果 发 送 TCP 检测 到 发 生 了 拥堵 ,那么 它 葡 必须 要 降低 其 传输 速 
K, TOP 是 根据 分 段 丢 失 来 检测 是 侣 上 友 生 了 拥 圭 ， 因 为 传输 错误 率 是 非常 低 鸭 ， 即 如 
果 一 个 包 丢 失 了 ， 那 么 就 认为 发 生 了 拥塞 。 

TCP 的 拥塞 控制 策略 组 合 采 用 了 两 种 算法 : 慢 启 动 和 拥 寨 避免 。 

慢 局 动 算 法 会 使 发 送 TCP 在 一 开始 的 时 候 以 低速 传输 分 段 ， 但 同时 允许 它 以 指数 级 的 速 

度 提 高 其 速率 ， 只 要 这 些 分 段 都 得 到 接收 TCP 的 确认 。 慢 局 动能 够 防止 一 个 快速 的 TCP 发 送 
者 压 捧 整个 网 络 。 但 如 果 不 加 限制 的 话 ， 慢 局 动 在 传输 速率 上 的 指数 级 增长 意味 看 发 送 者 在 
JUL ESTE TRI I C ERRA. TCP 的 拥 守 避 免 算法 用 来 防止 这 种 情况 的 发 生 ， 它 为 速率 的 增 
kah- TEHA: 

有 了 拥塞 避免 之 后 ， 在 连接 刚 建 立时 ， 发 送 TCP 会 使 用 一 个 较 小 的 拥塞 窗口 ， 它 会 限制 

所 能 传输 的 未 确认 的 数据 数量 。 当 发 送 者 从 对 等 TCP 处 接收 到 确认 时 ， 拥 宪 窗 口 在 一 开始 时 
会 呈现 指数 级 增长 。 但 一 旦 拥 考 窗口 增长 到 一 个 被 认为 是 接近 网 络 传输 容量 的 阔 值 时 ， 其 增长 
速度 怠 会 变 成 线性 ， 而 不 是 指数 级 的 。( 对 网 络 容量 的 估算 是 根据 检测 到 拥塞 时 的 传输 速率 来 
计算 得 出 的 或 者 在 一 开始 建立 连接 时 设 定 为 一 个 固定 值 。) 在 任何 时 刻 ， 发 送 TCP 传输 的 数据 
数量 还 会 受到 接收 TCP 的 通告 窗口 和 本 地 的 TCP 发 送 缓冲 器 的 大 小 的 限制 。 

慢 局 动 和 拥 老 避免 算法 组 合 起 来 使 得 友 送 者 可 以 快速 地 将 传输 速度 提升 到 网络 的 可 用 容 

量 ， 并 且 不 会 超出 该 容量 。 这 些 算 法 的 作用 是 允许 数据 传输 快速 地 到 达 一 个 平衡 状态 ， 即 发 
送 者 传输 包 的 速率 与 它 从 接收 者 处 接收 确认 的 速率 一 致 。 

























































































58.7 ”请 来 注解 (RFC) 


本 书 中 讨论 的 每 一 种 因特网 协议 都 是 在 RFC 文档 一 一 一 个 正式 的 协议 规范 一 一 中 进行 定 
义 的 。RFC 是 由 国际 互联 网 学 会 C http//www.isoc.org/ ) 资助 的 RFC 编辑 组 织 
(http://www.rfc-editor.org) 发布 的 。 摘 述 互联 网 标准 的 RFC 是 由 互联 网 工程 任务 组 CIETE, 
http://www.ietf.org/〉 资助 开发 的 ， 互 联网 工程 任务 组 是 一 个 由 网 络 议 计 师 、 操 作 员 、 广 商 以 
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友人 研究 人 员 组 成 的 社区 ， 它 关注 的 是 互联 网 的 发 展 和 平稳 运行 。IETF 的 成 员 资 格 对 所有 感 兴 
趣 的 个 人 都 是 开放 的 。 
下 列 RFC 与 本 书 介绍 的 材料 是 特别 相关 的 。 





RFC 79], Internet Protocol. J. Postel (ed.), 1981. 

RFC 950, Internet Standard Subnetting Procedure. J. Mogul 和 J. Postel, 1985. 

RFC 793, Transmission Control Protocol, J. Postel (ed.), 1981. 

RFC 768, User Datagram Protocol. J. Postel (ed.), 1980. 

RFC 1122, Requirements for Internet Hosts—Commmunication Layers. R. Braden (ed.), 1989, 


ASUBRON SED LESOK. RFC "BB drp —4, 23 —7 3€ RFC 1123, a 层 协议 ， 如 RA 
FTP 以 及 SMTP. 


ji^ IPv6 的 RFC 如 下 。 








RFC 2460, Internet Protocol, Version 6. S. Deering 和 R. Hinden, 1998 。 

RFC 4291, IP Version 6 Addressing Architecture, R. Hinden 和 S. Deering, 2006, 

RFC 3493, Basic Socket Interface Extensions for IPv6. R. Gilligan, S. Thomson, J. Bound, 
J. McCann 以 及 W. Stevens, 2003, 

RFC 3542, Advanced Sockets API for IPv6. W. Stevens, M. Thomas, E. Nordmark 以 及 T. 
Jinmei, 2003, 





很 多 RFC 和 论文 对 最 初 的 TCP 规范 进行 了 优化 和 扩展 ， 如 下 所 示 。 


58.8 


Congestion Avoidance and Control, V. Jacobsen, 1988。 这 是 摘 述 TCP HÆRENE ZA 
法 的 第 一 篇 论文 。 它 最 初 发 表 在 了 Proceedings of SIGCOMM'88 E, 在 ftp://ftp.ee.Ibl.gov/ 
papers/congavoid.ps.Z 上 可 以 找到 一 个 经 过 些许 修订 的 版 本 。 当 然 ， 这 篇 论文 中 的 大 部 
分 内 容 已 经 被 下 列 RFC 所 取代 了 。 

RFC 1323, TCP Extensions for High Performance. V. Jacobson, R. Braden 以 太 
D.Borman, 1992, 

RFC 2018, TCP Selective Acknowledgment Options, M. Mathis, J. Mahdavi, S. Floyd 和 
A. Romanow, 1996, 

RFC 2581, TCP Congestion Control. M. Allman, V. Paxson 和 W. Stevens, 1999. 

RFC 2861, TCP Congestion Window Validation, M. Handley, J. Padhye 以 及 S. Floyd, 
2000. 

RFC 2883, An Extension to the Selective Acknowledgement (SACK) Option for TCP. S. 
Floyd, J. Mahdavi, M. Mathis 以 及 M. Podolsky, 2000. 

RFC 2988, Computing TCP's Retransmission Timer. V. Paxson 和 M. Allman, 2000. 
RFC 3168, The Addition of Explicit Congestion Notification (ECN) to IP. K. Ramakrishnan, S. 
Floyd 以 及 D. Black, 2001. 

RFC 3390, Increasing TCP's Initial Window. M. Allman, S. Floyd 以 及 C. Partridge,2002. 








Hi 结 


/AN 一 





TCP/IP 是 一 个 分 层 的 联网 协议 条 件 。 在 TCP/IP 协议 栈 的 最 的 层 是 IP 网 络 层 协 议 。IP 以 
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数据 报 的 形式 传输 数据 。 卫 是 无 连接 的 ， 表 示 在 源 主机 和 目的 主机 之 间 传 输 的 数据 报 可 能 经 
过 网 络 中 的 不 同 路 径 。 卫 是 不 可 靠 的 ， 因 为 它 不 保证 数据 报 会 按 序 以 及 不 重复 到 达 ， 其 至 还 
不 保证 数据 报 一 定 会 到 达 。 如 果 要 求 可 靠 性 的 话 就 必须 要 通过 使 用 一 个 可 靠 的 高 层 协议 〈 如 
TCP) 或 在 应 用 程序 中 来 完成 。 

IP 最 初 的 版 本 是 了 Pv4。 在 20 世纪 90 年 代 早 期 , IP. 的 一 个 新 版 本 IPv6 被 设计 出 来 了 .JPv4 
和 IPv6 之 间 最 显著 的 差别 在 于 IPv4 使 用 了 32 位 来 表示 一 个 主机 地 址 ， 而 IPv6 则 使 用 了 128 
位 ， 从 而 允许 在 全 球 范 围 的 因特网 中 接 入 更 多 的 主机 。 目 前 ，PPv4 仍然 是 使 用 最 为 广泛 的 IP, 
尽管 在 将 来 可 能 会 被 IPv6 所 取代 。 

在 卫 之 上 存在 多 种 传输 层 协 议 ， 其 中 使 用 最 多 的 是 UDP 和 TCP. UDP 是 一 个 不 可 靠 的 数 
据 报 协议 。TCP 是 一 个 可 靠 的 、 面 向 连 接 的 字 节 流 协议 。TCP 处 理 了 连接 建立 和 终止 的 所 有 细 
节 。TCP 还 将 数据 打包 成 分 段 以 供 IP 传输 并 为 这 些 分 段 提 供 了 序号 计数 ， 这 样 接收 者 就 能 对 这 
些 分 段 进行 确认 并 以 正确 的 顺序 组 装 这 些 分 段 。 此 外 ，TCP 还 提供 了 流量 控制 来 防止 一 个 快速 
的 发 送 者 压 协 一 个 慢 速 的 接收 者 和 拥塞 控制 来 防止 一 个 快速 的 发 送 者 压 捧 整个 网 络 。 


更 多 信息 
参考 59.15 市 中 列 出 的 更 多 信息 源 。 
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SOCKET: Internet Domain 





在 前 面 儿 个 章节 介绍 过 socket 的 一 般 概念 和 TCP/IP 协议 套件 之 后 , 现在 本 章 可 以 开始 介 
绍 如 何在 IPv4 (AF INET) 和 IPv6 (AF INET6) domain 中 使 用 socket 编程 了 。 

在 第 58 章 中 提 到 过 Internet domain socket 地 址 由 一 个 IP 地 址 和 一 个 端口 号 组 成 。 虽 然 计 
SALEH T IP 地 址 和 奖 口 号 的 二 进 制 表 示 形 式 ， 但 人 们 对 名 称 的 处 理 能 力 要 比 对 数字 的 处 理 
能 力 强 得 多 。 因 此 ， 本 章 将 介绍 使 用 名 称 标 识 主机 计算 机 和 奖 口 的 技术 。 上 此外， 还 将 介绍 如 
何 使 用 库 函 数 来 获取 特定 主机 名 的 IP 地 址 和 与 特定 服务 名 对 应 的 问 口 号 ， 其 中 对 主机 名 的 讨 
论 还 包括 了 对 域名 系统 (DNS) 的 描述 ， 域 名 系统 是 一 个 分 布 式 数据 库 ， 它 将 主机 名 上 映射 到 
IP 地 址 以 及 将 IP 地 址 映射 到 主机 名 。 














59.1 Internet domain socket 


Internet domain 流 socket 是 基于 TCP ZZ EW, "EM T np ESI 6 7 DIR fei [5 28 e 
Internet domain 数据 报 socket 是 基于 UDP 之 上 的 。UDP socket 与 之 在 UNIX domain 中 的 
对 应 实体 类 似 ， 但 需要 注意 下 列 差 别 。 

e UNIX domain 数据 报 socket 是 可 靠 的 ,但 UDP socket 则 是 不 可 靠 的 
丢失、 香 复 或 到 达 的 顺序 与 它们 被 发 送 的 顺序 不 同 。 

e 在 一 个 UNIX domain 数据 报 socket 上 发 送 数 据 会 在 接收 socket 的 数据 队列 为 满 时 阻 
X., BIZARE, EH UDP 时 如 采 进 入 的 数据 报 会 使 接收 者 的 队列 溢出 ， 那 么 数 
据 报 就 会 静默 地 被 天 弃 。 








数据 报 可 能 会 








59.2 ”网 络 字 节 序 


IP 地 址 和 端口 号 是 整数 值 。 在 将 这 些 值 在 网 络 中 传递 时 碰 到 的 一 个 问题 是 不 同 的 硬件 结 
构 会 以 不 同 的 顺 友 来 存储 一 个 多 字 节 整数 的 字 节 。 从 图 59-1 中 可 以 看 出 ， 存 储 整数 时 先 存 储 
( 即 在 最 小 内 存 地 址 处 ) 最 高 有 效 位 的 被 称 为 大 奖 ， 那 些 移 存储 最 低 有 效 位 的 被 称 为 小 靖 。( 这 
两 个 术语 出 自 Jonathan Swift 在 1726 年 发 表 的 讽刺 小 说 《 格 列 佛 游 记 》， 在 那 篇 小 说 中 这 两 个 
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NETRE Imt] 2T 2308 E SOGEIBCR JI] « 2. "T3 ARA HP Io ETATE Hz X86。( 从 历史 上 来 
Uf. Digital 的 VAX 架构 也 是 一 个 重要 的 例子 ， 因 为 BSD IE ZEH TGXPPPLSs E). 其 他 群 
大 多 数 淋 构 都 是 大 冰 的 。 一 坚 便 件 结构 可 以 在 这 两 种 格式 之 间 切 换 。 在 特定 主机 上 使 用 的 字 
玉 序 被 称 为 主机 字 节 序 。 








端 字 节 顺序 





地 址 地 址 地 址 地 址 地 址 地 址 
T AT i A Í d 3 


小 端 字 节 顺序 





MSB = 最 高 有 效 字 节 LSB = 最 低 有 效 字 节 
59-1: 2 FPA 4 字 节 整数 的 大 端 和 小 端 字 节 序 


由 于 端口 号 和 P 地 址 必须 在 网 络 中 的 所 有 主机 之 间 传 递 并 且 需 要 被 它们 所 理解 ， 因 此 必 
须要 使 用 一 个 标准 的 学 节 序 。 这 种 宇和 序 被 称 为 网 络 字 币 序 ， 它 是 大 端的 。 

在 本 章 后 面 将 会 介绍 各 种 用 于 将 主机 名 (如 www.kernel.org) 和 服务 名 (如 http) 转换 成 

对 应 的 数字 形式 的 函数 。 这 些 函 数 一 般 会 返回 用 网 络 字 节 序 表示 的 整数 ， 并 且 可 以 直接 将 这 

些 整数 复制 进 一 个 socket 地 址 结构 的 相关 字段 中 。 

有 时 候 可 能 会 直接 使 用 IP 地 址 和 端口 号 的 整数 钊 量 形 式 , 如 可 能 会 选择 将 问 口 写 便 编码 进程 序 

中 ， 或 者 将 端口 号 作为 一 个 命令 行 参数 传递 给 程序 ， 或 者 在 指定 一 个 IPv4 地 址 时 使 用 诸如 
INADDR. ANY 和 INADDR LOOPBACK 之 类 的 第 量 。 这 些 值 在 C 中 是 按照 主机 的 规则 来 表示 的 ， 
因此 它们 是 主机 字 节 序 的 ,在 将 它们 存储 进 socket 地 址 结构 中 之 前 需要 将 这 些 值 转换 成 网 络 字 节 序 。 

htonsO0、htonlO0、ntohsO 以 及 ntohl0 函 数 被 定义 (通常 为 宏 〉 用 来 在 主机 和 网 络 字 节 序 之 

间 转 换 整 数 。 


Hinclude «arpa/inet.h» 



























































uinti6 t htons(uinti6 t host uintló); 
Returns host uint16 converted to network byte order 

uint32 t htonl(uint32 t Aost uint22); 
Returns host uint32 converted to network byte order 

uinti6 t ntohs(uinti16 t net uintló); 
Returns net uint16 converted to host byte order 

uint32 t ntohl(uint32 t net wint32); 


Returns net uint32 converted to host byte order 








在 早期 ， 这 些 函 数 的 原型 如 下 。 
unsigned long htonl(unsigned long hostlong); 


这 揭示 出 了 函数 名 的 由 来 一 一 在 本 例 中 是 host to network long. 在 大 多 数 实现 socket 的 早期 系 
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统 中 ， 短 整数 是 16 位 的 ， 长 整数 是 32 位 的 。 但 在 现代 系统 中 这 种 论断 已 经 不 再 正确 了 【人 至少 对 
于 长 整数 是 这 样 的 ), 因此 上 面 给 出 的 原型 实际 上 是 为 这 些 函 数 所 处 理 的 类 型 提供 了 更 加 精确 的 定 
义 ， 尽 管 所 使 用 的 名 称 未 发 生变 化 。uint16 t 和 uint32 t 数据 类 型 是 16 位 和 32 位 的 无 符号 整数 。 
严格 地 讲 ， 只 需要 在 主机 衬 节 序 与 网 络 学 节 序 不 同 的 系统 上 使 用 这 四 个 函数 ， 但 开 
发 人 员 应 该 总 是 使 用 这 些 函 数 ， 这 样 程序 就 能 够 在 不 同 的 便 件 结构 之 间 移 植 了 。 在 主机 
学 市 序 与 网 络 学 市 序 一 样 的 系统 上 ， 这 些 函 数 只 是 简 蛙 地 原样 返回 传递 给 它们 的 参数 。 


59.3 ”数据 表示 


在 编写 网 络 程序 时 需要 清楚 不 同 的 计算 机 架构 使 用 不 同 的 规则 来 表示 各 种 数据 类 型 。 本 
草 之 前 已 经 指出 过 整数 型 可 以 以 大 站 或 小 咒 的 形式 存储 。 此 外 , 还 存在 其 他 的 兰 别 ,如 Clong 
数据 类 型 在 一 些 系统 中 可 能 是 32 位 的 ， 但 在 其 他 系统 上 可 能 是 64 位 的 。 当 考虑 结构 时 ， 问 
题 就 更 加 复杂 了 ， 因 为 不 同 的 实现 采用 了 不 同 的 规则 来 将 一 个 结构 中 的 字段 对 齐 到 主机 系统 
的 地 址 边界 ， 从 而 使 得 字段 乙 间 的 填充 学 节 数 量 是 不 同 的 。 

由 于 在 数据 表现 上 存在 这 些 差 异 ， 因 此 在 网 络 中 的 异 构 系 统 之 间 交 换 数据 的 应 用 程序 必须 要 
采用 一 些 公共 规则 来 编码 数据 。 发 送 者 必须 要 根据 这 些 规则 来 对 数据 进行 编码 ， 而 接收 者 则 必须 
要 胆 循 同样 的 规则 对 数据 进行 解码 。 将 数据 变 成 一 个 标准 格式 以 便 在 网 络 上 传输 的 过 程 被 称 为 信 
号 编 集 (marshalling)。 目 前 ， 存 在 多 种 信号 编 集 标准 ， 如 XDR CExterExternalData Representation, 
Æ RFC 1014 PHIR), ASN.1-BER (Abstract SyntaxNotation 1, http:/www.asnl.ore/)、CORBA 
UR XML. RY, KERES N AERE XT BEBE Clg X. T HA 
使 用 的 位 数 )。 除了 控 照 所 策 的 格式 进行 编码 之 外 , 每 一 个 数据 项 都 需要 使 用 额外 的 字段 来 标识 其 
类 型 (以 及 可 能 的 话 还 会 加 上 长 度 )。 

然而 ， 一 种 比 信号 编 集 更 简单 的 方法 通常 会 被 采用 : 将 所 有 传输 的 数据 编码 成 文本 形式 ， 
其 中 数据 项 之 间 使 用 特定 的 字符 来 分 隔 开 ， 这 个 特定 的 字符 通常 是 换行 符 。 这 种 方法 的 一 个 
优点 是 可 以 使 用 telnet 来 调试 一 个 应 用 程序 。 要 完成 这 项 任务 需要 使 用 下 面 的 命令 。 

$ telnet host port 

BE n] EM AN — 11 P2258 PE HTEEFE RU GCASOT-EUCE NOE REFERRI WIR, 在 59.11 节 中 将 会 泪 
不 这 项 拉 术 。 


与 异 构 系 统 在 数据 表示 上 的 磊 寞 相关 的 问题 不 仅仅 存在 于 网 络 则 的 数据 传输 中 ， 
还 存在 于 此 类 系统 之 间 的 任何 数据 交换 机 制 中 ， 如 在 传输 异 构 系 统 间 磁盘 或 磁 市 上 的 
文件 时 会 位 到 同样 的 问题 。 现 在 ， 网 络 编程 只 不 过 是 可 能 会 磁 到 这 类 问题 的 最 常见 的 
编程 场景 。 


如 条 将 在 一 个 流 socket 上 传输 的 数据 编码 成 使 用 换行 符 分 隔 的 文本 ， 那 么 定义 一 个 诺 如 
readLine(0 之 类 的 函数 将 是 比较 便捷 的 ， 如 程序 清单 59-1 所 示 。 


















































































































































#include "read line.h" 


ssize t readline(int fd, void *buffer, size t m); 


Returns number of bytes copied into buffer (excluding 
terminating null byte), or 0 on end-of-file, or -1 on error 
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readLine() PK Zi JA SC PETRA] 2 fd 51 HIS Sc t Ep sEBUCE T EEEE ANE. 输入 了 字 
节 序 列 将 会 返回 在 buffer 指 癌 的 位 置 处 ， 其 中 buffer TRIS HS AI p DC I8 7b 7 n ^£ s BRERA 
符 串 总 是 以 null 结尾 ， 国 此 实际 下 全 多 有 Qn - DD 个 学 节 会 返回 在 成 功 时 ,lreadLine0 会 返回 | 
JUN buffer BASIS £5 FE] null 字 节 不 会 计算 在 内 。 


程序 清单 59-1: 一 次 读 取 一 行 数据 





sockets/read line.c 


#include «unistd.h» 
#include «errno.h» 


#include "read line.h" /* Declaration of readLline() */ 
ssize t 
readLline(int fd, void *buffer, size t n) 
{ 
ssize t numRead; /* # of bytes fetched by last read() */ 
size t totRead; /* Total bytes read so far */ 
char *buf; 
char ch; 


if (n <= 0 || buffer == NULL) 1 
errno = EINVAL; 
return -1; 


} 
buf = buffer; /* No pointer arithmetic on "void *" */ 
totRead = 0; 
for (55) 1 
numRead = read(fd, &ch, 1); 


if (numRead == -1) 1{ 


if (errno -- EINTR) /* Interrupted --» restart read() */ 
continue; 
else 
return -1; /* Some other error */ 
} else if (numRead == 0) { /* EOF */ 
if (totRead -- 0) /* No bytes read; return O */ 
return 0; 
else /* Some bytes read; add 'XO' */ 
break; 
} else 1 /* 'numRead' must be 1 if we get here */ 
if (totRead « n - 1) 1 /* Discard » (n - 1) bytes */ 
totRead++; 
*buf++ = ch; 
Í 
if (ch == 'An") 
break; 
} 
} 
*buf = '\0'; 


return totRead; 


sockets/read_line.c 
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如 果 在 过 到 换行 人行 之 前 读 取 的 子 市 数 大 于 或 等 于 (n- D. A readin HARER 
余 的 字 节 (包括 换行 符 )。 如 果 在 前 面 的 (n - 1) 字 节 中 读 取 了 换行 符 ， 那 么 在 返回 的 字符 串 
中 就 会 包 合 这 个 换行 符 。( 因 此 可 以 通过 检 奉 在 返回 的 buffer 中 结尾 null 学 节 前 是 否 是 一 个 换 
TT PIERDE AE TUB TEURER Y o) 采用 这 种 方法 之 后 ， 将 输入 以 行为 单位 进行 处 理 的 应 用 程 
序 协议 整 不 会 将 一 个 很 长 的 行 处 理 成 多 行 了 。 当 然 ， 这 可 能 会 破坏 协议 ， 因 为 两 端的 应 用 程 
序 不 再 同步 了 。 为 一 种 做 法 是 让 readLineO 只 读 取 足够 的 子 市 数 来 填充 提供 的 缓冲 器 ， 而 将 到 
一行 新 行为 止 的 剩余 学 市 留 给 下 一 个 readLineO 调 用 。 在 这 种 情况 下 ，readLineO 的 调用 者 需 
要 处 理 读 取 部 分 行 的 情况 。 

在 59.11 节 中 给 出 的 示例 程序 中 将 会 使 用 readLineO PR Zt 









































59.4 Internet socket 地 址 


Internet domain socket 地 址 有 两 种 : IPv4 和 IPv6, 
IPv4 socket 地 址 : struct sockaddr in 


一 个 IPv4 socket 地 址 会 被 存储 在 一 个 sockaddr in 结构 中 ， 该 结构 在 <netinet/in.h> 中 进行 
定义 ; 具体 如 下 。 


struct in addr { /* IPv4 4-byte address */ 
in addr t s addr; /* Unsigned 32-bit integer */ 
}; 
struct sockaddr in { /* IPv4 socket address */ 
sa family t sin family; /* Address family (AF INET) */ 
in port t sin port; /* Port number */ 
struct in addr sin addr; /* IPv4 address */ 
unsigned char 4 pad[X]; /* Pad to size of 'sockaddr' 


structure (16 bytes) */ 
}; 


在 56.4 万 中 曾 讲 过 普通 的 sockaddr 结构 中 有 一 个 字段 来 标识 socket domain， 该 字段 对 应 
于 sockaddr in 结构 中 的 sin family FS, HEMAN AF INET. sin port 和 sin addr ^E Eze m 
口号 和 IP 地址 ， 它 们 都 是 网 络 学 节 友 的 。in_port t 和 in addr ft 数据 类 型 是 无 符号 整 型 ， 其 长 
ETIN 16 位 和 32 位。 
IPv6 socket 地 址 : struct sockaddr in6 


与 IPv4 地 址 一 样 ， 一 个 IPv6 socket 地 址 包含 一 个 IP 地 址 和 一 个 问 口 号 ， 它 们 之 间 的 关 
别 在 于 IPv6 地 址 是 128 位 而 不 是 32 位 的 。 一 个 IPv6 socket 地 址 会 被 存储 在 一 个 sockaddr in6 
结构 中 ， 访 结构 在 <netinet/in.h> 中 进行 定义 ， 具 体 如 下 。 








struct in6 addr { /* IPv6 address structure */ 
uint8 t s6 addr[16]; /* 16 bytes -- 128 bits */ 
n 
struct sockaddr in6 { /* IPv6 socket address */ 
sa family t sin6 family; /* Address family (AF INET6) */ 
in port t sin6ó port; /* Port number */ 
uint32 t sin6 flowinfo; /* IPv6 flow information */ 
struct in6 addr sin6 addT; /* IPv6 address */ 
uint32 t sin6 scope id; /* Scope ID (new in kernel 2.4) */ 
H 


sin family 字段 会 被 设置 成 AF INET6, sin6 port 和 sin6 addr 字段 分 别 是 端口 号 和 IP 
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地 址 。(Cuint8 ft 数据 类 型 被 用 来 定义 in6 addr Zire Ras, "eie SIBI SEE 
型 。) 剩余 的 字段 sin6_flowinfo 和 sin6 scope id 则 超出 了 本 书 的 范围 ,在 本 书 给 出 所 有 例子 
中 都 会 将 它们 设置 为 0。sockaddr in6 结构 中 的 所 有 字段 都 是 以 网 络 池 节 序 存储 的 。 


IPv6 地 址 是 在 RFC 4291 中 进行 描述 的 。 与 IPv6 流量 控制 (sin6 flowinfo) 有 关 的 信息 
可 以 在 [Stevens et al., 2004] 的 附录 A 和 RFC 2460 以 及 3697 中 找到 。 RFC 3491 和 4007 提供 
了 与 Sin6_scope id 有 关 的 信息 。 


IPv6 和 IPv4 一 样 也 有 通 配 和 回环 地 址 ， 但 它们 的 用 法 要 更 加 复杂 一 些 ， 因 为 IPv6 地 址 
是 存储 在 数组 中 的 (并 没有 使 用 标量 类 型 )， 下 面 将 会 使 用 IPv6 通 配 地 址 〈0::0) 来 说 明 这 一 
点 。 系 统 定义 了 常量 IN6ADDR ANY INIT 来 表示 这 个 地 址 ， 具 体 如 下 。 

#define ING6ADDR ANY INIT 1 { 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0 } } 


fr Linux 上 ， 头 文件 中 的 一 些 细 古 与 本 节 中 的 描述 是 不 同 的 。 特 别 地 ，in6_addr 结构 包 
含 了 一 个 union 定义 将 128 位 的 IPv6 地 址 划分 成 16 FERAT 2 守节 的 整数 或 四 个 32 F 
市 的 整数 。 由 于 存在 这 样 的 定义 ， 因 此 glibe 提供 的 INGBADDR. ANY INIT 常量 的 定义 实际 
上 比 正 文中 给 出 的 定义 多 了 一 组 散人 套 的 花 括号 。 

在 变量 声明 的 初始 化 器 中 可 以 使 用 INGADDR. ANY INIT 常量 ， 但 无 法 在 一 个 赋值 语 名 
FEL C eim. DD C 语法 并 不 允许 在 赋值 语句 中 使 用 一 个 结构 化 的 第 量 。 取 而 代 之 
的 做 法 是 必须 要 使 用 一 个 预先 定义 的 变量 in6addr any, C 库 会 按照 下 面 的 方式 对 该 变量 进行 
初始 化 。 

const struct in6 addr in6addr any = IN6ADDR ANY INIT; 


因此 可 以 像 下面 这 样 使 用 通 配 地 址 来 初始 化 一 个 IPv6 socket HEHE. 





















































struct sockaddr in6 addr; 


memset(&addr, 0, sizeof(struct sockaddr in6)); 
addr.sin6 family = AF INET6; 

addr.sin6 addr = in6addr any; 

addr.sin6 port = htons(SOME PORT NUM); 








IPv6 环 回 地 址 〈::1) 的 对 应 常量 和 变量 是 INGADDR LOOPBACK INIT 和 in6addr 
 loopback. 

与 IPv4 中 相应 字段 不 同 的 是 IPv6 的 常量 和 变量 初始 化 器 是 网 络 字 市 序 的 , TEUSUPR ETE 25 
出 的 代码 那样 ， 开 发 人 员 仍 然 必 须要 确保 端口 号 是 网 络 字 节 序 的 。 

如 果 IPv4 和 IPv6 共存 于 一 人 台 主 机 上 ， 那 么 它们 将 共 孚 同一 个 问 口 号 空间 。 这 意味 
者 如 果 一 个 应 用 程序 将 一 个 IPv6 socket 绑 定 到 了 TCP 端 口 2000 上 (使 用 IPv6 通 配 地 址 )， 
那么 IPv4 TCP socket 将 无 法 绑 定 到 同一 个 端口 上 。(TCP/P 实现 确保 位 于 其 他 主机 上 的 


— 


socket 能 够 与 这 个 socket 进行 通信 ， 不 管 那些 主机 运行 的 是 IPv4 还 是 IPv6.) 














sockaddr storage 结构 


在 IPv6 socket API 中 新 引入 了 一 个 通用 的 sockaddr storage 结构 ， 这 个 结构 的 空间 足以 存 
储 任意 闫 型 的 socket 地 址 《“ 即 可 以 将 任意 区 型 的 socket 地 址 结构 强制 转换 并 存储 在 这 个 结构 
中 )。 特 别 地 ， 这 个 结构 允许 透明 地 存储 IPv4 或 IPv6 socket 地 址 ， 从 而 删除 了 代码 中 的 IP 版 
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本 依赖 性 。sockaddr storage 结构 在 Linux 上 的 定义 如 下 所 示 。 


#define ss aligntype uint32 t /* On 32-bit architectures */ 


struct sockaddr storage { 
sa family t ss family; 
| Ss aligntype ss align; /* Force alignment */ 
char ss padding[SS PADSIZE]; /* Pad to 128 bytes */ 
H 


59.5 ”主机 和 服务 转换 函数 概述 


计算 机 以 二 进 制 形式 来 表示 IP 地 址 和 融 口 号 ， 但 人 们 发 现 名 字 比 数学 更 容易 记忆 。 使 用 
符号 名 还 能 有 效 地 利用 间接 关系 ， 用 户 和 程序 可 以 继续 使 用 同一 个 名 字 ， 即 使 底层 的 数字 值 
发 生 了 变化 也 不 会 受到 影响 。 

主机 名 和 连接 在 网 络 上 的 一 个 系统 (可 能 拥有 多 个 IP 地 址 ) 的 符号 标识 符 。 服 务 名 是 闪 
口号 的 符号 表示 。 

主机 地 址 和 端口 的 表示 有 下 列 两 种 方法 。 

。 主机 地 址 可 以 表示 为 一 个 二 进 制 值 或 一 个 符 写 主机 名 或 展现 格式 (IPv4 是 点 分 十 进 

制 ，IPv6 是 十 六 进 制 学 符 串 )。 

e 区 口号 可 以 表示 为 一 个 二 进 制 值 或 一 个 符号 服务 名 。 

格式 之 间 的 转换 工作 可 以 通过 各 种 库 冰 数 来 完成 。 本 区 将 对 这 些 函 数 进行 简要 的 小 结 。 
下 面 几 个 小 节 将 会 详细 描述 现代 API Cinet ntopO. inet pton0、getaddrinfoO0、getnameinfo0 等 )。 
在 59.13 节 中 将 会 简要 地 讨论 一 下 被 废弃 的 API Cinet aton), inet ntoa()、gethostbyname()、 


getservbyname() 等 )。 



































在 二 进 制 和 人 类 可 读 的 形式 之 间 转 换 IPv4 地 址 


inet_aton0 和 inet_ntoa() 函 数 将 一 个 IPv4 地 址 在 点 分 十 进 制 表示 形式 和 二 进 制 表示 形式 之 
间 进 行 转换 。 这 里 介绍 这 些 函 数 的 主要 原因 是 读者 在 遗留 代码 中 可 能 会 看 到 这 些 函 数 。 现 在 它们 
己 经 被 废弃 了 。 需 要 完成 此 类 转换 工作 的 现代 程序 应 该 使 用 接 下 来 描述 的 函数 。 


在 二 进 制 和 人 类 可 读 的 形式 之 间 转 换 IPv4 和 IPv6 地 址 


inet pton0 和 inet ntopO 与 inet aton0 和 inet ntoa0 类 似 ， 但 它们 还 能 处 理 IPv6 地 址 。 它 们 将 
二 进 制 IPv4 和 IPv6 地 址 转换 成 展现 格式 一 一 即 以 点 分 十 进 制 表示 或 十 六 进 制 字 符 串 表示 , 或 
将 展现 格式 转换 成 二 进 制 IPv4 和 IPv6 地 址 。 

由 于 人 类 对 名 字 的 处 理 能 力 要 比 对 数字 的 处 理 能 力 强 ， 因 此 通 钟 个 尔 才 会 在 程序 中 使 用 这 些 
PRA. inet ntopO 的 一 个 用 途 是 产生 IP 地 址 的 一 个 可 打印 的 表示 形式 以 便 记 有 录 日 志 。 在 有 些 情况 
下 ， 最 好 使 用 这 个 函数 而 不 是 将 一 个 IP 地 址 转换 (“解析”) 成 主机 名 ， 其 原因 如 下 。 

。 将 一 个 卫 地址 解析 成 主机 名 可 能 需要 同一 台 DNS 服务 器 友 送 一 个 耗 时 较 长 的 请 求 。 

e 在 一 些 场景 中 ， 可 能 并 不 存在 一 个 DNS (PTR) 记录 将 IP 地 址 映射 到 对 应 的 主机 

名 上 。 

本 方 在 介绍 执行 二 进 制 表示 与 对 应 的 符号 名 之 间 的 转换 工作 的 getaddrinfo) 和 
getnameinfo()Z Bj (59.6 W) 先 介 绍 这 些 函 数 主要 是 因为 它们 提供 的 更 加 人 简单 的 API， 这 样 就 能 
快速 给 出 一 些 正 常 工 作 的 使 用 Internet domain socket 的 例子 。 
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主机 和 服务 名 与 二 进 制 形式 之 间 的 转换 (已 过 时 ) 

gethostbyname() FK Zik [u| E; 3: LA X NI] — 3E] IP 地 址 , getservbyname() 函 数 返 回 与 服务 
OSEE m H s SEINE BE H RE IE HI gethostbyaddr0 和 getservbyportO 来 完成 的 。 这 里 之 所 
以 要 介绍 这 些 函 数 是 因为 它们 在 既 有 代码 中 被 广泛 使 用 ， 但 现在 它们 已 经 过 时 了 。(SUSv3 
将 这 些 函 数 标记 为 过 时 的 ，SUSv4 删除 了 它们 的 规范 。) 新 代码 应 该 使 用 getaddrinfo) 和 
getnameinfo( PA Zi AENA) 来 完成 此 类 转换 。 


主机 和 服务 名 与 二 进 制 形式 之 间 的 转换 (现代 的 ) 

getaddrinfo() F2: gethostbynameO 〇 和 getservbynameO 两 个 函数 的 现代 继任 者 。 给 定 一 个 主机 名 
和 一 个 服务 名 , getaddrinfo0 会 返回 一 组 包含 对 应 的 二 进 制 耻 地 址 和 端口 号 的 结构 。 与 gethostbyname() 
不 同 ，getaddrinfo0 会 透明 地 处 理 IPv4 和 了 Pv6 地 址 。 因 此 使 用 这 个 函数 可 以 编写 不 依赖 于 I 了 PP 版 本 的 
程序 。 所 有 新 代码 部 应 该 使 用 getaddrinfo0 来 将 主机 名 和 服务 名 转换 成 二 进 制 表示 。 

getnameinfo() 函 数 执行 逆向 转换 , 即将 一 个 IP. 地 址 和 端口 号 转换 成 对 应 的 主机 名 和 服务 名 。 

使 用 getaddrinfo() 和 getnameinfo0 还 可 以 在 二 进 制 IP 地 址 与 其 展现 格式 之 间 进 行 转 换 。 

在 59.10 节 中 讨论 getaddrinfo() 和 getnameinfo0 之 前 需要 对 DNS (59.8 节 ) 和 /etc/services 
文件 (59.9 T) 进行 摘 述 。DNS 允许 协作 服务 右 维 护 一 个 将 二 进 制 IP 地 址 映射 到 主机 名 和 将 
主机 名 映射 到 三 进 制 IP 地 址 的 分 布 式 数据 库 。 诸 如 DNS 之 类 的 系统 的 存在 对 于 因特网 的 运转 
是 非常 关键 的 ， 因 为 对 浩瀚 的 因特网 主机 名 进行 集中 管理 是 不 可 能 的 。/etc/services 文件 将 应 
口号 映射 到 符号 服务 名 。 












































59.6 inet pton(0 和 inet ntop() EK Z 


inet pton0 和 inet ntopO 函 数 允 许 在 IPv4 和 IPv6 地 址 的 二 进 制 形式 和 点 分 十 进 制 表示 法 
或 十 六 进 制 学 答 串 表示 法 之 间 进 行 转 换 。 














#include «arpa/inet.h» 


int inet pton(int domain, const char *src_str, void *addrptr); 


Returns 1 on successful conversion, 0 if src stris not in 
presentation format, or -1 on error 


const char *inet ntop(int domain, const void *addrptr, char *dst sir, size t len); 


Returns pointer to dst_str on success, or NULL on error 











这 些 函 数 名 中 的 p 表示 “展现 (presentation? ", n 表示 “网 络 Cnetwork)”。 展 现形 式 是 
人 类 可 读 的 字符 串 ， 如 : 

e 204.152.189.116 (IPv4 点 分 十 进 制 地 址 ); 

e ::] (IPv6 Hr lm T NE; 

© :FFFF:204.152.189.116 CIPv4 映射 的 IPv6 地 址 )。 

inet pton0 函 数 将 sre. str 中 包含 的 展现 宇 符 串 转 换 成 网 络 字 节 序 的 二 进 制 下 地址 。domain Z 
数 应 该 被 指定 为 AF INET 或 AF INET6。 转 换 得 到 的 地 址 会 被 放 在 addrptr 指 问 的 结构 中 ， 它 
应 该 根据 在 domain 参数 中 指定 的 值 指 向 一 个 in_addr 或 in6 addr 结构 。 
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inet ntopO 函 数 执行 逆向 转换 。 同 样 , domain 应 该 被 指定 为 AF INET 或 AF INET6, 
addrptr 应 该 指向 一 个 待 转换 的 in_addr 或 in6_addr 结构 。 得 到 的 以 aull 结尾 的 字符 串 会 
被 放置 在 dst. str 指向 的 缓冲 器 中 。len 参数 必须 被 指定 为 这 个 缓冲 器 的 大 小 。inet_ntop0 
在 成 功 时 会 返回 dst str。 如 果 len 的 值 太 小 了 ， 那 么 inet ntopO 会 返回 NULL 并 将 errno 
设置 成 ENOSPC 。 

要 正确 计算 dst str 指 问 的 绥 冲 占有 的 大 小 可 以 使 用 在 <netinet/in.h> 中 定义 的 两 个 当量 。 这些 
常量 标识 出 了 IPv4 和 IPv6 地 址 的 展现 字符 串 的 最 大 长 度 〈 包 括 结 尾 的 null 5. 


#define INET ADDRSTRLEN 16 /* Maximum IPv4 dotted-decimal string */ 
#define INET6 ADDRSTRLEN 46 /* Maximum IPv6 hexadecimal string */ 














下 一 节 将 会 给 出 使 用 inet pton0 和 inet ntopO 的 例子 。 


59.7 ”客户 站 /服务 器 示例 〈 数 据 报 socket) 


本 市 将 修改 在 57.3 节 中 给 出 的 大 小 写 转 换 服 务 器 和 客户 端 程序 ， 使 之 使 用 AF_INET6 
domain 中 的 数据 报 socket。 本 贡 给 出 的 这 两 个 程序 中 的 注释 较 少 ， 因 为 它们 的 结构 与 之 前 给 
出 的 程序 的 结构 是 类 似 的 。 新 程序 中 的 主要 兰 别 在 于 59.4 市 中 介绍 的 IPv6 socket 地 址 结构 的 
申明 和 初始 化 。 

客户 闫 和 服务 器 都 使 用 了 程序 清单 59-2 中 给 出 的 头 文 件 。 这 个 头 文 件 定 义 了 服务 需 的 站 
口号 和 客户 站 与 服务 人 右 可 交换 的 最 大 消息 数量 。 

x 


程序 清单 59-2， i6d ucase sv.c 和 i6d ucase cl.c 使 用 的 头 文件 

















sockets/i6d ucase.h 
include «netinet/in.h» 

include «arpa/inet.h» 

include «sys/socket.h» 

#include «ctype.h» 

include "tlpi hdr.h" 


#define BUF SIZE 10 /* Maximum size of messages exchanged 
between client and server */ 


#define PORT NUM 50002 /* Server port number */ 
sockets/i6d ucase.h 


程序 清单 59-3 rib T HRS GR REY. WAH inet ntopO RAOK 2^ m E DE: 38 
过 recvfromO 调 用 获得 ) 转换 成 可 打印 的 形式 。 


$ ./i6d ucase sv & 

[1] 31047 

$ ./i6d ucase cl ::1 ciao Send to server on local host 
Server received 4 bytes from (::1, 32770) 

Response 1: CIAO 








程序 清单 59-4 给 出 的 客户 端 程序 与 之 前 的 UNIX domain 中 的 版 本 (程序 清单 57-7) 4H EE 
存在 两 个 显著 的 改动 。 第 一 个 差别 在 于 客户 闹 会 将 其 第 一 个 命令 行 参数 解释 成 服务 器 的 IPv6 
地 址 。( 剩 余 的 命令 行 参 数 是 作为 单独 的 数据 报 被 传递 给 服务 器 的 。) Tr) m EH inet pton() 
将 服务 堪 地 址 转换 成 二 进 制 形式 。 另 一 个 甜 别 在 于 客户 站 并 没有 将 其 socket 绑 定 到 一 个 地 址 
E. Æ 58.6.1 节 中 曾 指 出 过 如 果 一 个 Internet domain socket 没有 被 绑 定 到 一 个 地 址 上， 那么 内 
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核 会 将 该 socket HE $1 329L AR RAE 7 Mes mHE 35 ex nI AAMA P IRL] shell 会 话 日 记 
Ah. HPSAEA mat H-— 1T 3L E. 

从 上 面 的 输出 中 可 以 看 出 服务 融 的 recvfromO 调 用 能 够 获取 客户 端 socket 的 地 址 , 包括 临 
mL, AED men UH I bind. 


程序 清单 59-3: 使 用 数据 报 socket 的 IPv6 大 小 写 转换 服务 器 











sockets/i6d ucase sv.c 
include "i6d ucase.h" 


int 
main(int argc, char *argv[]) 


struct sockaddr in6 svaddr, claddr; 
int sfd, j; 

ssize t numBytes; 

socklen t len; 

char buf[BUF SIZE]; 

char claddrStr[INET6 ADDRSTRLEN|; 


sfd = socket(AF INET6, SOCK DGRAM, 0); 
if (sfd == -1) 
errExit("socket"); 


memset(&svaddr, 0, sizeof(struct sockaddr in6)); 

svaddr.sin6 family = AF INET6; 

svaddr.sin6 addr = in6addr any; /* Wildcard address */ 
svaddr.sin6 port - htons(PORT NUM); 


if (bind(sfd, (struct sockaddr *) &svaddr, 
sizeof(struct sockaddr in6)) -- -1) 
errExit("bind"); 


/* Receive messages, convert to uppercase, and return to client */ 


for 655) 1 
len = sizeof(struct sockaddr in6); 
numBytes - recvfrom(sfd, buf, BUF SIZE, O, 
(struct sockaddr *) &claddr, &len); 
if (numBytes -- -1) 
errExit("recvfrom"); 


if (inet ntop(AF INET6, &claddr.sin6 addr, claddrStr, 
INET6 ADDRSTRLEN) -- NULL) 
printf("Couldn't convert client address to string An"); 
else 
printf("Server received Ald bytes from (fs, %u)\n", 
(long) numBytes, claddrStr, ntohs(claddr.sin6 port)); 


for (j = 0; j < numBytes; j++) 
buf[j] = toupper((unsigned char) buf[j]); 


if (sendto(sfd, buf, numBytes, O, (struct sockaddr *) &claddr, len) !- 


numBytes) 
fatal("sendto"); 


sockets/i6d ucase sv.c 
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程序 清单 59-4: 使 用 数据 报 socket 的 IPv6 大 小 写 转 损 客 户 端 


sockets/i6d ucase cl.c 
&include "i6d ucase.h" 


int 
main(int argc, char *argv[]) 
i 
struct sockaddr in6 svaddr; 
int sfd, j; 
size t msglen; 
ssize t numBytes; 
char resp[BUF SIZE]; 


if (argc < 3 || stremp(argv[1], "--help") == 0) 
usageErr("Xs host-address msg...An", argv[0]); 


sfd = socket(AF INET6, SOCK DGRAM, 0); /* Create client socket */ 
lf (sfd == -1) 
errExit("socket"); 


memset(&svaddr, 0, sizeof(struct sockaddr in6)); 

svaddr.sin6 family - AF INET6; 

svaddr.sin6 port - htons(PORT NUM); 

if (inet pton(AF INET6, argv[1], &svaddr.sinó6 addr) <= 0) 
fatal("inet pton failed for address 'Xs'", argv[1]); 


/* Send messages to server; echo responses on stdout */ 


for (j = 2; j < argc; j++) t 
msglen = strlen(argv[j]); 
if (sendto(sfd, argv[j], msgLen, 0, (struct sockaddr *) &svaddr, 
sizeof(struct sockaddr in6)) !- msgLen) 
fatal("sendto"); 


numBytes - recvfrom(sfd, resp, BUF SIZE, O, NULL, NULL); 
if (numBytes -- -1) 
errExit("recvfrom"); 


printf("Response %d: $.*sWn", j - 1, (int) numBytes, resp); 


exit(EXIT SUCCESS); 


sockets/i6d ucase cl.c 


59.8 域名 系统 (DNS) 


在 59.10 节 中 将 会 介绍 获取 与 一 个 主机 名 对 应 的 IP 地址 的 getaddrinfo K HATÉ e FE 
换 的 getnameinfo0 函 数 ， 但 在 介绍 这 些 函 数 之 前 需要 解释 如 何 使 用 DNS 来 维护 主机 名 和 IP 
地 址 之 间 的 映射 关系 。 

在 DNS 出 现 以 前 ， 主 机 名 和 IP 地 址 之 间 的 映射 关系 是 在 一 个 手工 维护 的 本 地 文件 
/etc/hosts 中 进行 定义 的 ， 该 文件 包含 了 形 如 下 面 的 记录 。 
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# IP-address canonical hostname [aliases] 
127.0.0.1 localhost 





gethostbyname) AZt (4. getaddrinfo(O BU VIIJ PR 23D. 通过 搜索 这 个 文件 并 找 出 与 规 沁 主机 
名 【〔 即 主机 的 官方 或 主要 名 称 ) 或 其 中 一 个 别名 《可 选 电 ， 以 空格 分 隅 ) 匹配 的 记录 来 获取 一 个 
IP 地 址 。 

然而 ，/etc/hosts 模式 的 扩展 性 交叉 ， 并 且 随 春 网 络 中 主机 数量 的 增长 〈 如 因特网 中 存在 
看 数 以 亿 计 的 主机 )， 这 种 方式 已 经 变 得 不 太 可 行 了 。 

DNS 被 设计 用 来 解决 这 个 问题 。DNS 的 关键 想法 如 下 。 

。 将 主机 名 组 织 在 一 个 层级 名 空间 中 (图 59-2)。DNS 层级 中 的 每 一 个 节点 都 有 一 个 标签 
(名 字 )， 访 标签 最 多 可 包含 63 个 字符 。 层 级 的 根 是 一 个 无 名 子 的 和 点 ， 即 “匿名 下 点 ”。 

e 一 个 节点 的 域名 由 该 广 点 到 根 节 点 的 路 人 径 中 所 有 市 点 的 名 字 连 接 而 成 ， 各 个 名 子 之 间 
HA C) 分 隔 。 如 google.com 是 节点 google 的 域名 。 

e 完全 限定 域名 (fully qualified domain name，FQDN)， 如 www.kernel.org.， 标 识 出 了 
层级 中 的 一 侣 主机。 区 分 一 个 完全 限定 域名 的 方法 是 看 名 字 是 否 已 点 结尾 ， 但 在 很 多 
情况 下 这 个 点 会 被 省 略 。 

e 没有 一 个 组 织 或 系统 会 管理 整个 层级 。 相 反 ， 存 在 一 个 DNS 服务 器 层级 ， 每 台 服 务 
器 管理 树 的 一 个 分 文 〈 一 个 区 域 )。 通 单 ， 每 个 区 域 都 有 一 个 主要 主 名 字 服 务 右 。 此 
外 ， 还 包含 一 个 或 多 个 从 名 字 服 务 占 (有 时 候 也 被 称 为 次 要 主 名 学 服务 右 )， 它 们 在 
主要 主 名 字 服 务 右 朋 溃 时 提供 备份 。 区 域 本 号 可 以 被 划分 成 一 个 个 单独 管理 的 更 小 的 
区 域 。 当 一 台 主 机 被 添加 到 一 个 区 域 中 或 主机 名 到 IP. 地 址 之 间 的 映射 关系 发 生变 化 
时 ， 管 理 员 负 责 更 新 本 地 名 字 服 务 右 上 的 名 学 数据 中 的 对 应 名 字 。( 无 需 手 动 更 改 层 
级 中 其 他 名 字 服 务 器 数据 库 )。 


Linux 上 采用 的 DNS 服务 器 实现 是 被 广泛 使 用 的 BerkeleyInternet Name Domain (BIND) 
实现 ，named(8)， 它 是 由 Internet Systems Consortium (http://www.isc.org/) 维 护 的 。 这 个 daemon 
的 运作 是 由 文件 /etcmnamed.conf 控制 的 (参见 named.conf(5)-FJII). AX DNS 和 BIND 的 关键 
参考 资料 可 以 在 [Albitz & Liu, 2006] 中 找到 。 有 关 DNS 的 信息 也 可 以 在 [Stevens, 1994] 的 第 14 
E, [Stevens et al., 2004] 的 第 11 章 以 及 [Comer 2000] 的 第 24 PEREI. 


o 当 一 个 程序 调用 getaddrinfo0) 来 解析 〈 即 获取 IP 地 址 ) 一 个 域名 时 ，getaddrinfo0 会 使 
用 一 组 库 函 数 Cresolver Æ) 来 与 本 地 的 DNS 服务 器 通信 。 如 果 这 个 服务 器 无 法 提供 
所 需 的 信息 ， 那 么 它 就 会 与 位 于 层级 中 的 其 他 DNS 服务 器 进行 通信 和 以便 获取 信息 。 
有 时 候 ， 这 个 解析 过 程 可 能 会 花费 很 多 时 间 ，DNS 服务 器 采用 了 绥 存 技术 来 避免 在 得 
询 和 常见 域名 时 所 发 生 的 不 必要 的 通信 。 

使 用 上 和 面 的 方法 使 得 DNS 能 够 处 理 大 规模 的 名 空间 ， 同 时 无 需 对 名 学 进行 集中 管理 。 


38 J3 033 4 RITREEAIT IBS K 

DNS 解析 请 求 可 以 分 为 两 类 : 递归 和 迭代。 在 一 个 递归 请 求 中 ， 请 求 者 要 求 服 务 器 处 理 
整个 解析 任务 ， 包 括 在 必要 的 时 候 与 其 他 DNS 服务 器 进行 通信 的 任务 。 当 位 于 本 地 主机 上 的 
一 个 应 用 程序 调用 getaddrinfo0 时 ， 该 函数 会 问 本 地 DNS 服务 需 发 起 一 个 递归 请 求 。 如 有 果 本 
地 DNS 服务 器 目 己 并 没有 相关 信息 来 完成 解析 ， 那 么 它 束 会 迭代 地 解析 这 个 域名 。 
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59-2: DNS 层级 的 一 个 子 集 


下 面 通 过 一 个 例子 来 解释 迭代 解析。 假设 本 地 DNS 服务 句 需 要 解析 一 个 名 字 
www.otago.ac.nz。 要 完成 这 个 任务 ， 它 首先 与 每 个 DNS 服务 器 都 知道 的 一 小 组 根 名 学 服务 需 
中 的 一 个 进行 通信 。( 使 用 命令 dig . NS 或 从 网 页 http:/Wwww.root-servers.org/ 上 可 以 获取 这 组 
服务 器 列表 。) 给 定名 字 www.otago.ac.nz， 根 名 和 凶 服 务 器 会 告诉 本 DNS 服务 器 到 其 中 一 台 nz 
DNS 服务 器 上 查询 。 然 后 本 地 DNS 服务 器 会 在 nz 服务 器 上 查询 名 字 www.otago.ac.nz， 并 收 
到 一 个 到 ac.nz 服务 器 上 查询 的 响应 。 之 后 本 地 DNS 服务 器 会 在 ac.nz 服务 器 上 查询 名 字 
www.otago.ac.nz 并 被 告知 查询 otago.ac.nz 服务 器 。 最 后 本 地 DNS 服务 器 会 在 otago.ac.nz 服务 
器 上 查询 www.otago.ac.nz 并 获取 所 需 的 IP. 地 址 。 

"in [n] gethostbyname() 传 递 了 一 个 不 完整 的 域名 ， 那 么 解析 器 在 解析 之 前 会 尝试 补 全 。 域 名 
补 全 的 规则 是 在 /etc/resolv.conf 中 定义 的 (参见 resolv.conf(5) 手 册 )。 在 默认 情况 下 ， 解析 器 至 
少 会 使 用 本 机 的 域名 来 补 全 。 例如, 如果 登 录 机 器 oghma.otago.ac.nz 并 输入 了 命令 ssh octavo, 
得 到 的 DNS 查询 将 会 以 octavo.otago.ac.nz 作为 其 名 字 。 


顶级 域 


紧 跟 在 匿名 根 廊 点 下 面 的 市 点 补 称 为 项 级 域 TLD)。( 在 这 些 之 下 的 厄 点 是 二 级 域 ， 以 此 
KWE.) TLD 可 以 分 为 两 类 : 通用 的 和 国家 的 。 

在 历史 上 存在 七 个 通用 的 TLD， 其 中 大 多 数 都 可 以 被 看 成 是 国际 的 。 在 图 59-2 中 给 出 了 
其 中 4 个 原始 通用 的 TLD。 男 外 三 个 是 int、mil 和 gov， 其 中 后 两 个 是 你 留 给 美国 使 用 的 。 近 
来 ， 一 组 新 的 通用 TLD 被 添加 进来 了 Cah info. name 以 及 museum). 

每 个 国家 都 有 一 个 对 应 的 国家 (或 地 理 ) TLD CE ISO 3166-1 中 进行 了 标准 化 )， 它 是 一 个 由 2 
个 字符 组 成 的 名 字 。 在 图 59-2 中 给 出 了 其 中 一 些 : de (德国 ，Deutschland)、eu《 欧 洲 联 盟 的 超 国 
家 地 理 TLD), nz G=) 以 及 us (美利坚 合众国 )。 一 些 国家 将 它们 的 TLD 划分 成 一 组 二 级 域 
名 ， 其 划分 方式 与 通用 域 类 似 。 如 新 西 兰 用 ac.nz CERNA co.nz CRA AA govt.nz (政府 )。 



























































59.9 /etc/services 文件 


正如 在 58.6.1 PTPRB, AXIS O zB IANA SEHEN], Er RET RÀ 
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都 有 一 个 对 应 的 服务 名 。 由 于 服务 号 是 集中 管理 并 且 不 会 像 IP 地 址 那样 频繁 变化 ， 因 此 没有 必 
要 采用 DNS 服务 器 来 省 理 它们 。 相 及 ,端口 号 和 服务 名 会 记录 在 文件 /etc/services 中 。getaddrinfo() 
和 getnameinfo0 函 数 会 使 用 这 个 文件 中 的 信息 在 服务 名 和 端口 号 之 间 进 行 转换 。 








# Service name port/protocol [aliases] 


echo 7/tcp Echo # echo service 

echo 7/udp Echo 

ssh 22/tcp # Secure Shell 

ssh 22/udp 

telnet 23/tcp # Telnet 

telnet 23/udp 

smtp 25/tcp # Simple Mail Transfer Protocol 
smtp 25/udp 

domain 53/tcp # Domain Name Server 

domain 53/udp 

http 80/tcp # Hypertext Transfer Protocol 
http 80/udp 

ntp 123/tcp # Network Time Protocol 

ntp 123/udp 

login 513/tcp # rlogin(1) 

who 513/udp # rwho(1) 

shell 514/tcp 8 rsh(1) 

syslog 514/udp # syslog 





协议 通常 是 tcp EM udp. PRI CUBE MO 别名 指定 了 服务 的 其 他 名 字 。 此 外 ， 每 一 
行 中 都 可 能 会 包含 以 # 字 符 打 头 的 注释 。 

正如 之 前 指出 的 那样 , 一 个 给 定 的 并 口号 引用 UDP 和 TCP 的 的 唯一 实体 , 但 IANA WR 
上 略 是 将 两 个 闹 口 都 分 配给 服务 ， 即 使 服务 只 使 用 了 其 中 一 种 协议 。 如 telnet, ssh, HTTP. 以 及 
SMTP， 它 们 都 只 使 用 TCP， 但 对 应 的 UDP 端口 也 被 分 配给 了 这 些 服 务 。 相 应 地 ，NTP 只 使 
用 UDP， 但 TCP 端口 123 也 被 分 配给 了 这 个 服务 。 在 一 些 情况 中 ， 一 个 服务 既 会 使 用 TCP 
也 会 使 用 UDP，DNS 和 encho 就 是 这 样 的 服务 。 最 后 ， 还 有 一 些 极 少 出 现 的 情况 会 将 数值 相同 
的 UDP 和 TCP 端口 分 配给 不 同 的 服务 ， 如 rsh 使 用 TCP 9m L1 514, my syslog daemon (37.5 T) 
则 是 使 用 了 UDP 端口 S14。 这 是 因为 这 些 端口 在 采用 现行 的 IANA 策略 之 前 就 分 配 出 去 了 。 


letc/services 文件 仅仅 记录 看 名 字 到 数字 的 映射 关系 。 它 不 是 一 种 预 留 机 制 : 在 /etc/services 
中 存在 一 个 端口 号 并 不 能 保证 在 实际 环境 中 特定 的 服务 就 能 够 绑 定 到 该 端口 上 。 





























59.10 ”独立 于 协议 的 主机 和 服务 转换 


getaddrinfo0 函 数 将 主机 和 服务 名 转换 成 卫 地 址 和 端口 号 , 它 作为 过 时 的 gethostbyname() 
和 getservbyname()PR Zt B]. Cu] ALBO. REAREA T POSIX.1g Ho CEH getaddrinfo) 
蔡 换 gethostbyname(O) 能 够 从 程序 中 删除 IPv4 与 IPv6 的 依赖 关系 。) 

getnameinfo()rK Zi z& getaddrinfo() I] 3i p Zr, "E34 — ^] socket 地 址 结构 (CIPv4 或 IPv6) 
转换 成 包含 对 应 主机 和 服务 名 的 字符 串 。 这 个 图 数 是 过 时 的 gethostbyaddr() 和 getservbyport() 
RŽI TEAR) 等 价 物 。 

[Stevens et al., 2004] 的 第 11 VEM y getaddrinfo0 和 getnameinfo0， 并 提供 了 这 些 函 
数 的 实现 。RFC 3493 也 对 这 些 函 数 进行 了 描述 。 
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59.10.1 getaddrinfo() K £k 
给 定 一 个 主机 名 和 服务 器 名 ，getaddrinfo0 函 数 返 回 一 个 socket 地 址 结构 列表 ， 每 个 结构 
都 包含 一 个 地 址 和 端口 号 。 


#include «sys/socket.h» 
#include «netdb.h» 


int getaddrinfo(const char *host, const char *service, 
const struct addrinfo *Ahinís, struct addrinfo **result); 


Returns 0 on success, or nonzero on error 














成 功 时 返回 0， 发 生 错 误 时 返回 非 零 值 。 

getaddrinfo() 以 host, service 以 及 hints 参数 作为 输入 ， 其 中 host 参数 包含 一 个 主机 名 或 一 个 
以 IPv4 点 分 十 进 制 标记 或 耻 v6 十 六 进 制 学 符 串 标 记 的 数值 地 址 字符 种 。(; 准 确 地 讲 , getaddrinfo() 
接受 在 59.13.1 节 中 摘 述 的 更 通用 的 数字 和 点 标记 的 IPv4 数值 学 答 串 。) service 参数 包含 一 个 服 
务 名 或 一 个 十 进 制 端口 号 。hints 参数 指 问 一 个 addrinfo 结构 ， 该 结构 规定 了 选择 通过 result 返 
回 的 socket 地 址 结构 的 标准 。 稍 后 会 介绍 有 关 hints 参数 的 更 多 细节 。 

getaddrinfo0 会 动态 地 分 配 一 个 包含 addrinfo 结构 的 链表 并 将 result 指 癌 这 个 列表 的 表 头 。 
每 个 addrinfo 结构 包含 一 个 指向 与 host 和 service 对 应 的 socket 地 址 结构 的 指针 (图 59-3). 
addrinfo 结构 的 形式 如 下 。 


struct addrinfo 1 











int ai flags; /* Input flags (AI * constants) */ 

int ai family; /* Address family */ 

int ai socktype; /* Type: SOCK STREAM, SOCK DGRAM */ 

int ai protocol; /* Socket protocol */ 

size t ai addrlen; /* Size of structure pointed to by ai addr */ 
char *ai canonname; /* Canonical name of host */ 


struct sockaddr *ai addr; /* Pointer to socket address structure */ 
struct addrinfo *ai next;  /* Next structure in linked list */ 


B 

result 参数 返回 一 个 结构 列表 而 不 是 单个 结构 ， 因 为 与 在 host、service 以 及 hints 中 指定 的 标准 
对 应 的 主机 和 服务 组 合 可 能 有 多 个 。 如 查询 拥有 多 个 网 络 接 口 的 主机 时 可 能 会 返回 多 个 地 址 结构 。 
此 外 , 如 果 将 hints.ai socktype 指定 为 0, 那么 就 可 能 会 返回 两 个 结构 一 一 一 个 用 于 SOCK DGRAM 
socket， 男 一 个 用 于 SOCK STREAM socket HILERA EH service 同时 对 TCP 和 UDP 可 用 。 

通过 result 返回 的 addrinfo 结构 的 字段 描述 了 关联 socket 地 址 结构 的 属性 。ai_ family 字段 
会 被 设置 成 AF INET 或 AF INET6， 表 示 该 socket 地 址 结构 的 类 型 。ai socktype 字段 会 被 设 
置 成 SOCK_STREAM 或 SOCK_DGRAM， 表 示 这 个 地 址 结构 是 用 于 TCP 服务 还 是 用 于 UDP 
服务 。ai protocol 字段 会 返回 与 地 址 族 和 socket 类 型 匹配 的 协议 值 。(ai family, ai socktype 
以 及 ai protocol 三 个 字段 为 调用 socketO 创 建 该 地 址 上 的 socket 时 所 需 的 参数 提供 了 取 值 。) 
ai addrlen 字段 给 出 了 ai addr 18 IR] IJ socket 地 址 结构 的 大 小 ( 字 节 数 )。in addr 字段 指 问 socket 
地 址 结构 CIPv4 时 是 一 个 in_addr 结构 ，IPv6 时 是 一 个 in6_addr 结构 )。ai flags 字段 未 用 CÈ 
用 于 hints 参数 )。ai_canonname 字段 仪 由 第 一 个 addrinfo 结构 使 用 并 且 其 前 提 是 像 下 面 所 摘 述 
的 那样 在 hints.ai flags 中 使 用 了 AL CANONNAME 字段 。 

与 gethostbyname0 一 样 ，getaddrinfo0 可 能 需要 回 一 合 DNS 服务 器 友 送 一 个 请 求 ， 并 且 这 个 请 求 
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n femen BATEREN. HERET getnameinfo(), HAAA 59.10.4 节 中 的 描述 。 
在 59.11. 市 中 将 会 演示 如 何 使 用 getaddrinfo(). 


addrinfo canonical 


主机 名 








result 


上 = 一 于 


ai canonname socket 地 址 结构 
at addr 


ai next 











ai nexi 


59-3: getaddrinfo() 分 配 和 返回 的 结构 





hints 参数 

hints 参数 为 如 何 选择 getaddrinfo0 返 回 的 socket 地 址 结构 指定 了 更 多 的 标准 。 当 用 作 hints 
参数 时 只 能 设置 addrinfo 结构 的 ai flags, ai family, ai socktype 以 及 ai protocol 字段 ， 其 他 
字段 未 用 到 ， 并 将 应 该 根据 其 体 情况 将 其 初始 化 为 0 或 NULL. 

hints.ai_family 字段 选择 了 返回 的 socket 地 址 结构 的 域 ， 其 取 值 可 以 是 AF INET 或 
AF INET6 (或 其 他 一 些 AF_* 常 量 ， 只 要 实现 文 持 它们 )。 如 果 和 需要 获取 所 有 种 类 socket 地 址 
结构 ， 那 么 可 以 将 这 个 字段 的 值 指定 为 AF UNSPEC. 

hints.ài socktype 字段 指定 了 使 用 返回 的 socket 地 址 结构 的 socket 类 型 。 如 果 将 这 个 字段 
指定 为 SOCK DGRAM， 那 么 查询 将 会 在 UDP 服务 上 执行 ， 对 应 的 socket 地 址 结构 会 通过 
result 返回 。 如 果 指 定 了 SOCK STREAM， 那么 将 会 执行 一 个 TC 服务 查询 。 如 果 将 
hints.ai socktype 指定 为 0， 那么 任意 类 型 的 socket 都 是 可 接受 的 。 

hints.ai protocol 字段 为 返回 的 地 址 结构 选择 了 socket 协议 。 在 本 书 中 ， 这 个 字段 的 值 总 
是 会 被 设置 为 0， 表示 调用 者 接受 任何 协议 。 

hints.ai_flags FENM, CRNE getaddrinfo0 的 行为 。 这 个 字段 的 取 值 是 下 列 
值 中 的 去 个 或 多 个 取 OR 得 来 的 。 
Al ADDRCONFIG 

在 本 地 系统 上 人 至少 配置 了 一 个 IPv4 地 址 时 返回 IPv4 地 址 (不 是 IPv4 回环 地 址 )， 在 本 地 
系统 上 全 少 配 置 了 一 个 了 了 v6 系统 时 返回 IPv6 地 址 (不 是 IPv6 回环 地 址 )。 
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Al ALL 
参见 下 面 对 AI VAMAPPED 的 描述 。 


Al CANONNAME 

如 果 host 不 为 NULL， 那 么 返回 一 个 指向 以 null EEFE, iXETPHBRBANS FX . 
这 个 指针 会 在 通过 result 返回 的 第 一 个 addrinfo 结构 中 的 ai canonname 学 段 指 同 的 绥 冲 器 中 返回 。 
Al NUMERICHOST 

强制 将 host 解释 成 一 个 数值 地 址 字符 串 。 这 个 常量 用 于 在 不 必要 解析 名 字 时 防止 进行 名 
字 解 析 ， 因 为 名 字 解 析 可 能 会 花费 较 长 的 时 间 。 
Al NUMERICSERV 

将 service 解释 成 一 个 数值 端口 号 。 这 个 标记 用 于 防止 调用 任意 的 名 字 解 析 服 务 ， 因 为 当 
service 为 一 个 数值 字符 串 时 这 种 调用 是 没有 必要 的 。 
Al PASSIVE 

返回 一 个 适合 进行 被 动 式 打 开 〈 即 一 个 监听 socket) 的 socket 地 址 结构 。 在 这 种 情况 下 ， 
host 应 该 是 NULL, 通过 result 返回 的 socket 地 址 结构 的 IP 地 址 部 分 将 会 包含 一 个 通 配 IP 地 址 
( 即 INADDR. ANY 8X INGADDR. ANY _INIT)。 如 果 没 有 设置 这 个 标记 ,那么 通过 result 返回 的 
地 址 结构 将 能 用 于 connect) sendto(); WR host 为 NULL， 那 么 返回 的 socket 地 址 结构 中 的 
IP 地 址 将 会 被 设置 成 回环 P 地 址 (根据 所 处 的 域 ， 其 值 为 INADDR LOOPBACK 或 
IN6ADDR LOOPBACK INIT )。 


Al VAMAPPED 

如 果 在 hints 的 ai family 字段 中 指定 了 AF INET6， 那 么 在 没有 找到 匹配 的 IPv6 地 址 时 应 
该 在 result 返回 IPv4 映射 的 IPv6 地 址 结构 。 如 果 同 时 指定 了 AL ALL 和 AL V4MAPPED， 那 么 
fF. result 中 会 同时 返回 IPv6 和 IPv4 地 址 , 其 中 IPv4 地 址 会 被 返回 成 IPv4 映射 的 IPv6 地 址 结构 。 

正如 前 面 介绍 AI PASSIVE 时 指出 的 那样 ，host 可 以 被 指定 为 NULL。 此 外 ， 还 可 以 将 
service 指定 为 NULL， 在 这 种 情况 下 ， 返 回 的 地 址 结构 中 的 端口 号 会 被 设置 为 0〈 即 只 关心 将 
主机 名 解析 成 地 址 )。 然 而 无 法 将 host 和 service 同时 指定 为 NULL. 

如 果 无 需 在 hints 中 指定 上 述 的 选取 标准 , 那么 可 以 将 hints 指定 为 NULL, 在 这 种 情况 下 
会 将 ai socktype 和 ai protocol 假设 为 0， 将 ai flags 假设 为 (AI V4MAPPED | 
AI ADDRCONFIG)， 将 ai family 假设 为 AF UNSPEC。(glibc 实现 有 意 与 SUSv3 背道而驰 ， 
它 声称 如 果 hints Zj NULL. MASH ai flags 假设 为 0。) 


59.10.2 释放 addrinfo 列表 : freeaddrinfo() 


getaddrinfo() 疯 数 会 动态 地 为 result 引用 的 所 有 结构 分 配 内 存 〈 图 59-3)， 其 结果 是 调用 者 
必须 要 在 不 再 需要 这 些 结构 时 释放 它们 ,使 用 fieeaddrinfo0 函 数 可 以 方便 地 在 一 个 步骤 中 执行 
这 个 释放 任务 。 









































#include «sys/socket.h» 
#include «netdb.h» 


void freeaddrinfo(struct addrinfo *resull); 


如 果 和 希望 保留 addrinfo 结构 或 其 关联 的 socket 地 址 结构 的 一 个 副本 ， 那 么 必须 要 在 调用 
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freeaddrinfoO 之 前 复制 这 些 结 构 。 


59.10.3 fRA: gai strerror() 
getaddrinfo() 在 发 生 错 误 时 会 返回 表 59-1 中 给 出 的 一 个 非 零 错误 人 码 。 
表 59-1 getaddrinfo() 和 getnameinfo() 返 回 的 错误 码 











EAI ADDRFAMILY 在 hints.ai family 中 不 存在 host 的 地 址 (没有 在 SUSv3 中 规定 ， 但 大 多 数 
实现 都 对 其 进行 了 定义 ， 仅 供 getaddrinfo() 使 用 ) 

EAI_AGAIN 名 字 解 析 过 程 中 发 生 临 时 错误 《〈 稍 后 重 试 ) 

EAI_BADFLAGS 在 hints.ai flags 中 指定 了 一 个 无 效 的 标记 

EAI FAIL 访问 名 字 服 务 器 时 发 生 了 无 法 恢复 的 故障 

EAI_FAMILY 不 支持 在 hints.ai family 中 指定 的 地 址 族 

EAI MEMORY 内 存 分 配 故 障 

EAI NODATA 没有 与 host 关联 的 地 址 (没有 在 SUSv3 中 规定 ， 但 大 多 数 实现 都 对 其 进 
行 了 定义 ， 仅 供 getaddrinfo0O 使 用 ) 

EAI_NONAME 未 知 的 host 或 service， 或 host 和 service 都 为 NULL， 或 指定 了 
AI NUMERICSERV 同时 service 没有 指向 一 个 数值 字符 串 

EAI OVERFLOW UE UESTRE 

EAI SERVICE hints.ai socktype 不 支持 指定 的 service 〈 仅 供 getaddrinfo() fi H] 

EAI SOCKTYPE 不 支持 指定 的 hints.ai socktype (fX flt getaddrinfo() fii FH] ) 

EAI SYSTEM 通过 errno 返回 的 系统 错误 





























给 定 表 59-1 中 列 出 的 一 个 错误 人 码 ，gai_strerror0 函 数 会 妈 回 一 个 揪 述 该 错误 的 字符 串 。( 该 
CABE S ELE 59-1 中 给 出 的 描述 更 加 简洁 。) 





#include «netdb.h» 


const char *gai strerror(int errcode); 


Returns pointer to string containing error message 














gai_strerrorO 返 回 的 字符 串 可 以 作为 应 用 程序 显示 的 错误 消息 的 一 部 分 。 


59.10.4 _ getnameinfo() 函 数 

getnameinfo()FK Zi Z& getaddrinfo) HJI% PR Zt . Zi 4E — ^l socket 地 址 结构 (CIPv4 或 IPv6), 
它 会 返回 一 个 包含 对 应 的 主机 和 服务 名 的 学 符 串 或 者 在 无 法 解析 名 字 时 返回 一 个 等 价 的 
数值 。 

















#include «sys/socket.h> 
#include «netdb.h» 


int getnameinfo(const struct sockaddr *addr, socklen t addrlen, char *host, 
size t hostlen, char *service, size t serulem, int flags); 


Returns Ü on success, or nonzero on error 
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addr Z Zi e —^ E AFH] socket 地 址 结构 的 指针 ,该 结构 的 长 度 是 由 addrlen 指定 的 。 
7$, addr 和 addrlen 的 值 是 从 accept, recvfrom(). getsockname() £X, getpeername() 调 用 中 获 


MN 


`y 


am EK 


c 





得 到 的 主机 和 服务 名 是 以 null 结尾 的 学 符 串 ， 它 们 会 被 存储 在 host 和 service TR IH] IT] 2 
冲 嚣 中。 调用 者 必须 要 为 这 些 绥 冲 右 分 配 空 间 并 将 它们 的 大 小 传 入 hostlen 和 servlen. 
<netdb.h> 头 文件 定义 了 两 个 稼 量 来 辅助 计算 这 些 缓冲 器 的 大 小 。NL MAXHOST 指出 了 返回 
的 主机 名 学 符 串 的 最 大 学 市 数 ， 其 取 值 为 1025。NI MAXSERV 指出 了 返回 的 服务 名 字符 串 
的 最 大 字 节 数 ,其 取 值 为 32。 这 两 个 音量 没有 在 SUSv3 中 得 到 规定 ,但 所 有 提供 getnameinfo() 
的 UNIX 实现 都 对 它们 进行 了 定义 。( 从 glibc 2.8 起 ， 必 须要 定义 BSD SOURCE, 
_SVID SOURCE 或 GNU SOURCE 中 的 其 中 一 个 特性 文本 宏 才 能 获取 NI MAXHOST 和 
NI MAXSERV 的 定义 。) 

如 采 不 想 获 取 主 机 名 ， 那 么 可 以 将 host 指定 为 NULL 并 且 将 hostlen 指定 为 0。 同样 地 ， 
如 末 不 需要 服务 名 ， 那 么 可 以 将 service 指定 为 NULL 并 且 将 servlen 指定 为 0。 但 是 host 和 
service 中 至 少 有 一 个 必须 为 非 NULL 值 〈 并 且 对 应 的 长 度 参 数 必 须 为 非 零 )。 

最 后 一 个 参数 flags 是 一 个 位 掩 码 ， 它 控制 着 getnameinfo() 的 行为 ， 其 取 值 为 下 面 这 些 常 
星 取 OR. 
NI DGRAM 

在 默认 情况 下 ，getnameinfoO 返 回 与 流 socket (EU TCP) 服务 对 应 的 名 字 。 通 党， 这 是 
无 关 紧 要 的 ， 因 为 正如 59.9 节 中 指出 的 那样 ， 与 TCP 和 UDP 端口 对 应 的 服务 名 通常 是 相 
同 的 ， 但 在 一 些 名 字 不 同 的 场景 中 ，NL_ DGRAM 标记 会 强制 返回 数据 报 socket CHI] UDP) 
服务 的 名 字 。 
NI NAMEREQD 

在 默认 情况 下 ， 如 果 无 法 解析 主机 名 ， 那 么 在 host 中 会 返回 一 个 数值 地 址 字符 串 。 如 果 
指定 了 NI NAMEREQD， 那 么 焉 会 返回 一 个 错误 (EAI NONAME). 
NI NOFQDN 

在 默认 情况 下 会 返回 主机 的 完全 限定 域名 。 指 定 NI NOFQDN 标记 会 导致 当主 机 位 于 局 
域 网 中 时 只 返回 名 罕 的 第 一 部 分 〈 即 主机 名 )。 
NI NUMERICHOST 

强制 在 host 中 返回 一 个 数值 地 址 字符 串 。 这 个 标记 在 需要 避免 可 能 耗 时 较 长 的 DNS 服务 
器 调用 时 是 比较 有 用 的 。 
NI NUMERICSERV 

强制 在 service iR 4 An NP S XCTRWUCE RUE Xy E POT INE HOS 
时 一 一 如 它 是 一 个 由 内 核 分 配给 socket H5 ST o O 57 — — EA. Ji e E S6 I S ZEIT] 39 
/etc/services 的 低 效 性 时 是 比较 有 用 的 。 
getnameinfo() 在 成 功 时 会 返回 0, 发 生 错 误 时 会 返回 表 59-1 中 给 出 的 其 中 一 个 非 零 错误 公 。 





















































59.11 客户 中 /服务 器 示例 CAI socket) 


现在 已 经 可 以 介绍 一 个 简单 的 使 用 TCP socket 的 客户 端 /服务 器 应 用 程序 了 。 这 个 应 用 
程序 执行 的 任务 与 44.8 市 中 给 出 的 FIFO 客户 端 /服务 器 应 用 程序 所 执行 的 任务 是 一 样 的 : 
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给 客户 端 分 配 唯一 的 序号 (或 一 组 序号 )。 
为 处 理 服务 器 和 客户 端 主 机 可 能 以 不 同 的 格式 来 表示 整数 的 情况 ， 需 要 将 所 有 传输 的 整 
数 编码 成 以 换行 符 结 尾 的 字符 捉 并 使 用 readLine0 函 数 程 序 清单 59-1) 来 读 取 这 些 字符 串 。 


公共 头 文 件 


服务 絮 和 客户 并 都 需要 包含 程序 清单 59-5 给 出 的 头 文 件 。 这 个 文件 包含 了 其 他 各 种 头 文 
件 并 定义 了 应 用 程序 使 用 的 TCP 39m L1. 














服务 器 程序 

程序 清单 59-6 给 出 的 服务 器 程序 执行 了 下 列 任务 。 

。 将 服务 如 的 序号 初始 化 为 1 或 通过 可 选 的 命令 行 参数 提供 的 值 〇 D。 

o 忽略 SIGPIPE fi^. XUFELHe S Ui LES DS d E NI] — OE 9m CLERC HITS socket 
写 入 数据 时 收 到 SIGPIPE 信号 ;反之 ，write0) 会 失败 并 返回 EPIPE 错误 。 

e 调用 getaddrinfo0G 约 获取 使 用 端口 号 PORT NUM 的 TCP socket 的 socket 地 址 结构 组 。 
(通常 会 使 用 一 个 服务 名 , 而 不 会 使 用 一 个 硬 编码 的 端口 号 。) 这 里 指定 了 AI PASSIVE 
标记 ()， 这 样 得 到 的 socket 会 被 绑 定 到 通 配 地 址 上 (58.5 节 )， 其 结果 是 当 服 务 器 运 
行 在 一 个 多 和 窒 主 机 上 时 可 以 接受 友 到 主机 的 任意 一 个 网 络 地 址 上 的 连接 请 求 。 

e 进入 一 个 循环 迭代 上 一 步 中 返回 的 socket 地 址 结构 @@。 这 个 循环 在 程序 找到 一 个 能 成 
功 地 用 来 创建 和 绑 定 到 一 个 socket. 上 的 地 址 结构 时 结束 。 

e 在 上 一 步 创 建 的 socket 上 设置 SO REUSEADDR 选项 @. 有 关 这 个 选项 的 讨论 将 会 放 在 61.10 
方 中 进 行 ， 在 那 一 节 中 将 会 指出 一 个 TCP 服务 器 通常 应 该 在 其 览 昕 socket 上 设置 这 个 选项 。 

e 将 socket 标记 成 一 个 监听 socket(8)。 

。 开局 一 个 无 限 的 for (8 GELD TXUI AS 0e m CES 60 革 )。 每 个 客户 并 的 请 求 会 在 接 
受 下 一 个 客户 端的 请 求 之 前 得 到 服务 。 对 于 每 个 客户 端 ， 服 务 器 将 会 执行 下 列 任务 。 

- 接受 一 个 新 连接 (0。 服务 器 问 accept0 的 第 二 个 和 第 三 个 参数 传 入 了 一 个 非 NULL 指针 以 
便 获 取 客 户 端的 地 址 。 服务 器 会 在 标准 输出 上 显示 客户 端的 地 址 LD AP 地 址 加 上 端口 号 )。 
- 读 取 客 户 端的 消息 @@， 该 消 朋 由 一 个 以 换行 符 结尾 的 指定 了 客户 端 请 求 的 序号 数量 
的 字符 串 构 成 ,服务 器 将 这 个 字符 串 转 换 成 一 个 整数 并 将 其 存储 在 变量 reqLen 中 (3。 
- 将 序号 的 当前 值 (seqNum) 发 回 给 客户 端 并 将 该 值 编码 成 一 个 以 换行 符 结尾 的 字符 串 必 。 
客户 冰 可 以 假定 它 已 经 分 配 到 了 范围 在 seqNum 到 (seqNum + reqLen - 1) 之 间 的 序号 。 
- 将 reqLen 加 到 seqNum 上 以 更 新 服务 器 的 序号 值 (9。 


程序 清单 59-5: is seqnum sv.c 和 is seqnum cl.c 使 用 的 头 文件 
























































sockets/is seqnum.h 


ftinclude «netinet/in.h» 

&include «sys/socket.h» 

&include «signal.h» 

&include "read line.h" /* Declaration of readLline() */ 
&include "tlpi hdr.h" 


#define PORT NUM "50000" /* Port number for server */ 
#define INT LEN 30 /* Size of string able to hold largest 


integer (including terminating “An ) */ 
sockets/is seqnum.h 
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程序 清单 59-6: 使 用 流 socket 与 客户 端 进行 通信 的 和 迭代 式 服务 器 
一 Sockets/is seqnum sv.c 
#define BSD SOURCE /* To get definitions of NI MAXHOST and 
NI MAXSERV from «netdb.h» */ 
#include «netdb.h» 
#include "is seqnum.h" 


#define BACKLOG 50 


int 
main(int argc, char *argv[]) 


uint32_t seqNum; 
char reqLenStr[INT LEN]; /* Length of requested sequence */ 
char seqNumStr[INT LEN]; /* Start of granted sequence */ 
struct sockaddr storage claddr; 
int lfd, cfd, optval, reqLen; 
socklen t addrlen; 
struct addrinfo hints; 
struct addrinfo *result, *rp; 
#define ADDRSTRLEN (NI MAXHOST + NI MAXSERV + 10) 
char addrStr[ADDRSTRLEN] ; 
char host[NI MAXHOST]; 
char service[NI MAXSERV]; 


if (argc > 1 && strcmp(argv[1], "--help") == 0) 
usageErr("Xs [init-seq-num]Wn", argv[0]); 


(D seqNum = (argc > 1) ? getInt(argv[1], O, "init-seq-num") : 0; 


D if (signal(SIGPIPE, SIG IGN) == SIG ERR) 
errExit(" signal"); 


/* Call getaddrinfo() to obtain a list of addresses that 
we can try binding to */ 


memset(&hints, 0, sizeof(struct addrinfo)); 

hints.ai canonname - NULL; 

hints.ai addr - NULL; 

hints.ai next - NULL; 

hints.ai socktype - SOCK STREAM; 

hints.ai family - AF UNSPEC; /* Allows IPv4 or IPv6 */ 
© hints.ai flags = AI PASSIVE | AI NUMERICSERV; 

/* Wildcard IP address; service name is numeric */ 
a) if (getaddrinfo(NULL, PORT NUM, &hints, &result) != 0) 
errExit("getaddrinfo"); 


/* Walk through returned list until we find an address structure 
that can be used to successfully create and bind a socket */ 


optval = 1; 
(S for (rp = result; rp !- NULL; rp = rp-»ai next) { 
lfd = socket(rp-»ai family, rp-»ai socktype, rp-»ai protocol); 


if (lfd == -1) 
continue; /* On error, try next address */ 
O if (setsockopt(lfd, SOL SOCKET, SO REUSEADDR, &optval, sizeof(optval)) 
== -1) 
errExit("setsockopt"); 
D if (bind(lfd, rp-»ai addr, rp-»ai addrlen) == 0) 
break; /* Success */ 
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/* bind() failed: close this socket and try next address */ 


close(lfd); 
} 


if (rp == NULL) 
fatal("Could not bind socket to any address"); 


(8) if (listen(lfd, BACKLOG) -- -1) 
errExit("listen"); 


freeaddrinfo(result); 
© for (5;) ( /* Handle clients iteratively */ 
/* Accept a client connection, obtaining client's address */ 


addrlen - sizeof(struct sockaddr storage); 
(46) cfd = accept(lfd, (struct sockaddr *) &claddr, &addrlen); 
if (cfd == -1) ( 
errMsg("accept"); 
continue; 


j 


(t) if (getnameinfo((struct sockaddr *) &claddr, addrlen, 
host, NI MAXHOST, service, NI MAXSERV, 0) == 0) 
snprintf(addrStr, ADDRSTRLEN, "(Xs, Xs)", host, service); 
else 
snprintf(addrStr, ADDRSTRLEN, "(?UNKNOWN?)"); 
printf("Connection from %s\n", addrStr); 


/* Read client request, send sequence number back */ 


(12) if (readLine(cfd, reglenStr, INT LEN) <= 0) { 
close(cfd); 
continue; /* Failed read; skip request */ 
} 
(i) reqlen = atoi(reqLenStr); 
if (reqLen <= 0) 1 /* Watch for misbehaving clients */ 
close(cfd); 
continue; /* Bad request; skip it */ 
} 
(i) snprintf(seqNumStr, INT LEN, "d\n", seqNum); 


if (write(cfd, &seqNumStr, strlen(seqNumStr)) !- strlen(seqNumStr)) 
fprintf(stderr, "Error on write"); 


(5) seqNum += reqLen; /* Update sequence number */ 
if (close(cfd) == -1) /* Close connection */ 
errMsg("close"); 
j 
} 
sockets/is seqnum sv.c 
客户 端 程序 








程序 清单 59-7 给 出 了 客户 端 程序 。 这 个 程序 接受 两 个 参数 。 第 一 个 参数 是 运行 服务 器 的 
主机 名 ， 该 参数 是 必需 的 。 第 二 个 可 选 的 参数 是 客户 闫 所 需 的 序号 长 度 。 默 认 的 长 度 是 1。 客 
户 站 执行 了 下 列 任务 。 
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。 调用 getaddrinfo() 获 取 一 组 适合 连接 到 绑 定 在 指定 主机 上 的 TCP 服务 器 的 socket 地 址 
结构 中 。 对 于 疹 口 号 ， 客 户 端 会 将 其 指定 为 PORT NUM。 

e 进入 一 个 循环 遍历 上 一 步 中 返回 的 socket 地 址 结构 直到 客户 端 找到 一 个 能 够 成 功用 
来 创建 @) 并 连接 到 服务 器 socket 的 地 址 结构 为 止 。 由 于 客户 端 不 会 绑 定 其 socket. 
此 connectO 调 用 会 导致 内 核 为 该 socket 分 配 一 个 临时 端口 。 

e 发 送 一 个 整数 指定 客户 端 所 需 的 序号 长 度 名 。 这 个 整数 将 会 被 编码 成 以 换行 符 结尾 的 




















字符 串 来 发 送 。 
。 读 取 服 务 器 发 送 回 来 的 序号 (同样 也 是 一 个 以 换行 符 结尾 的 字符 串 ) @ 并 将 其 打印 到 
标准 输出 上 @。 





当 在 同一 台 主 机 上 运行 服务 器 和 客户 端 上 时 会 看 到 下 列 输 出 。 


$ ./is seqnum sv & 


[1] 4075 

$ ./is seqnum cl localhost Client 1: requests 1 sequence number 
Connection from (localhost, 33273) Server displays client address + port 
Sequence number: O Client displays returned sequence number 
$ ./is seqnum cl localhost 10 Client 2: requests 10 sequence numbers 


Connection from (localhost, 33274) 

Sequence number: 1 

$ ./is seqnum cl localhost Client 3: requests 1 sequence number 
Connection from (localhost, 33275) 

Sequence number: 11 


下 面 演示 了 如 何 使 用 telnet 来 调试 这 个 应 用 程序 。 


$ telnet localhost 50000 Our server uses this bort number 
Empty line printed by telnet 

Trying 127.0..0.1... 

Connection from (localhost, 33276) 


Connected to localhost. 
Escape character is '^]'. 


1 Enter length of requested sequence 
12 telnet displays sequence number and 
Connection closed by foreign host. detects that server closed connection 


在 上 面 的 shell 会 话 日 志 中 可 以 看 出 内 核 按 序 循环 使 用 临时 端口 号 。( 其 他 实现 也 表现 出 
了 类 似 的 行为 。) 在 Linux 上 ， 这 个 行为 是 最 小 化 对 内 核 的 本 地 socket 绑 定 关 系 表 的 哈 希 得 
询 的 结果 。 当 到 达 这 些 数字 的 上 限时 内 核 会 从 范围 的 下 限 《〈 由 Linux 特有 的 
/proc/sys/net/ipvA/ip local port range 文件 定义 ) 开始 重新 分 配 一 个 可 用 的 数字 。 


程序 清单 59-7: 使 用 流 socket 的 客户 端 
sockets/is seqnum cl.c 


#include «netdb.h» 
&include "is seqnum.h" 


int 
main(int argc, char *argv[]) 


char *reqLenStr; /* Requested length of sequence */ 
char seqNumStr[INT LEN]; /* Start of granted sequence */ 
int cfd; 


ssize t numRead; 
struct addrinfo hints; 
struct addrinfo *result, *rp; 
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E 


if (argc < 2 || stremp(argv[1], "--help") == 0) 
usageErr("Xs server-host [sequence-len]Wn", argv[0]); 


/* Call getaddrinfo() to obtain a list of addresses that 
we can try connecting to */ 


memset(&hints, O, sizeof(struct addrinfo)); 

hints.ai canonname - NULL; 

hints.ai addr - NULL; 

hints.ai next - NULL; 

hints.ai family - AF UNSPEC; /* Allows IPv4 or IPv6 */ 
hints.ai socktype = SOCK STREAM; 

hints.ai flags - AI NUMERICSERV; 


if (getaddrinfo(argv[1], PORT NUM, &hints, &result) !- O) 
errExit("getaddrinfo"); 


/* Walk through returned list until we find an address structure 
that can be used to successfully connect a socket */ 


for (rp = result; rp !- NULL; rp = rp-»ai next) ( 
Cfd = socket(rp-»ai family, rp-»ai socktype, rp-»ai protocol); 
if (cfd -- -1) 


continue; /* On error, try next address */ 
if (connect(cfd, rp-»ai addr, rp-»ai addrlen) !- -1) 
break; /* Success */ 


/* Connect failed: close this socket and try next address */ 


close(cfd); 
} 


if (rp == NULL) 
fatal("Could not connect socket to any address"); 
freeaddrinfo(result); 


/* Send requested sequence length, with terminating newline */ 


reqlenStr = (argc > 2) ? argv[2] : "1"; 

if (write(cfd, reqLenStr, strlen(reqlenStr)) !- strlen(reqLenStr)) 
fatal("Partial/failed write (reqLenStr)"); 

if (write(cfd, "An", 1) !- 1) 
fatal("Partial/failed write (newline)"); 


/* Read and display sequence number returned by server */ 
numRead = readLine(cfd, seqNumStr, INT LEN); 
if (numRead -- -1) 
errExit("readLine"); 
if (numRead -- 0) 
fatal("Unexpected EOF from server"); 


printf("Sequence number: Xs", seqNumStr); /* Includes '\n' */ 


exit(EXIT SUCCESS); /* Closes 'cfd' */ 


sockets/is seqnum cl.c 
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59.12 Internet domain socket Æ 


A HEBEH] 59.10 和 中 介绍 的 函数 来 实现 一 个 函数 库 , 它 执行 了 使 用 Internet domain socket 
时 磁 到 的 常见 任务 。( 这 个 库 对 59.11 节 中 给 出 的 示例 程序 中 的 很 多 任务 都 进行 了 抽象 。) 由 于 
这 些 图 数 使 用 了 协议 独立 的 getaddrinfo0 和 getnameinfoQ PS it, 因此 它们 既 可 以 用 于 IPv4 也 可 
以 用 于 IPv6。 程 序 清单 59-8 给 出 了 声明 这 些 函 数 的 头 文 件 。 

这 个 库 中 的 很 多 函数 都 接收 类 似 的 参数 。 

e hos 参数 是 一 个 字符 串 ， 它 包含 一 个 主机 名 或 一 个 数值 地 址 〈 以 IPv4 的 点 分 十 进 制 表示 或 

IPv6 的 十 六 进 制 学 符 串 表示 )。 或 者 也 可 以 将 host 指定 为 NULL 来 表明 使 用 回环 IP 地 址 。 
e service 参数 是 一 个 服务 名 或 者 是 一 个 以 干 进 制 字符 串 表 示 的 端口 号 。 
e type 参数 是 socket 的 类 型 ， 其 取 值 为 SOCK STREAM 或 SOCK DGRAM. 


程序 清单 59-8， inet sockets.c 使 用 的 头 文件 























sockets/inet sockets.h 
#ifndef INET SOCKETS H 
#define INET SOCKETS H /* Prevent accidental double inclusion */ 


include «sys/socket.h» 
#include «netdb.h» 


int inetConnect(const char *host, const char *service, int type); 
int inetListen(const char *service, int backlog, socklen t *addrlen); 
int inetBind(const char *service, int type, socklen t *addrlen); 


char *inetAddressStr(const struct sockaddr *addr, socklen t addrlen, 
char *addrStr, int addrStrlen); 


#define IS ADDR STR LEN 4096 
/* Suggested length for string buffer that caller 
should pass to inetAddressStr(). Must be greater 
than (NI MAXHOST 4 NI MAXSERV 4 4) */ 
#endif 
sockets/inet_sockets.h 


inetConnect() FK ZI 1525 XE IJ socket type 创建 一 个 socket 并 将 其 连接 到 通过 host 和 service TH 
定 的 地 址 。 这 个 函数 可 供需 将 日 己 的 socket 连接 到 一 个 服务 器 socket 的 TCP 或 UDP 7 iint. 


Hinclude "inet sockets.h" 








int inetConnect(const char *host, const char *service, int type); 
Returns a file descriptor on success, or -1 on error 
ijr socket 的 文件 插 述 符 会 作为 函数 结果 返回 。 
inetListenO 〇 函数 创建 一 个 监听 流 (SOCK STREAM) socket, 该 socket 会 被 绑 定 到 由 service 
指定 的 TCP 端口 的 通 配 IP 地 址 上 。 这 个 函数 被 设计 供 TCP 服务 器 使 用 。 


#include "inet sockets.h" 


int inetListen(const char *service, int backlog, socklen t *addrlen); 


Returns a file descriptor on success, or -1 on error 
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新 socket 的 文件 描述 符 会 作为 图 数 结果 返回 。 

backlog 参数 指定 了 人 允许 积压 的 未 决 连接 数量 〈 与 listen() 一 样 )。 

如 果 将 addrlen 指定 为 一 个 非 NULL 指针 ， 那 么 与 返回 的 文件 摘 述 符 对 应 的 socket 
地 址 结构 的 大 小 会 返回 在 它 所 指 问 的 位 置 中 。 通 过 这 个 值 可 以 在 需要 获取 一 个 已 连接 
socket 的 地 址 时 为 传 入 给 后 面 的 acceptO 调 用 的 socket 地 址 绥 冲 右 分 配 一 个 合适 的 大 小 。 

inetBindO) 函 数 根据 给 定 的 type 创建 一 个 socket 并 将 其 绑 定 到 由 service 和 type JRE HIY H 
的 通 配 IP 地 址 上 。(socket type 指定 了 该 socket 是 一 个 TCP 服务 还 是 一 个 UDP 服务 器 。) 这 个 




















Kaier CEH) Dt UDP 服务 左 和 创建 socket 并 将 其 绑 定 到 东 个 具体 地 址 上 的 客户 端 使 用 。 


#include "inet sockets.h" 


int inetBind(const char *service, int type, socklen t *addrlen); 





Returns a file descriptor on success, or -1 on error 
新 socket 的 文件 接 述 符 会 作为 函数 结果 返回 。 
与 inetListen0 一 样 ，inetBind0 会 将 关联 socket 地 址 结构 的 长 度 返回 在 addrlen 指向 的 位 置 
中 。 这 对 于 需要 为 传递 给 recvfromQ B Zh s 23 Boa TR] EAR IUOS SG TT) socket 的 地 址 来 讲 
征 比较 有 用 的 。(CinetListen0 和 inetBindO 所 二 做 的 很 多 工作 是 相同 的 ， 这 些 工作 是 通过 库 中 的 
单个 图 数 inetPassiveSocket0 来 实现 的 。) 
&include "inet sockets.h" 








char *inetAddressStr(const struct sockaddr *addr, socklen t addrlen, 
char *addrStr, int addrStrLen); 





Returns pointer to addrStr, a string containing host and service name 
返回 一 个 指向 addrStr 的 指针 ， 该 字符 串 包 含 了 主机 和 服务 名 。 
假设 在 addr 中 给 定 了 socket HEHEA, HKEE addrlen 中 指定 ， 那 么 inetAddressStr() 








会 返回 一 个 以 null 结尾 的 字符 串 ， 该 字符 串 包 含 了 对 应 的 主机 名 和 端口 号 ， 其 形式 如 下 。 
(hostname, port-number) 
返回 的 字符 串 是 存放 在 addrStr 38 I ZR PH WH A P LEE addrStrLen 中 指定 这 
个 缓冲 右 的 大 小 。 如 果 返 回 的 字符 串 超 过 了 CaddrStrLen-10 字 节 ， 那 么 它 束 会 被 截断 。 
^5 IS ADDR STR LEN 为 addrStr 绥 冲 右 的 大 小 定义 了 一 个 建议 值 ， 它 的 取 值 应 该 足以 存 
放 所 有 可 能 的 返回 字符 串 了 。inetAddressStr0 返 回 addrStr 作为 其 函数 结果 。 
程序 清单 59-9 给 出 了 本 节 中 摘 述 的 这 些 函 数 的 实现 。 
程序 清单 59-9: 一 个 Internet domain socket Æ 























sockets/inet sockets .< 


#define BSD SOURCE /* To get NI MAXHOST and NI MAXSERV 
definitions from «netdb.h» */ 

include «sys/socket.h» 

#include «netinet/in.h» 

#include «arpa/inet.h» 

#include «netdb.h» 

#include "inet sockets.h" /* Declares functions defined here */ 

&include "tlpi hdr.h" 


int 
inetConnect(const char *host, const char *service, int type) 


{ 


struct addrinfo hints; 


第 59 £& SOCKET. Internet Domain 1007 


异步 社区 会 员 flyman150(2410757683 (9 qq.com) 专 享 尊重 版 权 


struct addrinfo *result, *rp; 
int sfd, s; 


memset(&hints, O, sizeof(struct addrinfo)); 

hints.ai canonname - NULL; 

hints.ai addr - NULL; 

hints.ai next - NULL; 

hints.ai family - AF UNSPEC; /* Allows IPv4 or IPv6 */ 
hints.ai socktype - type; 


s = getaddrinfo(host, service, &hints, &result); 


if (s != 0) ( 
errno - ENOSYS; 
return -1; 

} 


/* Walk through returned list until we find an address structure 
that can be used to successfully connect a socket */ 


for (rp = result; rp !- NULL; rp = rp-»ai next) { 
Sfd - socket(rp-»ai family, rp-»ai socktype, rp-»ai protocol); 


if (sfd -- -1) 

continue; /* On error, try next address */ 
if (connect(sfd, rp-»ai addr, rp-»ai addrlen) !- -1) 

break; /* Success */ 


/* Connect failed: close this socket and try next address */ 


close(sfd); 
} 


freeaddrinfo(result); 


return (rp -- NULL) ? -1 : sfd; 
} 
static int /* Public interfaces: inetBind() and inetListen() */ 
inetPassiveSocket(const char *service, int type, socklen t *addrlen, 
Boolean dolisten, int backlog) 
i 


struct addrinfo hints; 
struct addrinfo *result, *rp; 
int sfd, optval, s; 


memset(&hints, O, sizeof(struct addrinfo)); 
hints.ai canonname - NULL; 

hints.ai addr - NULL; 

hints.ai next = NULL; 

hints.ai socktype - type; 


hints.ai family - AF UNSPEC; /* Allows IPv4 or IPv6 */ 
hints.ai flags - AI PASSIVE; /* Use wildcard IP address */ 
s = getaddrinfo(NULL, service, &hints, &result); 
if (s le 0) 

return -1; 


/* Walk through returned list until we find an address structure 
that can be used to successfully create and bind a socket */ 


optval - 1; 
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for (rp = result; rp !- NULL; rp = rp-»ai next) { 
sfd = socket(rp-»ai family, rp-»ai socktype, rp-»ai protocol); 
if (sfd -- -1) 
continue; /* On error, try next address */ 


if (doListen) ( 
if (setsockopt(sfd, SOL SOCKET, SO REUSEADDR, &optval, 
sizeof(optval)) == -1) 1 


close(sfd); 
freeaddrinfo(result); 
return -1; 
} 
} 
if (bind(sfd, rp-»ai addr, rp-»ai addrlen) -- 0) 
break; /* Success */ 


/* bind() failed: close this socket and try next address */ 


close(sfd); 


if (rp !- NULL 8& dolisten) { 
if (listen(sfd, backlog) == -1) { 
freeaddrinfo(result); 


return -1; 
} 
} 
if (rp != NULL 8& addrlen != NULL) 
*addrlen = rp-»ai addrlen; /* Return address structure size */ 


freeaddrinfo(result); 


return (rp == NULL) ? -1 : sfd; 
} 


int 
inetListen(const char *service, int backlog, socklen t *addrlen) 


{ 
} 


int 
inetBind(const char *service, int type, socklen t *addrlen) 


{ 
} 


char * 


return inetPassiveSocket(service, SOCK STREAM, addrlen, TRUE, backlog); 


return inetPassiveSocket(service, type, addrlen, FALSE, 0); 


inetAddressStr(const struct sockaddr *addr, socklen t addrlen, 
char *addrStr, int addrStrLlen) 
{ 
char host[NI MAXHOST], service[NI_MAXSERV]; 


if (getnameinfo(addr, addrlen, host, NI MAXHOST, 
service, NI MAXSERV, NI NUMERICSERV) == 0) 
snprintf(addrStr, addrStrlen, "(%s, 5s)", host, service); 
else 
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snprintf(addrStr, addrStrlen, "(?UNKNOWN?)"); 


addrStr[addrStrlen - 1] = '*0'; /* Ensure result is null-terminated */ 
return addrStr; 


} 


sockets/inet sockets.c 


59.13 ”过 时 的 主机 和 服务 转换 API 


在 下 面 几 节 中 将 会 介绍 较 早 的 现 已 过 时 的 用 于 在 主机 名 和 服务 名 的 二 进 制 和 展现 格 
陈 之 间 进 行 转换 的 冰 数 。 尽 管 靳 程序 应 该 使 用 本 章 前 和 面 介绍 的 现代 函数 来 执行 这 些 转换 
工作 ， 但 了 解 这 些 过 时 的 函数 是 有 玫 助 的 ， 因 为 在 较 早 的 代码 中 可 能 会 感到 这 些 函 数 。 


59.13.1 inet aton(0 和 inet_ntoa() 函 数 


inet aton0 和 inet ntoa() FA Zi 44 — A IPv4 地 址 在 点 分 十 进 制 标记 法 和 二 进 制 形 式 
(以 网 络 字 市 序 ) 之 间 进 行 转换 。 这 些 函 数 现 在 已 经 被 met pton0 和 inet ntopO 所 取代 了 。 

inet aton() (“ASCII 到 网 络 ”) 函数 将 str 指 同 的 点 分 十 进 制 宇 符 串 转 换 成 一 个 网 络 学 节 序 
的 IPv4 地 址 ， 转 换 得 到 的 地 址 将 会 返回 在 addr 指 问 的 in. addr 结构 中 。 


#include «arpa/inet.h» 




















int inet aton(const char *sír, struct in_addr *addr); 


Returns 1 (true) if str is a valid dotted-decimal address, or 0 (false) on error 


inet_aton() 函 数 在 转换 成 功 时 返回 1， 在 str 无 效 时 返回 0。 

传 入 inet_aton() 的 学 符 串 的 数值 部 分 无 需 是 十 进 制 的 ， 它 可 以 是 八进制 的 (通过 前 导 0 
指定 )， 也 可 以 是 十 六 进 制 的 (通过 前 导 0x 或 0X 指定 )。 此 外 ，inet aton0 还 文 持 简写 形式 ， 
这 样 束 能 够 使 用 少 于 四 个 的 数值 部 分 来 指定 一 个 地 址 了 。 (有 具体 细节 请 参考 inet(3) 手 册 。) 术 
语 数字 和 点 标记 法 用 于 表示 此 类 采用 了 这 些 特性 的 更 通用 的 地 址 字符 串 。 

SUSv3 并 没有 规定 inet aton0， 然 而 在 大 多 数 实现 上 都 存在 这 个 函数 。 在 Linux 上 要 获取 
<arpa/inet.h> 中 的 inet aton(0) 声 明 就 必须 要 定义 _BSD SOURCE. SVID SOURCE 或 
GNU SOURCE 这 三 个 特性 测试 宏 的 一 个 。 

















#include «arpa/inet.h» 


char *inet ntoa(struct in_addr addr); 
Returns pointer to (statically allocated) 
dotted-decimal string version of addr 
给 定 一 个 in_addr 结构 (一 个 32 位 的 网 络 字 节 序 IPv4 地 址 ), inet_ntoa() 返 回 一 个 指向 Cif 
态 分 配 的 ) 包含 用 点 分 十 进 制 标记 法 标记 的 地 址 的 字符 串 的 指针 。 
由 于 inet_ntoa0 返 回 的 衬 符 串 是 静态 分 配 的 ， 因 此 它们 会 被 后 续 的 调用 所 履 兰 。 


59.13.2 gethostbyname() 和 gethostbyaddr() 函 数 


gethostbyname() 和 gethostbyaddrO 国 数 允 许 在 主机 名 和 IP 地 址 之 间 进 行 转 换 。 现 在 这 些 函 
数 已 经 被 getaddrinfo0 和 getnameinfoO 所 取代 了 。 
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#include «netdb.h» 
extern int h errno; 


struct hostent *gethostbyname(const char *mame); 
struct hostent *gethostbyaddr(const char *addr, socklen t len, int type); 


Both return pointer to (statically allocated) hostent structure 
on success, or NULL on error 


gethostbyname() PRACT E name 给 出 的 主机 名 并 返回 一 个 指 同 静态 分 配 的 包含 了 主机 名 














相关 信息 的 hostent 结构 的 指针 。 访 结构 的 形式 如 下 。 
struct hostent { 


char *h name; /* Official (canonical) name of host */ 
char **h aliases; /* NULL-terminated array of pointers 

to alias strings */ 
int h addrtype; /* Address type (AF INET or AF INET6) */ 
int h length; /* Length (in bytes) of addresses pointed 


to by h addr list (4 bytes for AF INET, 
16 bytes for AF INET6) */ 

char **h addr list; /* NULL-terminated array of pointers to 
host IP addresses (in addr or in6 addr 
structures) in network byte order */ 


}; 

#define h addr h addr list|0] 

h name 字段 返回 主机 的 官方 名 了 学 ， 它 是 一 个 以 null 结尾 的 学 符 串 。h_aliases 学 段 指 问 
一 个 指针 数组 , 数组 中 的 指针 指 癌 以 null 结尾 的 包含 了 该 主机 名 的 别名 (可 选 名 ) 的 字符 串 。 

h addr list 学 段 是 一 个 指针 数组 ， 数 组 中 的 指针 指 问 这 个 主机 的 IP 地 址 结构 。( 一 个 多 箱 
主机 拥有 的 地 址 数 超过 一 个 。) 这 个 列表 由 in_addr 或 in6 addr 结构 构成 ， 通 过 h addrtype F 
段 可 以 确定 这 些 结构 的 类 型 ， 其 取 值 为 AF_INET 或 AF_INET6; 通过 h length 字段 可 以 确定 
这 些 结构 的 长 度 。 提供 h_addr 定义 是 为 了 与 在 hostent 结构 中 只 返回 一 个 地 址 的 早期 实现 (如 
4.2BSD) 你 持 问 后 兼容 ， 一 些 既 有 代码 依赖 于 这 个 名 字 【〈 因 此 无 法 感知 多 箱 主 机 )。 

在 现代 版 本 的 gethostbyname0 中 也 可 以 将 name 指定 为 一 个 数值 IP. 地 址 学 符 串 , 即 IPv4 的 数 
字 和 点 标记 法 与 IPv6 的 十 六 进 制 字 符 串 标记 法 。 在 这 种 情况 下 不 会 执行 任何 的 查询 工作 ;相反 ， 
name 会 被 复制 到 hostent 结构 的 h name 字段 ，h addr list 会 被 设置 成 name 的 二 进 制 表示 形式 。 

gethostbyaddr()PK| Zit4A fT gethostbyname0 的 逆 操 作 。 给 定 一 个 二 进 制 P 地 址 ， 它 会 返回 一 
个 包含 与 配置 了 该 地 址 的 主机 相关 的 信息 的 hostent 结构 。 

在 发 生 错误 时 《如 无 法 解析 一 个 名 字 )，gethostbyname() 和 和 gethostbyaddr() 都 会 返回 一 个 NULL 

针 并 设置 全 局 变量 h_ermo。 正 如 其 名 字 所 表达 的 那样 ， 这 个 变量 与 ermo 类 似 〈gethostbyname(3) 
手册 描述 了 这 个 变量 的 可 取 值 )，herror0 和 hstrerror0 函 数 类 似 于 perror0 和 strerror()。 

herrorO 函 数 〈 在 标准 错误 上 ) 显示 了 在 str 中 给 出 的 字符 串 ， 后 面 跟 着 一 个 冒号 (:)， 然 后 
再 显示 一 条 与 当前 位 于 h_errno 中 的 错误 对 应 的 消息 。 或 者 可 以 使 用 hstrerror(0) 获 取 一 个 指 问 
与 在 err 中 指定 的 错误 值 对 应 的 字符 串 的 指针 。 


#define BSD SOURCE /* Or SVID SOURCE or GNU SOURCE */ 
#include <netdb.h> 


















































void herror(const char *st7); 


const char *hstrerror(int err); 


Returns pointer to A errno error string corresponding to err 
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程序 清单 59-10 演示 了 如 何 使 用 gethostbyname()。 这 个 程序 显示 了 名 学 通过 命令 行 指定 的 
各 个 主机 的 hostent 信息 。 下 和 面 的 shell 会 话 演示 了 这 个 程序 的 用 法 。 


$ ./t gethostbyname www.jambit.com 
Canonical name: jamjami.jambit.com 


alias(es): www. jambit.com 
address type: — AF INET 
address(es): 62.245.207.90 


序 清单 59-10. 使 用 gethostbyname() 获 取 主 机 信息 
sockets/t gethostbyname.c 


#define BSD SOURCE /* To get hstrerror() declaration from «netdb.h» */ 
&include «netdb.h» 

#include «netinet/in.h» 

#include «arpa/inet.h» 

#include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 
i 
struct hostent *h; 
char **pp; 
char str[INET6 ADDRSTRLEN]; 


for (argv++; *argv !- NULL; argv++) { 
h = gethostbyname(*argv); 
if (h -- NULL) 1 
fprintf(stderr, "gethostbyname() failed for '#s': %s\n", 
*argv, hstrerror(h errno)); 
continue; 


} 


printf("Canonical name: %s\n", h-»h name); 


printf(" alias(es): "is 
for (pp = h-»h aliases; *pp !- NULL; pp++) 
printf(" Xs", *pp); 
printf("Mn"); 
printf(" address type:  %s\n", 
(h-»h addrtype == AF INET) ? "AF INET' : 
(h-»h addrtype == AF INET6) ? "AF INET6" : "2??"); 


if (h-»h addrtype -- AF INET || h-»h addrtype -- AF INET6) { 
printf(" address(es): "); 
for (pp = h->h_addr list; *pp != NULL; pp++) 
printf(" Xs", inet ntop(h-»h addrtype, *pp, 
str, INET6 ADDRSTRLEN)); 
printf("Nn"); 
} 


exit(EXIT SUCCESS); 


sockets/t gethostbyname.c 


59.13.3 getserverbyname() 和 getserverbyport() P Zi 
getservbyname()4ll getservbyport() K Zi JA /etc/services 文件 (59.9 节 ) 中 获取 记录 。 现 在 这 
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些 函 数 已 经 被 getaddrinfo0 和 getnameinfo() Pru T - 
include «netdb.h» 


struct servent *getservbyname(const char *mame, const char *proto); 
struct servent *getservbyport(int port, const char *proto); 


Both return pointer to a (statically allocated) servent structure 
on success, or NULL on not found or error 





getservbyname() 隙 数 查询 服务 名 (或 其 中 一 个 别名 ) 与 name 匹配 以 及 协议 与 proto UU RC 
的 记录 。proto 参数 是 一 个 请 如 tep 或 udp 之 类 的 字符 串 ， 或 者 也 可 以 将 它 设置 为 NULL。 
如 果 将 proto EN NULL, 那么 束 会 返回 任意 一 个 服务 名 与 name 匹配 的 记录 。( 这 种 做 法 通 
常 已 经 足够 了 ， 因 为 当 拥有 同样 名 字 的 UDP 和 TCP 记录 都 位 于 /etc/services 文件 时 ,它们 通 
币 使 用 同样 的 端口 号 。) 如 果 找 到 了 一 个 匹配 的 记录 ， 那 么 getservbyname( Zik In] —^ T8 In] 8$ 
态 分 配 的 如 下 类 型 的 结构 的 指针 。 


struct servent { 





char *s name; /* Official service name */ 

char **s aliases; /* Pointers to aliases (NULL-terminated) */ 
int s port; /* Port number (in network byte order) */ 
char *s proto; /* Protocol */ 


h 

一 般 来 讲 ， 调 用 getservbyname(O 只 为 了 获取 端口 号 ， 该 值 会 通过 s port 字段 返回 。 

getservbyportO A ŽÍT getservbynameO 的 逆 操 作 ， 它 返回 一 个 servent 记录 ， 该 记录 包含 
/etc/services 文件 中 端口 号 与 port 匹配 、 协 议 与 proto 匹配 的 记录 相关 的 信息 。 同 样 ， 可 以 将 proto 
指定 为 NULL, 这 样 这 个 调用 就 会 返回 任意 一 个 端口 号 与 port 中 指定 的 值 匹 配 的 记录 。( 在 前 面 提 
到 的 一 些 同一 个 端口 号 被 映射 到 不 同 的 UDP 和 TCP 服务 名 的 情况 下 可 能 不 会 返回 期 望 的 结果 。) 


本 书 随 带 发 行 的 源 代码 的 fles/t_getservbyname.c 文件 中 提供 了 一 个 使 用 getservbyname0 
函数 的 例子 。 









































59.14 UNIX 与 Internet domain socket 比较 


当 编 写 通 过 网 络 进 行 通信 的 应 用 程序 时 必须 要 使 用 Internet domain socket， 但 当 位 于 同一 
系统 上 的 应 用 程序 使 用 socket 进行 通信 时 则 可 以 选择 使 用 Internet 或 UNIX domain socket。 在 
这 种 情况 下 该 使 用 哪个 domain? 为 何 使 用 这 个 domain WE? 

编写 只 使 用 Internet domain socket 的 应 用 程序 通常 是 最 简单 的 做 法 , 因为 这 种 应 用 程序 既 
能 运行 于 同一 个 主机 上 , 也 能 运行 在 网 络 中 的 不 同 主机 上 。 但 之 所 以 要 选择 使 用 UNIX domain 
socket 是 存在 儿 个 原因 的 。 

e 在 一 些 实 现 上 ，UNIX domain socket 的 速度 比 Internet domain socket 的 速度 快 。 

e 可 以 使 用 目录 (在 Linux 上 是 文件 ) 权限 来 控制 对 UNIX domain socket 的 访问 ， 这 样 只 

有 运行 于 指定 的 用 户 或 组 ID 下 的 应 用 程序 才能 够 连接 到 一 个 监听 流 socket 或 问 一 个 
数据 报 socket 发 送 一 个 数据 报 ， 同 时 为 如 何 验证 客户 端 提 供 了 一 个 简单 的 方法 。 使 用 
Internet domain socket 时 如 果 需 要 验证 客户 问 的 话 允 需 要 做 更 多 的 工作 了 。 

e 使 用 UNIX domain socket 可 以 像 61.13.3 下 中 总 结 的 那样 传递 打开 的 文件 描述 符 和 故 

送 者 的 验证 信息 。 
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59.15 更 多 信息 


AK TCP/IP 和 socket API 存在 很 多 有 价值 的 纸 质 和 在 线 资 源 。 

o 使 用 socket 进行 网 络 程序 设计 的 重量 级 书籍 是 [Stevens at al.,2004]。[Snader，2000] 在 
socket 程序 设计 方面 新 增 了 一 些 有 价值 的 指南 。 

e [Stevens, 1994] 和 [Wright & Stevens, 199$] 话 细 摘 述 了 TCP/IP. [Comer, 2000]. [Comer & 
Stevens, 1999]. [Comer & Stevens, 2000]. [Kozierok,2005] LJ X [Goralksi, 2009] 也 较 好 
地 介绍 了 这 一 主题 。 

e [Tanenbaum, 2002] 给 出 了 计算 机 网 络 的 一 般 背 景 。 

。 [Herbert 2004] 描 述 了 Linux 2.6 TCP/IP 栈 的 细节 。 

e GNUC 库 手册 《在 线 版 位 于 http://www.gnu.org/) 详细 描述 了 sockets API. 

e [BM Redbook TCP/IP Tutorial and Technical Overview 深入 详细 地 描述 了 联网 概念 、 
TCP/IP Pj. sockets API 以 及 其 他 相关 主题 。 旋 者 可 以 免费 在 http:/ www. redbooks. 
ibm.com/ 下 载 到 这 本 书 。 

e [Gont, 2008] 和 [Gont, 2009b] 对 IPv4 和 TCP 进行 了 安全 性 评估 。 

e Usenet 新 闻 组 comp.protocols.tcp-ip 专门 对 与 TCP/IP 联网 协议 有 关 的 问题 进行 讨论 。 

e [Sarolahti & Kuznetsov, 2002] 描 述 了 Linux TCP 实现 的 拥塞 控制 和 其 他 一 些 细节 。 

e Linux 特有 的 信息 可 以 在 下 列 手册 中 找到 : socket(7)、ip(7)、raw(7)、tcp(7)、udp(7) 
以 及 packet(7). 

e 参考 58.7 市 中 列 出 的 RFC 列表 。 
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Internet domain socket 允许 位 于 不 同 主机 上 的 应 用 程序 通过 一 个 TCP/IP 网 络 进行 通信 。 
一 个 Internet domain socket 地 址 由 一 个 IP 地 址 和 一 个 新 口号 构成 。 在 IPv4 中 , 一 个 IP 地 址 是 
一 个 32 位 的 数字 ， 在 IPv6 中 则 是 一 个 128 MAZ. Internet domain 数据 报 socket 运行 于 
UDP 上 ， 它 提供 了 无 连接 的 、 不 可 徘 的 、 和 面 癌 消 朋 的 通信 。Internet domain 流 socket 运行 于 
TCP 上 ， 它 为 相互 连接 的 应 用 程序 提供 了 可 靠 的 、 双 问 学 市 流通 信 信 道 。 

不 同 的 计算 机 染 构 使 用 不 同 的 方式 来 表示 数据 类 型 。 如 整数 可 以 以 小 六 形 式 存 储 也 可 以 
EL JE eri s 并 且 不 同 的 计算 机 可 能 使 用 不 同 的 学 节 数 来 表示 诸如 int 和 long 之 类 的 数值 
类 型 。 这 些 差 别 意 味 看 当 在 通过 网 络 连 接 的 异 构 机 器 之 则 传输 数据 时 需要 采用 某 种 独立 于 架 
构 的 表示 。 本 章 指 出 了 存在 多 种 信号 编 集 标 准 来 解决 这 个 问题 ， 同 时 还 描述 了 被 很 多 应 用 程 
序 所 采用 的 一 个 简单 的 解决 方案 : 将 所 有 传输 的 数据 编码 成 文本 形式 ， 字 段 之 间 使 用 预先 指 
定 的 字符 《〈 通 种 是 换行 符 ) 分 隔 。 

本 章 介 绍 了 一 组 用 于 在 PP 地址 的 (数值 ) 字符 串 表 示 (IPv4 是 点 分 十 进 制 ，IPv6 是 十 六 
进 制 学 符 串 〉》 和 其 二 进 制 值 之 间 进 行 转换 的 函数 ， 然 而 一 般 来 讲 最 好 使 用 主机 和 服务 名 而 不 
是 数字 ， 因 为 名 字 更 容易 记忆 并 且 即 使 在 对 应 的 数字 发 生变 化 时 也 能 继续 使 用 。 此 外 ， 还 介 
绍 了 用 于 将 主机 和 服务 名 转换 成 数值 表示 及 其 逆 过 程 的 各 种 函数 。 将 主机 和 服务 名 转换 成 
socket 地 址 的 现代 函数 是 getaddrinfo0, 但 谈 者 在 既 有 代码 中 会 经 种 看 到 早期 的 gethostbyname() 
和 getservbyname( AŽ. 
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HENLE PERI ARA FX DNS 的 讨论 ， 它 实现 了 一 个 分 布 式 数 据 库 提供 层级 目录 服务 。 
DNS 的 优点 是 数据 库 的 管理 不 再 是 集中 的 了 。 相 反 ， 本 地 区 域 管理 员 可 以 更 新 他 们 所 负责 的 数据 
库 层 级 部 分 ， 并 且 DNS 服务 占 可 以 与 力 一 台 服 务 右 进行 通信 以 便 解析 一 个 主机 名 。 
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59-1. 


59-2. 


59-3. 


59-4. 


59-5. 


当 读 取 大 量 数据 时 ， 程 序 清单 59-1 给 出 的 readLineO 函 数 是 低 效 的 ， 因 为 每 读 取 一 个 
字符 都 需要 使 用 一 个 系统 调用 。 一 个 更 加 高 效 的 接口 是 将 一 块 字符 读 进 缓冲 器 并 每 
次 从 这 个 缓冲 器 中 抽取 出 一 行 。 这 种 接口 可 能 由 两 个 函数 构成 ， 其 中 第 一 个 函数 可 
能 会 被 命名 成 readLineBufInit(fd, &rlbuf), 它 初始 化 ribuf 指 问 的 夭 记 数据 结构 。 这 个 
结构 包括 数据 缓冲 器 所 需 的 衬 间 、 这 个 缓冲 历 的 大 小 以 及 指 同 缓冲 磺 中 下 一 个 “未 
被 谈 取 的 ”字符 的 指针 。 它 还 包含 了 通过 参数 fd 给 出 的 文件 摘 述 符 的 一 个 副本 。 第 
二 个 函数 readLineBuf(&rlbuf)j&|u|.E; rlbuf 相关 联 的 绥 冲 右 中 的 下 一 行 。 如 果 和 需要 的 
话 ， 这 个 函数 可 以 从 保存 在 rlbuf 中 的 文件 摘 述 得 中 读 取 下 一 块 数 据 。 和 实现 这 两 个 也 
数 。 修 改 程序 清单 59-6 中 的 程序 (is_seqnum sv.c) 和 程序 清单 59-7 中 的 程序 
(is_seqnum clc) 使 之 使 用 这 两 个 函数 。 

修改 程序 清单 59-6 中 的 程序 Cis seqnum sv.c ) 和 程序 清单 59-7 中 的 程序 
(is seqnum cl.c) 使 之 使 用 程序 清单 59-9 (inet sockets.c) 中 给 出 的 inetListen0 和 
inetConnect() PK| Zi . 

编写 一 个 UNIX domain socket 库 使 其 API 5 59.12 市 中 给 出 的 Internet domain socket 
库 的 API 类 似 。 重 与 程序 清单 57-3 中 的 程序 Cus xfr svc) 和 程序 清单 57-4 中 的 
程序 Cus xfr clc) 使 之 使 用 这 个 库 。 

编写 一 个 存储 名 字 - 值 对 的 网 络 服务 器 。 这 个 服务 器 应 该 允许 客户 端 添 加 、 删 除 、 
修改 以 及 检索 名 字 。 编写 一 个 或 多 个 客户 端 程 订 来 测试 这 个 服务 器 。 读 者 可 根据 上 自 












































己 的 意愿 实现 某 种 安全 机 制 , 如 只 人 允许 创建 一 个 名 字 的 客户 端 删除 这 个 名 季 或 修改 
与 这 个 名 子 关 联 的 值 。 


假设 创建 了 两 个 被 绑 定 到 特定 地 址 上 的 Internet domain 数据 报 socket， 并 将 第 一 个 
socket 连接 到 第 二 个 上 。 如 采 创 建 了 第 三 个 数据 报 socket 并 通过 该 socket 党 试问 第 
一 个 socket 发 送 〈sendto0 ) 一 个 数据 报 会 发 生 什么 情况 呢 ? 编写 一 个 程序 确定 这 
个 问题 的 答案 。 
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EH 


SOCKET: BR3yzxixib 


REWE T WW XSTIBRDEA THU mE Hd. ARSRIBdXB f inetd， 这 是 一 个 特 
殊 的 守护 进程 ， 它 使 得 创建 网 络 服务 变 得 更 加 便捷 。 


60.1 和 迭代 型 和 并 发 型 服务 器 
对 于 使 用 Socket (ERF) 的 网 络 服务 器 端 程序 ， 有 两 种 第 见 的 设计 方式 。 
e ARE: 服务 器 每 次 只 处 理 一 个 客户 端 ， 只 有 当 完 全 处 理 完 一 个 客户 问 的 请 求 后 才 去 
处 理 平 一 个 各 户 蝴 

e 并 发 型 : 这 种 类 型 的 服务 器 被 设计 为 能 够 同时 处 理 多 个 客户 端的 请 求 。 

在 44.8 节 中 我 们 已 经 见 过 一 个 使 用 FIFO 的 迭代 型 服务 器 了 ， 在 46.8 市 中 也 有 一 个 使 用 
System V 消息 队列 的 并 发 型 服务 器 的 例子 。 

迭 代 型 服务 器 通常 只 适用 于 能 够 快速 处 理 客 户 端 请 求 的 场景 ， 因 为 每 个 客户 端 都 必须 等 
待 ， 直 到 前 面 所 有 的 客户 端 都 处 理 完 了 服务 器 才能 继续 服务 下 一 个 客户 端 。 和 迭代 型 服务 堪 的 
典型 应 用 场景 是 当 客 户 端 和 服务 器 之 间 交 换 单 个 请 求 和 啊 应 时 。 

并 发 型 服务 器 适用 于 对 每 个 请 求 都 需要 大 量 处 理 时 间 ， 或 者 是 当 客户 端 和 服务 器 在 进行 
扩展 对 话 中 需要 来 回 传 递 消 居 的 场景 。 在 本 革 中 ， 我 们 把 重点 放 在 并 发 型 服务 器 的 传统 (也 
是 最 简单 的 ) 设计 方法 上 : 针对 每 个 新 的 客户 端 连接 ， 创 建 一 个 新 的 子 进程 来 处 理 。 每 个 服 
务 器 子 进程 执行 完 历 有 服务 于 单个 客户 端的 任务 后 驶 终止 。 由 于 这 些 子 进程 能 独立 地 运行 ， 
因此 可 以 同时 处 理 多 个 客户 端 。 服 务 器 主 进 程 〈 父 进程 ) 的 主要 任务 就 是 为 每 个 新 的 客户 端 
连接 创建 一 个 新 的 子 进程 。( 这 种 方法 有 一 个 变种 ， 即 为 每 个 客户 端 创建 一 个 新 的 线程 。) 

在 接 下 来 的 几 和 中， 我们 将 学 习 运 代 型 和 并 发 型 服务 器 程序 的 例子 ， 它 们 都 采用 Internet 
域 套 接 字 。 这 两 个 服务 器 都 实现 了 echo 服务 (RFC 862)， 这 种 基本 的 服务 能 够 返回 客户 端 向 
其 发 送 的 任何 内 容 。 


60.2 ”迭代 型 UDP echo 服务 器 


在 本 节 以 及 下 一 节 中 ,我 们 展示 了 echo 服务 的 服务 器 端 程序 echo 服务 支持 UDP 和 TCP， 
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工作 在 端口 7 上 。( 由 于 端口 7 是 保留 端口 ，echo 服务 器 必须 以 超级 用 户 权 限 运 行 )。 

UDP echo 服务 天 连 续 读 取 数 据 报 ， 将 每 个 数据 报 的 找 贝 返回 给 发 达 痢 。 由 于 服务 大 一 次 
只 需 处 理 一 条 单独 的 消息 ， 因 此 设计 为 欠 代 型 服务 器 驶 足够 了 了。 服务器 端 程 序 的 头 文件 如 程 
序 清 单 60-1 所 示 。 


程序 清单 60-1: id echo sv.c 和 id echo cl.c 的 头 文件 











sockets/id echo.h 


#include "inet sockets.h" /* Declares our socket functions */ 
#include "tlpi hdr.h" 


Hdefine SERVICE "echo" /* Name of UDP service */ 


define BUF SIZE 500 /* Maximum size of datagrams that can 
be read by client and server */ 


sockets/id echo.h 

程序 清单 60-2 展示 了 服务 器 器 的 实现 。 关 于 服务 吉 的 实现 ， 请 注意 以 下 几 点 。 

e 我 们 使 用 37.2 节 中 的 becomeDaemonO FR ZEE Hl 25 382 368 7g —" SPP ERE, 

e 为 了 使 程序 更 短小 ， 我 们 使 用 了 59.12 节 中 开发 的 Internet 域 套 接 字 函数 库 。 

。 如 采 服 务 占 无 法 将 回复 发 送 给 客户 名， 束 使 用 syslog0 记 录 一 条 日 记 消 居 。 

在 现实 世界 的 应 用 程序 中 , 我 们 可 能 会 针对 syslog0 写 入 的 消息 做 一 些 速率 限制 。 这 不 仅 是 为 了 
防止 攻击 者 将 系统 日 志 河 满 ， 还 因为 syslog0 的 调用 开销 是 很 吊 贯 的 ， 因 为 ( 卖 认 情 况 PF? syslogO 
会 反 过 来 调用 到 fsync0O。 


程序 清单 60-2. 实现 迭代 型 的 UDP echo 服务 器 


























sockets/id echo sv.c 


#include «syslog.h» 
#include "id echo.h" 
itinclude "become daemon.h" 


int 
main(int argc, char *argv[]) 


int sfd; 


ssize t numRead; 

socklen t addrlen, len; 

struct sockaddr storage claddr; 
char buf[BUF SIZE]; 

char addrStr[IS ADDR STR LEN]; 


if (becomeDaemon(O) == -1) 
errExit("becomeDaemon" ) ; 


sfd - inetBind(SERVICE, SOCK DGRAM, &addrlen); 

if (sfd == -1) ( 
syslog(LOG ERR, "Could not create server socket (%s)", strerror(errno)); 
exit(EXIT FAILURE); 


) 


/* Receive datagrams and return copies to senders */ 


for (55) 1 
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len - sizeof(struct sockaddr storage); 
numRead = recvfrom(sfd, buf, BUF SIZE, O, 
(struct sockaddr *) &claddr, &len); 
if (numRead == -1) 
errExit("recvfrom"); 


if (sendto(sfd, buf, numRead, O, (struct sockaddr *) &claddr, len) 
l= numRead) 
syslog(LOG WARNING, "Error echoing response to %s (Xs)", 
inetAddressStr((struct sockaddr *) &claddr, len, 
addrStr, IS ADDR STR LEN), 
strerror(errno)); 


sockets/id echo sv.c 
要 测试 服务 右 的 功能 ， 我 们 需要 用 到 程序 清 蛙 60-3 中 展示 的 客户 站 程序 。 这 个 程序 同样 
采用 了 59.12 TPF ZK Internet 域 套 接 子 函数 亩 。 从 第 一 个 命令 行 参 数 来 看 ， 客 户 问 程序 期 
望 得 到 运行 着 服务 费 程 序 的 主机 名 称 。 客 户 端 程序 执行 一 个 循环 ， 在 循环 中 将 剩 下 的 命令 行 
参数 作为 数据 报 发 送 给 服务 器 ， 读 取 和 打印 出 每 个 由 服务 占 发 回 的 啊 应 数据 报 。 


程序 清单 60-3: UDP echo 服务 的 客户 端 程序 





























sockets/id echo cl.c 
#include "id echo.h" 


int 
main(int argc, char *argv[]) 
int sfd, j; 
size t len; 
ssize_t numRead; 
char buf[BUF_SIZE]; 


if (argc < 2 || strcmp(argv[1], "--help") == 0) 
usageErr("Xs: host msg...\n", argv[0]); 


/* Construct server address from first command-line argument */ 
sfd = inetConnect(argv[1], SERVICE, SOCK DGRAM); 
if (sfd -- -1) 

fatal("Could not connect to server socket"); 
/* Send remaining command-line arguments to server as separate datagrams */ 
for (j = 2; j < argc; j+) 1 

len = strlen(argv[j]); 

if (write(sfd, argv[j], len) !- len) 

fatal("partial/failed write"); 
numRead - read(sfd, buf, BUF SIZE); 
if (numRead -- -1) 


errExit("read"); 


printf("[Xld bytes] $.*sXn", (long) numRead, (int) numRead, buf); 


exit(EXIT SUCCESS) ; 


sockets/id echo cl.c 
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fü, ARITZE AETAKSE mK, RIRA Pid. 


$ su Need privilege to bind reserved port 
Password: 

# ./id echo sv Server places itself in background 
# exit Cease to be superuser 

$ ./id echo cl localhost hello world This client sends two datagrams 

[5 bytes] hello Client prints responses from server 
[5 bytes] world 

$ ./id echo cl localhost goodbye This client sends one datagram 


[7 bytes] goodbye 


60.3 ”并 发 型 TCP echo 服务 器 


TCP echo 服务 同样 也 工作 在 端口 7 上 。TCP echo 服务 器 接受 一 条 连接 然后 不 断 循 环 ， 
读 取 所 有 已 传输 的 数据 并 在 同一 个 人 套 接 字 上 将 它们 友 回 给 客户 闹 。 服 务 占 不 靳 读 取 数据 直到 
它 检 测 到 文件 结尾 为 止 ， 此 时 服务 器 就 关闭 它 的 套 接 字 《〈 因 此 如 果 客 户 端 仍 在 从 套 接 字 中 该 
取 数 据 的 话 ， 束 可 以 看 到 文件 结尾 了 )。 
由 于 客户 端 可 能 会 发 送 无 限量 的 数据 给 服务 器 〈 因 而 服务 这 样 的 客户 端 可 能 需要 无 限 的 
时 间 ?， 因 此 这 种 情况 下 适合 将 服务 器 设计 为 并 发 型 ， 这 样 多 个 客户 端 能 够 同时 得 到 服务 。 
程序 清单 60-4 给 出 了 服务 器 的 实现 。( 我 们 在 61.2 节 中 给 出 了 该 服务 的 客户 端 实现 。) 关于 实 
现 的 细节 ， 需 要 注意 以 下 几 点 。 
。 服务 器 通过 调用 37.2 节 中 的 becomeDaemon(0 成 为 了 一 个 守护 进程 。 
e 为 了 使 程序 更 短小 ， 我 们 使 用 了 程序 清单 59-9 中 的 Internet 域 套 接 字 函数 库 。 
e 由 于 服务 堪 为 每 一 个 客户 应 连接 创建 了 一 个 子 进程 ， 我 们 必须 确保 不 会 出 现 僵尸 进 
程 。 这 可 以 通过 为 信号 SIGCHLD 安装 信号 处 理 例 程 来 实现 。 
e 服务 器 程序 的 主体 部 分 由 for 循环 组 成 ， 在 循环 中 我 们 接受 客户 端的 连接 ， 然 后 通过 
forkO 创 建 子 进 程 。 在 子 进程 中 调用 handleRequestOPR ZO A382)? 9m, [HJ], SHEFE 
继续 在 for 循环 中 接受 下 一 个 客户 端的 连接 。 









































在 现实 世界 的 应 用 中 , 我 们 可 能 应 该 在 服务 磊 中 包含 一 些 限 制 创 建 子 进程 数量 的 代码 。 
这 是 为 了 防止 攻击 者 试图 利用 该 服务 在 系统 中 创建 大 量 的 于 进程 (fork bomb). 从 而 使 系统 
变 得 不 可 用 。 我 们 可 以 计数 当前 正在 执行 鸭子 进程 数量 ， 通 过 在 服务 亏 病 增加 额外 的 代码 
来 强加 这 个 限制 。( 计 数 应 该 在 forkO 调 用 成 功 后 递增 ， 而 在 SIGCHLD 信号 处 理 例 程 清除 
于 进程 时 得 到 递减 )。 如 末 子 进程 的 数量 达到 了 上 限 ， 我 们 可 以 暂停 接受 新 的 连接 《或 者 还 
有 一 种 可 选 方案 是 接 受 连接 后 立刻 关闭 它们 )。 























。 每 次 调用 forkO 后 , 监听 套 接 字 和 连接 套 接 学 都 在 子 进程 中 得 到 复制 ( 见 24.2.1 8). 
这 意味 看 父子 进程 都 可 以 通过 连接 套 接 池 和 客户 山 通 信 。 但 是 ， 只 有 子 进 程 才 需 要 进 
行 这 样 的 通信 , 因此 父 进程 应 该 在 forkO 调 用 之 后 立刻 关闭 连接 套 接 字 的 文件 描述 符 。 
《如 条 父 进程 不 这 么 做 的 话 ， 那 么 套 接 字 将 永远 不 会 真正 关闭 ， 此 外 ， 父 进程 最 终 会 
用 完 所 有 的 文件 描述 符 。) 由 于 子 进程 不 接受 新 的 连接 ， 它 需要 将 监 昕 僚 接 字 的 文件 
描述 符 副 本 关闭 。 

。 每 个 子 进程 在 处 理 完 一 个 客户 端 后 终止。 
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程序 清单 60-4: 并 发 型 TCP echo 服务 器 的 实现 
sockets/is echo sv.c 
#include «signal.h» 
sinclude «syslog.h» 
#include «sys/wait.h» 
sinclude "become daemon.h" 
&include "inet sockets.h" /* Declarations of inet*() socket functions */ 
include "tlpi hdr.h" 


#define SERVICE "echo" /* Name of TCP service */ 
üdefine BUF SIZE 4096 
static void /* SIGCHLD handler to reap dead child processes */ 
grimReaper(int sig) 
i 
int savedErrno; /* Save 'errno' in case changed here */ 


savedErrno - errno; 

while (waitpid(-1, NULL, WNOHANG) > 0) 
continue; 

errno - savedErrno; 


} 
/* Handle a client request: copy socket input back to socket */ 


static void 
handleRequest(int cfd) 
i 


char buf[BUF SIZE]; 
ssize t numRead; 


while ((numRead = read(cfd, buf, BUF SIZE)) > 0) 1 
if (write(cfd, buf, numRead) !- numRead) { 
syslog(LOG ERR, "write() failed: Xs", strerror(errno)); 
exit(EXIT FAILURE); 


} 


if (numRead == -1) { 
syslog(LOG ERR, "Error from read(): Xs", strerror(errno)); 
exit(EXIT FAILURE); 


} 


int 
main(int argc, char *argv[]) 


int lfd, cfd; /* Listening and connected sockets */ 
struct sigaction sa; 


if (becomeDaemon(0) == -1) 
errExit("becomeDaemon"); 

sigemptyset(&sa.sa mask); 

sa.sa flags - SA RESTART; 

sa.sa handler = grimReaper; 

if (sigaction(SIGCHLD, &sa, NULL) -- -1) 1 
syslog(LOG ERR, "Error from sigaction(): #s", strerror(errno)); 
exit(EXIT FAILURE); 
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} 


lfd = inetListen(SERVICE, 10, NULL); 

if (lfd == -1) 1 
syslog(LOG ERR, "Could not create server socket (%s)", strerror(errno)); 
exit(EXIT FAILURE); 


for (;;) 1 
cfd = accept(lfd, NULL, NULL); /* Wait for connection */ 
if (cfd == -1) ( 
syslog(LOG ERR, "Failure in accept(): Xs", strerror(errno)); 
exit(EXIT FAILURE); 


} 


/* Handle each client request in a new child process */ 


switch (fork()) { 


Case -1: 
syslog(LOG ERR, "Can't create child (%s)", strerror(errno)); 
close(cfd); /* Give up on this client */ 
break; /* May be temporary; try next client */ 
case 0: /* Child */ 
close(lfd); /* Unneeded copy of listening socket */ 
handleRequest(cfd); 
 exit(EXIT SUCCESS); 
default: /* Parent */ 
close(cfd); /* Unneeded copy of connected socket */ 
break; /* Loop to accept next connection */ 
} 


sockets/is echo sv.c 
60.4 并 发 型 服务 器 的 其 他 设计 方案 


对 于 许多 需要 通过 TCP 连接 同时 处 理 多 个 客户 端的 应 用 来 说 , 前 和 面 几 区 摘 述 的 传统 型 并 用 服务 
需 模 型 已 经 足够 用 了 。 但 是 ， 对 于 负载 很 高 的 服务 需 来 次 〈 例 如 ，Web 服务 口 每 分 钟 要 处 理 成 干 上 
万 次 请 求 ) ， 为 每 个 客户 端 创建 一 个 新 的 子 进程 〈 甚 至 是 线程 ) 所 带 来 的 开销 对 服务 器 来 说 是 个 沉 
重 的 人 负担 (参见 28.3 节 )， 因 此 需要 有 其 他 的 设计 方案 。 下 面 我 们 主要 考虑 这 儿 种 可 选 方案 。 


在 服务 器 上 预先 创建 进程 或 线程 


预先 创建 进程 或 线程 的 服务 器 已 经 在 [Stevens et al., 2004] 的 第 30 章 中 做 了 详细 的 描述 。 
其 核心 理念 有 如 下 几 点 。 
e 服务 器 程序 在 局 动 阶段 〈( 即 在 任何 客户 症 请 求 到 来 之 前 〉 就 立刻 预先 创建 好 一 定数 量 
的 子 进 程 ( 或 线程 )， 而 不 是 针对 每 个 客户 闹 米 创建 一 个 狐 的 子 进程 (或 线程 );。 这 些 子 进 
程 构成 了 一 种 服务 池 (server pool)“。 
。 服务 池 中 的 每 个 子 进程 一 次 只 处 理 一 个 客户 问 。 在 处 理 完 客 户 闹 请 求 后 ， 子 进程 并 不 
会 终止 ， 而 是 获取 下 一 个 竺 处 理 的 客户 端 继 续 处 理 ， 如 此 类 推 。 





















































1 、 x "T ic dens TY TREE RCM 
: 译 者 注 : 强烈 觉得 原文 应 该 是 每 秒 ， 而 不 是 每 分 钟 。 因 为 以 分 钟 来 算 ， 这 负载 不 算 高 。 
译 者 注 : 通常 我 们 称 之 为 线程 池 或 进程 池 。 
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分 啊 应 客户 端的 请 求 。 这 和 意味 看 服务 喜 父 进程 必须 对 来 占用 的 子 进程 加 以 监视 ， 并 且 在 服务 
器 处 于 负载 高 峰 期 时 增加 服务 池 的 大 小 ， 这 样 束 总 会 有 足够 多 的 子 进程 存在 ， 从 而 可 以 立刻 
服务 于 新 的 客户 疹 请 求 。 如 果 负 载 下 降 了 ， 那 么 应 该 相应 地 降低 服务 池 的 大 小 ， 国 为 过 多 的 
至 余 进 程 会 降低 系统 的 整体 性 能 。 

此 外 ， 服 务 池 中 的 子 进程 必须 壮 循 茶 些 协议 ， 使 得 它们 能 以 独占 的 方式 选择 一 个 客户 问 
连接 。 在 大 多 数 UNIX 实现 中 (包括 Linux), 让 服务 池 中 的 每 个 子 进 程 在 监听 摘 述 符 的 acceptO 
调用 上 阻 奢 融 足 够 了 。 换 名 话说， 服务器 父 进程 在 创建 任何 和子 进程 之 前 先 创 建 监 听 套 接 字 ， 
然后 每 个 子 进 程 在 forkO 调 用 中 继承 该 套 接 字 的 文件 摘 述 符 。 当 一 个 新 的 客户 姗 连接 到 来 时 ， 
只 有 其 中 一 个 子 进程 能 完成 acceptO 调 用 。 但 是 ， 由 于 acceptO 在 一 些 老 式 的 实现 中 并 不 是 一 
个 原子 化 的 系统 调用 ， 因 此 可 能 需要 通过 一 些 互 斥 撤 术 《 例 如 文件 锁 ) 来 文 持 ， 以 确保 每 次 
只 有 一 个 子 进程 可 以 执行 acceptO 调 用 C[Stevens et al., 2004]. 


还 有 其 他 的 方法 可 以 让 服务 池 中 所 有 的 子 进程 都 执行 acceptO 调 用 。 如 末 服 务 池 由 
分 离 的 进程 组 成 ， 服 务 器 父 进程 可 以 执行 acceptO 调 用 ， 然 后 使 用 61.13.3 节 中 简要 描述 
的 技术 将 代表 痢 连 接 的 文件 描述 符 传 递 给 池 中 空闲 的 进程 之 一 。 如 果 服 务 池 由 线程 组 
成 ， 主 线程 可 以 执行 acceptO 调 用 ， 然 后 通知 服务 右上 的 空闲 线程 ， 有 新 的 已 连接 上 的 
客户 闯 正 等 竺 处 理 。 



































在 单个 进程 中 处 理 多 个 客 刀 端 

在 东 些 情况 下 ， 我 们 可 以 设计 让 单个 服务 器 进程 来 处 理 多 个 客户 端 。 | 为 了 实现 这 点 ,我 
们 必须 采用 一 种 能 允许 单个 进程 同时 监视 多 个 文件 描述 符 上 IO 事件 的 VO 模型 (VO 多 路 复 
Hil. 83k] UO 或 者 epoID， 本 书 第 63 章 中 描述 了 这 些 模 型 。 

在 设计 单 进程 服务 右 时 ， 服 务 闫 进程 必须 做 一 些 通 币 由 内 核 来 处 理 的 调度 任务 。 在 每 个 
客户 闹 一 个 服务 占 进 程 地 解决 方案 中 ， 我 们 可 以 依 徘 内 核 来 确 你 每 个 服务 如 进 程 〈 从 而 也 确 
TRIP Um) 能 公平 地 访问 到 服务 霹 主 机 的 资源 。 但 当 我 们 用 单个 服务 规 进 程 来 处 理 多 个 客 
户 中 时 ， 服 务 硕 进程 必须 目 行 确 你 一 个 或 多 个 客户 端 不 会 霸占 服务 左 ， 从 而 使 其 他 的 客户 端 
处 于 饥饿 状态 。 关 于 这 点 我 们 将 在 63.4.6 节 中 继续 讨论 。 


采用 服务 器 集群 

其 他 用 来 处 理 局 客户 姗 负载 的 方法 还 包括 使 用 多 个 服务 磺 系 统一 一 服务 堪 集 和 群 (server farm). 

构建 服务 器 集群 最 简单 的 一 种 方法 是 DNS 轮转 负载 共享 (DNS round-robin load sharing?) 
(或 负载 分 发 ，load distribution)， 一 个 地 区 的 域名 权威 服务 器 将 同一 个 域名 映射 到 多 个 IP 
地 址 上 《〈 即 ， 多 人 台 服务 器 共享 同一 个 域名 )。 后 续 对 DNS 服务 器 的 域名 解析 请 求 将 以 循环 轮 
转 的 方式 以 不 同 的 顺序 返回 这 些 IP 地 址 。 更 多 关于 DNS 轮转 负载 共 诗 的 信息 可 以 在 [Albitz 
& Liu, 2006] 中 找到 。 

DNS 循环 轮转 的 优势 是 成 本 低 ， 而 且 容 易 实 施 。 但 是 ， 它 也 存在 看 一 些 问题 。 其 中 一 个 
|n]; Ze xum DNS 服务 器 上 所 执行 的 绥 存 操作 , 这 意味 看 今后 位 于 某 个 特定 主机 (或 一 组 主机 ) 
上 的 客户 交 发 出 的 请 求 会 经 过 循环 轮转 DNS 服务 左 ， 并 总 是 由 同一 个 服务 右 来 负责 处 理 。 此 
外 ， 循 环 轮转 DNS 并 没有 任何 内 建 的 用 来 确 你 达到 民 好 负载 均衡 (不 同 的 客户 新 在 服务 右上 
产生 的 负载 不 同 ) 或 者 是 确保 高 可 用 性 的 机 制 (如果 其 中 一 台 服 务 器 宕 机 或 者 运行 的 服务 器 
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程序 骨 尝 了 怎么 办 ?)。 在 许多 采用 多 台 服 务 器 设备 的 设计 中 ， 男 一 个 我 们 需要 考虑 的 因素 是 
服务 器 杀 和 性 (server affinity)。 这 就 是 说 ,确保 来 自 同 一 个 客户 端的 请 求 序列 能 够 侈 部 定 问 
到 同 二 会 服 务 器 上 ， 这 样 由 服务 器 维护 的 任何 有 关 客 户 并 状态 的 信息 都 能 保持 准确 。 

一 个 更 灵活 但 也 更 加 复杂 的 解决 方案 是 服务 器 负载 均衡 Cserver load balancing )。 在 这 种 
场景 下 ， 由 一 台 负 载 均衡 服务 器 将 客户 端 请 求 路 由 到 服务 器 集群 中 的 其 中 一 个 成 员 上 。( 为 了 确 
保 高 可 用 性 ， 可 能 还 会 有 一 台 备 用 的 服务 器 。 一 旦 负载 均衡 主 服务 器 骨 溃 ， 备 用 服务 器 就 立 
刻 接管 主 服务 器 的 任务 。) 这 消除 了 由 远 端 DNS 缓存 所 引起 的 问题 ， 因 为 服务 器 集群 只 对 外 
提供 了 一 个 单独 的 IP 地 址 《〈 也 就 是 负载 均衡 服务 器 的 IP 地 址 )。 负 载 均 衡 服务 器 结合 一 些 算 
法 来 衡量 或 计算 服务 器 负载 (可 能 是 根据 服务 器 集群 的 成 员 所 提供 的 量 值 ), 并 智能 化 地 将 负载 
分 发 到 集群 中 的 各 个 成 员 之 上 。 负 载 均衡 服务 器 也 会 日 动 检 测 集 群 中 失效 的 成 员 〈( 如 果 和 需要 ， 
还 会 自动 检测 新 增加 的 服务 器 成 员 )。 最 后 ， 负 和 载 均衡 服务 器 可 能 还 会 提供 对 服务 器 杀 和 力 的 
文 持 。 更 多 大 于 服务 器 负载 均衡 的 信息 可 以 在 [Kopparapu, 2002] 中 找到 。 





























60.5 inetd (Internet 超级 服务 器 ) 守护 进程 


如 果 我 们 查看 一 下 /etc/services 的 内 容 , 可 以 看 到 列 出 了 数 百 个 不 同 的 服务 项 目 。 这 上 暗 
示 了 一 个 系统 理论 上 可 以 运行 数量 庞大 的 服务 器 进 程 。 喔 是 守 天 部 分 服务 器 进程 通常 内 局 
等 竺 着 偶尔 发 送 过 来 的 连接 请 求 或 数据 报 ， 除 此 之 外 它们 什么 都 不 做 。 所 有 这 些 服务 器 进 
程 依 然 会 占用 内 核 进程 表 中 的 槽 位 ， 而 且 也 会 占用 一 些 内 存 和 交换 空间 ， 因 而 对 系统 产生 
了 负载 。 
守护 进程 inetd 被 设计 为 用 来 消除 运行 大 量 非 营 用 服务 器 进程 的 需要 。inetd 可 提供 两 个 主 
要 的 好 处 。 
e 与 其 为 每 个 服务 运行 一 个 单独 的 守护 进程 ， 现 在 只 用 一 个 进程 一 一 inetd 守护 进程 
alb nT ELI 22H38 4E HIE Ber 9m L1, 并 按照 需要 局 动 其 他 的 服务 。 因 此 可 降低 
系统 上 运行 的 进程 数量 。 
e inetd 简化 了 局 动 其 他 服务 的 编程 工作 。 因 为 由 inetd 执行 的 一 些 步 又 通常 在 所 有 的 网 
络 服务 局 动 时 都 会 用 到 。 
由 于 inetd 监管 看 一 系列 的 服务 ， 可 投 照 需要 局 动 其 他 的 服务 ， 因 此 inetd 有 时 候 也 被 称 
Jj Internet 超级 服务 器 。 


在 一 些 Linux 发 行 版 中 提供 有 inetd 的 扩展 版 本 一 一 xinetd。 除 了 包含 inetd 的 功能 外 ， 
xinetd 在 安全 性 方面 做 了 一 些 增强 。 关 于 xinetd 的 信息 可 在 http:Wwww.xinetd.org/ 上 找到 。 


















































inetd 守护 进程 所 做 的 操作 
inetd 守护 进程 通常 在 系统 局 动 时 运行 。 在 成 为 守护 进程 后 ( 见 37.2 $), inetd 执行 如 
下 步骤 。 
1. 对 于 在 配置 文件 /etc/inetd.conf 中 指定 的 每 项 服务 , inetd 都 会 创建 一 个 恰当 类 型 的 套 接 
字 【 即 流 式 套 接 字 或 数据 报 套 接 字 )， 然 后 绑 定 到 指定 的 端口 号 上 。 此 外 ， 每 个 TCP 
套 接 字 都 会 通过 listen0 调 用 允许 客户 端 发 来 连接 。 
2. 通过 selectO 调 用 〈 见 63.2.1 $), inetd 对 前 一 步 中 创建 的 所 有 套 接 字 进 行 监视 ， 看 是 
人 奋 有 数据 报 或 请 求 连接 发 送 过 来 。 
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6. 





select() 调 用 进入 阻 窟 态 ， 和 直到 一 个 UDP ERF ECAA idk TCP BRF Eyka 

了 连接 请 求 。 在 TCP 连接 中 ，inetd 在 进入 下 一 个 步骤 之 前 会 先 为 连接 执行 acceptO 调 用 。 

要 月 动 这 个 依 接 字 上 指定 的 服务 , inted 调用 forkO 创 建 一 个 新 的 进程 , 然后 通过 execO 

启动 服务 器 程序 。 在 执行 execO 亲 ， 子 进程 执行 如 下 的 步骤 。 

(a) 除了 用 于 UDP 数据 报 和 接受 TCP 连接 的 文件 摘 述 符 外 ， 将 其 他 所 有 从 父 进程 继 
厌 而 来 的 文件 搞 述 符 都 关闭 。 

(bo EHRE 5.5 下 中 摘 述 的 技术 ， 在 文件 描述 符 0、1 和 2 上 复制 套 接 学 文件 摘 
述 符 ， 并 关闭 套 接 宇文 件 描述 符 本 身 《〈 因 为 已 经 不 需要 它 了 )。 完 成 这 一 步 之 后 ， 
局 动 的 服务 器 进程 就 能 通过 这 三 个 标准 的 文件 摘 述 生 同 僚 接 学 通信 了 。 

Cc) 这 一 步 是 可 选 的 。 为 司 动 的 服务 器 进程 议定 用 户 和 组 ID， 设 定 的 值 可 在 
/etc/inetd.conf 中 的 相应 条 目 找到 。 

第 3 步 中 ， 如 来 在 TCP ERTE ERZ JNE, inetd 就 天 闭 这 个 连接 僚 接 学 〈( 因 

为 这 个 套 接 学 只 会 在 各 后 启动 的 服务 器 进程 中 使 用 )。 

inetd 服务 跳 转 回 第 2 步 继 续 执行 。 


















































/etc/inetd.conf 文件 


inetd 守护 进程 的 操作 由 一 个 配置 文件 来 控制 ， 通 常 是 /etc/inetd.conf。 该 文件 中 的 每 一 行 都 描 
述 了 一 种 由 inetd 处 理 的 服务 。 程 序 清单 60-5 展示 了 了 一些 /etc/inetd.conf 文件 中 的 条 目 以 作为 示例 。 


程序 清单 60-5: /etc/inetd.conf 中 的 示例 行 


AUG 


1024 














# echo stream tcp nowait root internal 

# echo dgram udp wait root internal 

ftp stream tcp nowait root /usr/sbin/tcpd ^ in.ftpd 
telnet stream tcp nowait root /usr/sbin/tcpd — in.telnetd 
login stream tcp nowait root /usr/sbin/tcpd — in.rlogind 





程序 清单 60-5 P HIRT PÍT E FART k, 因此 它们 说 注释 掉 了 。 我 们 这 里 给 出 这 两 行 是 因 


会 简单 提 到 echo 服务 。 





letc/inetd.conf 文件 中 的 每 一 行 都 由 以 下 字段 组 成 ， 由 衬 格 来 将 它们 分 隔 开 。 





服务 名 称 Cservice name): 该 字段 指定 了 一 项 服务 的 名 称 ， 这 项 服务 可 在 /etc/services 
文件 中 找到 。 结 合 协议 字段 (protocol), 就 可 以 通过 查找 /etc/services 文件 以 确定 inetd 
应 该 为 这 项 服务 监视 哪 一 个 端口 号 。 

EFKA (Socket type): 该 字段 指定 了 这 项 服务 所 用 的 僚 接 字 类 型 一 一 例如 ， 流 式 
套 接 字 (stream) 还 是 数据 报 套 接 字 (dgram). 

协议 Cprotocol): 该 字段 指定 了 这 个 套 接 字 所 使 用 的 协议 。 这 个 字段 可 以 包 合 文件 
/etc/protocols 中 所 列 出 的 任何 Internet 协议 (在 protocol($) 用 户 手册 页 中 注 明 )， 但 几 
乎 所 有 的 服务 都 会 指定 tep (针对 TCP 协议 ) 或 udp〔 针 对 UDP 协议 )。 

标记 Cflags): 该 字段 的 内 容 要 么 是 wait， 要 么 是 nowait。 这 个 字段 指明 了 由 inetd JH 
动 的 服务 器 (暂时 的 ) 是 否 会 接管 用 于 该 服务 的 套 接 字 。 如 果 启 动 的 服务 占 需 要 管理 
这 个 套 接 字 ， 那么 该 字段 被 指定 为 wait。 这 将 导致 netd 把 这 个 套 接 字 从 它 所 监视 ( 通 
过 select0 实 现 对 多 个 文件 摘 述 符 的 监视 ) 的 文件 描述 符 集 合 中 移 除 ， 直 到 这 个 服务 需 
程序 退出 为 止 (inetd 可 以 通过 SIGCHLD 的 信号 处 理 例 程 来 检测 子 进程 是 否 退 出 )。 
对 于 这 个 字段 ， 我 们 下 面 会 做 更 多 的 说 明 。 
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e 登录 名 (login name): 该 字段 由 /etc/passwd 中 的 用 户 名 部 分 组 成 ， 还 可 以 在 其 后 
紧 跟 一 个 句号 以 及 一 个 /etc/group 中 的 组 名 称 。 这 些 名 称 确 定 了 运行 的 服务 器 程 
序 的 用 户 ID 和 组 ID 。( 由 于 inetd 以 root 方式 运行 ， 它 的 子 进程 也 同样 是 特权 级 
的 ， 因 而 可 以 在 有 需要 的 时 候 通 过 调用 setuidO 4I. setgid0 来 修改 进程 的 凭据 。) 

e 服务 器 程序 (server program): 该 字段 指定 了 被 执行 的 服务 器 程序 的 路 径 名 。 

e 服务 器 程序 参数 (server program arguments): 该 字段 指定 了 一 个 或 多 个 参数 ， 参 数 之 
间 由 空格 符 分 隔 。 当 执行 服务 器 程序 时 ， 这 些 参数 就 作为 程序 的 参数 列表 。 在 被 执行 
的 服务 器 程序 中 , 第 一 个 参数 对 应 于 argv[0], 通常 和 服务 器 程序 名 称 的 基础 部 分 相同 。 
下 一 个 参数 对 应 于 argv[1]， 以 此 类 推 。 






































在 程序 清单 60-5 中 所 展示 的 有 关 ftp. telnet 以 及 login 服务 的 例子 中 , 我 们 可 以 看 到 服 
务 器 程序 和 参数 的 设 定 同 前 面 描述 的 方式 有 所 不 同 。 所 有 这 三 种 服务 都 会 导致 inetd 调用 同 
样 的 程序 tcpd(8) CTCP 守护 进程 的 包装 程序 )。tcpd 在 执行 适当 的 程序 前 会 先 执行 一 些 
登录 和 访问 控制 检查 的 操作 ， 而 这 些 操作 会 根据 服务 器 程序 的 第 一 个 参数 值 来 进行 〈 通 过 
argv[0] 传 递 给 ttpd)。 更 多 有 关 tcpd 的 信息 可 以 在 tcpd(8) 用 户 手 册页 以 及 [Mann & Mitchell, 
ZT 到 
由 inetd 调用 的 流 式 套 接 字 (TCP) 服务 堪 通 各 都 被 设计 为 只 处 理 一 个 单独 的 客户 端 连 接 ， 处 理 
完 后 就 终止 , 把 监听 其 他 连接 的 任务 留 给 了 inetd。 对 于 这 样 的 服务 器 , flags 字段 应 该 被 设 为 nowait。 
相反， 如 果 是 由 被 执行 的 服务 堪 进程 来 接受 连接 的 话 ， 那 么 该 字段 就 应 该 设 为 wait。 此 时 inetd 不 
会 去 接受 连接 ， 而 是 将 监听 套 接 字 的 文件 描述 符 当 做 描述 符 0 传递 给 被 执行 的 服务 器 进程 。) 
对 于 大 部 分 的 UDP 服务 器 ，flags 字段 应 该 指定 为 wait。 由 inetd 调用 的 UDP 服务 器 
通 名 被 设计 为 恋 取 并 处 理 所 有 套 接 字 上 未 完成 的 数据 报 ， 然 后 终止 。( 从 套 接 字 中 读 取 数 
据 时 ,通常 需要 一 些 超时 机 制 ， 这 样 在 指定 的 时 间 间 隔 内 如 果 没 有 新 的 数据 报到 来 ， 服 务 
器 进程 就 会 终止 。) 通过 指定 为 wait， 我 们 可 以 阻止 inetd 在 套 接 字 上 同时 尝试 做 selectO 
操作 ， 此 时 可 能 会 出 现 我 们 不 期 望 的 结果 ， 因 为 inetd 可 能 会 在 检查 数据 报 的 时 候 同 UDP 
服务 器 之 间 产 生 了 苋 争 条 件 。 如 果 inetd 局 了 ， 那 么 它 会 启动 另 一 个 UDP 服务 实例 。 


由 于 inetd 操作 以 及 它 的 配置 文件 的 格式 并 没有 在 SUSv3 中 指定 ,因此 在 /etc/inetd.conf 
中 指定 的 值 会 有 一 些 (通常 很 小 ) 变动 。 大 多 数 版 本 的 inetd 至 少 会 提供 我 们 在 正文 中 描述 
过 的 格式 。 要 得 到 更 多 的 细节 信息 ， 请 参阅 inetd.conf(8) 用 户 手册 页 。 


inetd 作为 一 种 提高 效率 的 机 制 ， 本 吴 就 实现 了 一 些 简 单 的 服务 ， 而 不 用 通过 执行 单独 的 
服务 器 进程 来 完成 任务 。UDP 和 TCP 的 echo 服务 就 是 由 inetd 所 实现 的 例子 。 对 于 这 样 的 服 
务 ，/etc/inetd.conf 中 服务 器 程序 字段 对 应 的 记录 应 该 是 internal， 而 服务 器 程序 参数 字段 被 名 
略 。( 在 程序 清单 60-5 所 示 的 例子 中 ， 我 们 看 到 echo 服务 被 注释 折 了 。 要 局 用 echo 服务 ， 我 
们 需要 将 开头 的 # 字 符 去 掉 。) 

当 我 们 修改 了 /etc/inetd.conf 文件 后 ， 需 要 发 送 一 个 SIGHUP 信和 号 给 inetd， 请 求 它 重新 读 
取 配 置 文件 。 


# killall -HUP inetd 




























































































示例 : 通过 inetd 调用 一 个 TCP echo 服务 
之 前 我 们 提 到 了 inetd 可 以 人 简化 服务 器 程序 的 编程 工作 ， 特 别 是 并 发 型 (通常 是 TCP) 
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服务 器 。 这 是 因为 inetd 已 经 帮 它 所 调用 的 服务 器 程序 完成 了 以 下 步骤 。 

l. 执行 所 有 和 和 套 接 字 相 关 的 初始 化 工作 ， 调 用 socketO、bindO 以 及 listen) 〈 针 对 TCP 
服务 器 )。 

2. ”对 于 一 个 TCP 服务 ， 为 狐 到 来 的 连接 执行 acceptO 操 作 。 

3. 创建 一 个 新 的 进程 来 处 理 到 来 的 UDP 数据 报 或 者 是 TCP 连接 。 目 动 将 调用 的 服务 
器 进程 设置 为 守护 进程 。inetd 通过 fork0 处 理 所 有 与 进程 创建 相关 的 细 方 ， 通 过 SIGCHLD 信 
写 处 理 例 程 清除 所 有 退出 的 子 进程 。 

4. ”将 代表 UDP Trà TCP 连接 套 接 学 的 文件 描述 符 复 制 到 标准 文件 描述 符 0、1 和 
2 上 ， 并 关闭 所 有 其 他 的 文件 描述 符 《〈 因 为 它们 并 不 会 在 调用 的 服务 器 进程 中 用 到 )。 

5. 执行 服务 器 程序 。 

(在 上 面 摘 述 的 步骤 中 , 我 们 假设 TCP 服务 在 /etc/inetd.conf 中 的 flags 字段 指定 为 nowait， 
而 UDP 服务 的 flags 字段 指定 为 wait.) 

在 程序 清单 60-6 中 我 们 展示 了 inetd 是 如 何 简化 TCP 服务 的 编程 工作 的 。 我 们 让 inetd 调 
用 了 一 个 TCP echo 服务 ， 访 服务 同 程序 清单 60-4 所 示 的 TCP echo 服务 相同 。 由 于 inetd 执行 
了 所 有 上 述 描述 过 的 步骤 ， 因 此 剩 下 的 任务 驶 是 编写 子 进 程 所 执行 的 处 理 客 户 端 请 求 的 代码 ， 
客户 疹 请 求 可 以 从 文件 描述 符 0 CSTDIN_FILENO) 读 取 。 

如 果 服 务 器 程序 在 /bin 目录 下 〈 打 个 比方 )， 那 么 我 们 可 能 需要 在 /etc/inetd.conf 文件 中 创 
建 如 下 的 条 目 ， 使 得 inetd 可 以 调用 该 服务 器 程序 。 


echo stream tcp nowait root /bin/is echo inetd sv is echo inetd sv 









































程序 清单 60-6: 通过 inetd 调用 TCP echo 服务 
sockets/is echo inetd sv.c 


&include «syslog.h» 
&include "tlpi hdr.h" 


define BUF SIZE 4096 


int 
main(int argc, char *argv[]) 


char buf[BUF SIZE]; 
ssize t numRead; 


while ((numRead = read(STDIN FILENO, buf, BUF SIZE)) > 0) { 
if (write(STDOUT FILENO, buf, numRead) !- numRead) { 
syslog(LOG ERR, "write() failed: Xs", strerror(errno)); 
exit(EXIT FAILURE); 
} 
} 


if (numRead == -1) ( 
syslog(LOG ERR, "Error from read(): Xs", strerror(errno)); 
exit(EXIT FAILURE); 

} 


exit(EXIT SUCCESS); 


sockets/is echo inetd sv.c 
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60.6 E 结 


友 代 型 服务 顺 一 次 上 只 处 理 一 个 客户 帆 ， 在 处 理 下 一 个 客户 凯 请 求 乙 前 必须 将 当前 客户 背 
的 请 求 处 理 完 华 。 并 发 型 服务 右 可 以 同时 处 理 多 个 客户 凯 请 求 。 在 高 负载 的 情况 下 ， 传 统 的 
并 发 型 服务 絮 为 每 个 客户 端 创建 新 的 子 进程 (或 线程 ;， 这 样 的 性 能 表现 并 不 能 达到 要 求 。 为 
此 ， 我 们 针对 需要 同时 处 理 大 量 铬 户 咒 的 并 友 型 服务 费 ， 列 蕉 出 了 一 些 其 他 的 设计 方法 。 

Internet 超级 服务 此 守护 进程 inetd 可 以 监视 多 个 套 接 字 , 并 局 动 合适 的 服务 器 进程 作为 到 
来 的 UDP 数据 报 或 TCP 连接 的 响应 。 通 过 使 用 inetd， 可 以 将 运行 在 系统 上 的 网 络 服务 进程 
的 数量 降 到 最 小 ， 从 而 降低 系统 的 整体 负载 。 同 时 ， 也 可 以 人 简化 服务 器 站 的 编程 工作 。 因 为 
服务 右 进 程 初始 化 阶段 所 需要 的 大 部 分 操作 inetd 部 可 以 帮 我 们 完成 。 


更 多 信息 
参见 59.15 市 中 列 出 的 更 多 信息 来 源 。 

















60.7 练习 


60-1. 为 程序 清香 60-4 (is_echo_sv.c) 中 的 程序 增加 代码 ,使 得 可 同时 运行 的 子 进 程 数量 
1 

60-2. 有 时 候 可 能 需要 编写 一 个 套 接 学 服务 器 , 使 得 它 既 可 以 直接 在 命令 行 上 调用 也 可 以 
间接 地 通过 inetd 来 调用 。 此 时 ， 命 令 行 选 项 可 用 来 区 分 这 两 种 情况 。 修 改 程序 清 
ff. 60-4 中 的 程序 ， 使 得 如 条 给 定 了 命令 行 选 项 -i， 驶 认为 程序 是 通过 inetd 来 调用 
的 , 并 在 连接 套 接 字 上 通过 inetd 提供 的 STDIN. FILENO 文件 描述 符 来 处 理 单个 客 
户 问 。 如 果 没 有 给 出 -i 选项 ， 那 么 程序 就 假设 它 是 在 命令 行 上 调用 ， 以 正常 方式 工 
作 。( 这 项 修改 只 需要 增加 儿 行 代码 就 够 了 。) 修改 /etc/inetd.conf 文件 ， 为 echo Hk 
务 调用 这 个 程序 。 
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SOCKET: 高 级 主题 








本 和 章 涵 辣 了 一 系列 与 Socket CE EY 编程 有 关 的 局 级 主题 ， 内 容 如 下 。 

e 沉 式 食 接 字 上 可 能 会 出 现 的 部 分 证 和 部 分 写 的 情况 。 

e 采用 shutdown) KHAA TEER FZ RDOUR] 388 XE ES HC Pn Yi o 

e recv() 和 send() VO RAIH edu seBUREET-EPCE HI; MAE read I writeO 
所 不 共有 的 。 

e SendfileO0 系 统 调 用 。 在 特定 场景 下 可 用 来 高 效 地 将 数据 得 出 到 套 接 字 上 。 

e TCP 协议 的 操作 细 和 。 目 的 是 为 了 消除 一 些 钟 见 的 误解 ， 当 编写 使 用 TCP ABT 
程序 时 ， 这 些 误解 香 导 致 出 现 错误 。 

e {EH netstat 以 及 tepdump 命令 来 监视 和 调试 使 用 套 接 字 的 应 用 程序 。 

e 使 用 getsockoptO 以 及 setsockoptO 5 £t 1s] H3 RIRE EAE USC BE 1 se Ws] E Be F BRE IT 3G 
项 。 

我 们 也 考虑 到 了 一 些 其 他 次 要 的 主题 。 在 本 章 结 尾 处 我 们 对 套 接 学 的 一 些 高 级 功能 做 了 
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61.1 流 式 套 接 字 上 的 部 分 读 和 部 分 写 

当 首 次 在 第 4 草 中 介绍 read0 和 write0 系 统 调 用 时 ， 我 们 注意 到 在 东 些 情况 下 ， 它 们 传输 
的 数据 可 能 会 比 请 求 的 要 少 。 当 在 流 式 套 接 字 上 执行 VO 操作 时 ,也 会 出 现 这 种 部 分 传输 的 现 
JR. 现在 我 们 来 思考 为 什么 会 出 现 这 种 情况 ， 并 回 大 家 展示 一 对 能 以 透明 的 方式 处 理 部 分 传 
输 问 题 的 函数 。 

如 果 套 接 字 上 可 用 的 数据 比 在 read0O 调 用 中 请 求 的 数据 要 少 , 那 束 可 能 会 出 现 部 分 读 的 现 
Zo 入 这 种 情况 下 ,Téad0 简 单 地 返回 可 用 的 字 节 数 。( 这 同 我 们 在 44.10 节 中 看 到 的 管道 和 
FIFO 所 表现 出 的 行为 一 样 。) 

如 果 没 有 足够 的 缓冲 区 衬 间 来 传 翘 所 有 请 求 的 学 攻 ， 并 且 满 足 了 如 下 几 条 的 其 中 一 条 时 ， 
可 能 会 出 现 部 分 写 的 现象 。 
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e 在 writeO 调 用 传输 了 部 分 请 求 的 学 节 后 被 信号 处 理 例 程 中 断 《〈 见 21.5 节 )。 
e 套 接 字 工作 在 非 阻 塞 模式 下 (CO_ NONBLOCK), 可 能 当前 只 能 传输 一 部 分 请 求 的 字 节 。 
。 在 部 分 请 求 的 学 贡 已 经 完成 传输 后 出 现 了 一 个 寞 步 错误 。 对 于 这 里 的 弄 步 错 误 ， 我 们 
指 的 是 应 用 程序 使 用 的 套 接 字 APT 调用 中 出 现 了 一 个 异步 错误 。 异 步 错 误 是 可 能 会 发 
生 的 ， 比 如 ， 由 于 TCP 连接 出 现 问题 ， 可 能 吏 会 使 对 应 的 应 用 程序 朋 泪 。 
在 所 有 上 述 情况 中 ,假设 绥 冲 区 空间 至少 能 传输 1 字 节 数据 ，writeO 调 用 成 功 ， 并 返回 传 
输 到 输出 缓冲 区 中 的 学 节 数 。 
如 果 出 现 了 部 分 IO 现象 一 一 例如 ,如果 read0 返 回 的 字 下 数 少 于 请 求 的 数量 ， 又 或 者 是 阻塞 
式 的 writeO 调 用 在 完成 了 部 分 数据 传输 后 被 信号 处 理 例 程 中 断 一 那么 有 时 候 需要 重新 调用 系统 
人 调用 来 帘 成 压 部 数据 的 传输 晶 在 程序 清单 61-1 中 ， 我 们 提供 了 两 个 函数 能 做 到 这 一 点 ; readn0 和 
writen). CEIA WA RAAN A H [Stevens et al., 2004] 中 的 同名 函数 。) 









































#include "rdwrn.h" 


ssize t readn(int fd, void *buffer, size t count); 
Returns number of bytes read, 0 on EOF, or -1 on error 
ssize t writen(int fd, void *buffer, size t count); 


Returns number of bytes written, or -1 on error 


FR X. readn0 和 writen() 的 参数 与 read0 和 write0 相 同 。 但 是 ， 这 两 个 函数 使 用 循环 来 重新 
局 用 这 些 系统 调用 ， 因 此 确保 于 请求 的 学 节 数 总 是 能 够 全 部 得 到 传输 《除非 出 现 错误 或 者 在 
read0 中 检 训 到 了 文件 结尾 符 )。 


程序 清单 61-1， 实 现 readn(0 和 writen() 


sockets/rdwrn.c 
Hinclude <unistd.h> 
include «errno.h» 
#include "rdwrn.h" /* Declares readn() and writen() */ 
ssize t 
readn(int fd, void *buffer, size t n) 
( 
ssize t numRead; /* # of bytes fetched by last read() */ 
size t totRead; /* Total # of bytes read so far */ 
char *buf; 
buf - buffer; /* No pointer arithmetic on "void *" */ 
for (totRead = 0; totRead < n; ) { 
numRead - read(fd, buf, n - totRead); 
if (numRead -- 0) /* EOF */ 
return totRead; /* May be 0 if this is first read() */ 


if (numRead -- -1) { 
if (errno -- EINTR) 
continue; 
else 
return -1; /* Some other error */ 


N 


* Interrupted --> restart read() */ 


} 


totRead += numRead; 
buf += numRead; 
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j 


return totRead; /* Must be 'n' bytes if we get here */ 
} 
ssize t 
writen(int fd, const void *buffer, size t n) 
{ 
ssize t numWritten; /* # of bytes written by last write() */ 
size t totWritten; /* Total # of bytes written so far */ 
const char *buf; 
buf - buffer; /* No pointer arithmetic on "void *" */ 
for (totWritten = 0; totWritten < n; ) { 
numWritten = write(fd, buf, n - totWritten); 
if (numWritten «- 0) { 
if (numWritten -- -1 && errno -- EINTR) 
continue; /* Interrupted --» restart write() */ 
else 
return -1; /* Some other error */ 
} 
totWritten += numWritten; 
buf += numWritten; 
return totWritten; /* Must be 'n' bytes if we get here */ 
Í 
sockets/rdwrn.c 


61.2 ”shutdown() 系 统 调用 


在 套 接 学 上 调用 closeO 会 将 双向 通信 通道 的 两 端 都 关闭 ,。 有 时 候 ， 只 关闭 连接 的 一 端 也 
是 有 用 处 的 ， 这 样 数 据 只 能 在 一 个 方 和 同上 通过 套 接 字 传输 。 系 统 调 用 shutdown0 〇 提供 了 这 种 
功能 。 





include «sys/socket.h» 


int shutdown(int sockfd, int how); 


Returns 0 on success, or -1 on error 








系统 调用 shutdownO n] 以 根据 参数 how. I (EXE PROS BEES BE TORDEIT] — me x VE A 
how 的 值 可 以 指定 为 如 下 儿 种 。 


SHUT RD 

关闭 连接 的 读 问 。 之 后 的 读 操 作 将 返回 文件 结尾 “0)。 数 据 仍然 可 以 写 入 到 套 接 字 上 。 
在 UNIX 域 流 式 套 接 字 上 执行 了 SHUT_RD 操作 后 ， 对 问 应 用 程序 将 接收 到 一 个 SIGPIPE 信 
号 ， 如 果 继 续 尝试 在 对 端 套 接 字 上 做 写 操作 的 话 将 产生 EPIPE 错误 。 如 61.6.6 节 中 讨论 的 ， 
SHUT RD 对 于 TCP 套 接 字 来 说 没有 什么 意义 。 
SHUT WR 

KAER ~H mA EFT GERE 4 AR I US GER. "ELA T NS 
文件 结尾 。 后 续 对 本 地 套 接 字 的 写 操作 将 产生 SIGPIPE 信和 号 以 及 EPIPE 错误 。 而 由 对 端 写 入 
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的 数据 仍然 可 以 在 套 接 宇 上 读 取 。 换 名 话说 ， 这 个 操作 人 允许 我 们 在 仍然 能 谈 取 对 器 发 回 给 我 
们 的 数据 时 , 通过 文件 结尾 来 通知 对 端 应 用 程序 本 地 的 写 靖 已 经 关闭 了 。SHUT WR 操作 在 ssh 
和 rsh 中 都 有 用 到 (参见 [Stevens，1994] 中 的 18.5 节 )。 YE shutdown Fie FH SUR PELA 
SHUT WR， 有 时 候 也 被 称 为 半 关 闭 套 接 字 。 


SHUT_RDWR 

用 连 接 的 读 端 和 写 端 都 美 闭 。 这 等 同 于 先 执 行 SHUT_RD， 跟 着 再 执行 一 次 SHUT WR 
操作 。 

除了 参数 how 的 语义 之 外 ,shutdownO 〇 同 close0 之 间 的 为 一 个 重要 区 别 是 : LEZER TFE 
是 侣 还 关联 有 其 他 的 文件 摘 述 符 ，shutdownO 都 会 关闭 套 接 字 通道 。( 换 名 话说 ，shutdownO 古 根据 
打开 的 文件 描述 Copen file description〉 来 执行 操作 ， 而 同文 件 换 述 得 无 天 。 见 图 5-1。) 例如 ， 
假设 sockfd 指 癌 一 个 已 连接 的 流 式 套 接 子 ， 如 果 执 行 下 列 调用 ,那么 连接 依然 会 保持 打开 状态 ， 
我 们 仍然 可 以 通过 文件 描述 符 fd2 在 该 连接 上 做 VO TRE. 


fd2 = dup(sockfd); 
close(sockfd); 


但 是 ， 如 果 我 们 执行 如 下 的 调用 ， 那 么 该 连接 的 双向 通道 都 会 关闭 ， 通 过 fd2 也 无 法 再 执 
fr VO 操作 了 。 


fd2 = dup(sockfd); 
shutdown(sockfd, SHUT RDWR); 


如 果 套 接 字 文 件 描述 符 在 forkO 时 被 复制 ， 那 么 此 时 也 会 出 现 相似 的 场景 。 如 果 在 forkO 调 用 
之 后 ， 一 个 进程 在 描述 符 的 副本 上 执行 一 次 SHUT RDWR 操作 ， 那 么 其 他 的 进程 就 无 法 再 在 
这 个 文件 描述 符 上 执行 VO 操作 了 。 

需要 注意 的 是 , Siutduowng 并 不 会 关闭 文件 描述 符 ， 就 算 参 数 how 指定 为 SHUT_RDWR 时 也 
征 如 此 。 要 关闭 文件 描述 符 ， 我 们 必须 另外 调用 close). 


示例 程序 


程序 清单 61-2 中 的 程序 说 明了 应 该 如 何 使 用 shutdownO 的 SHUT. WR 操作 。 这 个 程序 是 
echo 服务 的 TCP XF imo CRATE 60.3 市 中 给 出 了 一 个 TCP echo IRAE). A T K 
现 ， 我 们 利用 了 59.12 节 中 的 Internet X E Zr PRAE, 


AHE Linux 发 行 片 中， 默认 情况 下 是 没有 局 用 echo 服务 的 。 因 此 我 们 必须 在 运行 程序 清单 
61-2 中 的 程序 之 前 先 启 动 echo 服务 。 一 般 来 说 ， 这 个 服务 是 通过 inetd(8) 和 守护 进程 在 内 部 实现 的 
( 见 60.5 节 )， 要 启动 echo 服务 ， 我 们 必须 编辑 /etc/inetd.conf 文件 ， 将 对 应 于 UDP 和 TCP echo 
服务 的 那 两 行 去 挥 注释 〈 风 60-5 他 )， 然 后 发 送 一 个 SIGHUP 信号 给 inetd 守护 进程 。 
许多 发 行 版 中 都 有 提供 更 先进 的 xinetd(8)， 以 此 取代 inetd(8)。 请 参考 xinetd 的 文档 以 
获取 信息 ， 了 人 解 如 何 通 过 xinetd 完成 同样 的 任务 。 
该 程序 将 运行 echo 服务 的 主机 名 称 以 命令 行 参 数 的 方式 传递 。 客 户 端 执行 一 次 forkO 调 
用 ， 产 生父 子 进程 。 
客户 问 父 进程 将 标准 输入 的 内 容 写 到 套 接 字 上 ， 这 样 就 可 以 被 echo REENT. HR 
进程 在 标准 输入 上 检测 到 文件 结尾 时 ， 调 用 shutdownag0 来 关闭 该 套 接 等 上 的 写 端 。 这 将 导致 
echo 服务 器 检测 到 文件 结尾 ， 此 时 echo 服务 就 会 关闭 它 这 端的 套 接 字 〈 进 而 导致 客户 端子 进 
程 检测 到 文件 结尾 )。 之 后 ， 父 进程 终止 。 
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客户 器 子 进程 从 套 接 字 中 读 取 echo Hos S8 Bgm, JFE AEE b. CAXERBCEE 





检测 到 文件 结尾 时 ， 子 进程 终止 。 











当 我 们 运行 该 程序 时 会 看 到 类 似 下 面 的 输出 。 

$ cat > tell-tale-heart.txt Create a file for testing 
It is impossible to say how the idea entered my brain; 

but once conceived, it haunted me day and night. 

Type Control-D 

$ ./is echo cl tekapo « tell-tale-heart.txt 

It is impossible to say how the idea entered my brain; 

but once conceived, it haunted me day and night. 


程序 清单 61-2: echo 服务 的 客户 端 程序 
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sockets/is echo cl.c 


include "inet sockets.h" 
#include "tlpi hdr.h" 


#define BUF SIZE 100 


int 
main(int argc, char *argv[]) 


int sfd; 
ssize t numRead; 
char buf[BUF SIZE]; 


if (argc !- 2 || stremp(argv[1], "--help") == 0) 
usageErr("%s hostWn", argv[0]); 


sfd = inetConnect(argv[1], "echo", SOCK STREAM); 
if (sfd -- -1) 
errExit("inetConnect"); 


switch (fork()) 1 
case -1: 
errExit(" fork"); 


case 0: /* Child: read server's response, echo on stdout */ 
for (5;) { 
numRead = read(sfd, buf, BUF SIZE); 
if (numRead «- O) /* Exit on EOF or error */ 
break; 


printf("5.*s", (int) numRead, buf); 


} 
exit(EXIT SUCCESS); 


default: /* Parent: write contents of stdin to socket */ 
for (5;) 1 
numRead - read(STDIN FILENO, buf, BUF SIZE); 
if (numRead <= 0) /* Exit loop on EOF or error */ 
break; 


if (write(sfd, buf, numRead) !- numRead) 
fatal("write() failed"); 


j 


/* Close writing channel, so server sees EOF */ 


if (shutdown(sfd, SHUT WR) -- -1) 
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errExit(" shutdown"); 
exit(EXIT SUCCESS); 
j 
j 


sockets/is echo cl.c 


61.3 专用 于 套 接 字 的 |/O 系统 调用 : recv() 和 send() 


recvO0 和 send() 系 统 调 用 可 在 已 连接 的 套 接 子 上 执行 IO 操作 。 邱 们 提供 了 专属 于 套 接 字 
的 功能 ， 而 这 些 功能 在 传统 的 read I writeO 系 统 调用 中 是 没有 的 。 





























#include «sys/socket.h» 


ssize t recv(int sockfd, void *buffer, size t length, int flags); 





Returns number of bytes received, 0 on EOF, or -1 on error 
ssize t send(int sockfd, const void *buffer, size t length, int flags); 


Returns number of bytes sent, or -1 on error 








recv() 和 send0 的 返回 值 以 及 前 3 个 参数 同 read0 和 write) —FE. dei — 4 2 flags J— 
AMNES, Heft VO SHERITIJJ. XT recv0 来 说 ， 该 参数 可 以 为 下 列 值 相 或 的 结果 。 


MSG DONTWAIT 

让 recvO 以 非 阻塞 方式 执行 。 如 果 没 有 数据 可 用 ， 那 么 recv0 不 会 阻塞 而 是 立刻 返回 ， 
EB ERR EAGAIN. 我 们 可 以 通过 fcntO 把 套 接 字 设 为 非 阻塞 模式 CO NONBLOCKO 
从 而 达到 相同 的 效果 。 区 别 在 于 MSG DONTWAIT 允许 我 们 在 每 次 调用 中 控制 非 阻塞 行为 。 


MSG OOB 
在 套 接 池上 接收 带 外 数据 。 我 们 将 在 61.13.1 节 中 人 简要 描述 这 个 特性 。 


MSG_PEEK 
从 套 接 子 绥 冲 区 中 获取 一 份 请 求 字 广 的 副本 ,但 不 会 将 请 求 的 字 太 从 缓冲 区 中 实际 移 除 。 
这 份 数据 稍 后 可 以 由 其 他 的 recv0 或 read0 调 用 重新 读 取 。 


MSG WAITALL 

通常 ，recv0) 调 用 返回 的 字 节 数 比 请 求 的 字 节 数 〈( 由 length 参数 指定 ) 要 少 ， 而 那些 字 节 实 
际 上 还 在 套 接 子 中 。 指 定 了 MSG _WAITALL 标记 后 将 导致 系统 调用 阻 夺 ， 直 到 成 功 接收 到 length. 
个 学 节 。 但 是 ， 就 算 指 定 了 这 个 标记 ， 当 出 现 如 下 情况 时 ， 该 调用 返回 的 学 节 数 可 能 还 是 会 少 
于 请 求 的 学 市 。 这 些 情况 是 : Ca) 捕获 到 一 个 信号 ; (b) 流 式 套 接 字 的 对 端 终止 了 连接 ; C) 
遇 到 了 带 外 数据 字 节 (参见 61.13.1 节 ); 〈d) 从 数据 报 套 接 字 接收 到 的 消息 长 度 小 于 length 个 
字 节 ; CO) 套 接 字 上 出 现 了 错误 。(MSG WAITALL 标记 可 以 取代 我 们 在 程序 清单 61-1 中 给 出 
的 readn0 函 数 ， 区 别 在 于 我 们 实现 的 readn0 函 数 在 被 信号 处 理 例 程 中 断后 会 重新 得 到 调用 。) 

除了 MSG DONTWAIT 之 外 ， 以 上 所 有 标记 都 在 SUSv3 中 有 规范 。MSG_DONTWAIT 
也 存在 于 其 他 一 些 UNIX 实现 中 。 这 个 标记 加 入 到 套 接 字 API 的 时 间 比 较 晚 ， 在 一 些 老 式 的 
实现 中 并 不 存在 。 

对 于 send()，flags 参数 可 以 是 以 下 值 相 或 的 结 
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MSG DONTWAIT 

让 send0 以 非 阻 塞 方式 执行 。 如 果 数 据 不 能 立刻 传输 〈 因 为 套 接 字 发 送 缓冲 区 已 满 )， 那 
么 该 调用 不 会 阻塞 ， 而 是 调用 失败 ， 伴 随 的 错误 人 码 为 EAGAIN。 和 recv0O 一 样 ， 可 以 通过 对 套 
接 字 议定 O_ NONBLOCK 标记 来 实现 同样 的 效果 。 








MSG MORE (从 Linux 2.4.4 开始 ) 

在 TCP EFE, xc bn KMAR ERFA TCP CORK (J 61.4 节 ) 完成 的 
功能 相同 。 区 别 在 于 该 标记 可 以 在 每 次 调用 中 对 数据 进行 栓塞 处 理 。 从 Linux 2.6 版 以 来 ， 这 个 
标记 也 可 以 用 于 数据 报 套 接 字 ， 但 所 代表 的 意义 有 所 不 同 。 在 连续 的 send0 或 sendto0 调 用 中 
传输 的 数据 ， 如 果 指 定 了 MSG MORE 标记 ， 那 么 数据 会 打包 成 一 个 单独 的 数据 报 。 仅 当下 一 
次 调用 中 没有 指定 该 标记 时 数据 才 会 传输 出 去 。(Linux 也 提供 了 类 似 的 UDP_CORK 套 接 字 
选项 ， 这 将 导致 在 连续 的 send0 或 sendto0 调 用 中 传输 的 数据 会 累积 成 一 个 单独 的 数据 报 ， 当 
取消 UDP CORK 选项 时 才 会 将 其 发 送出 去 。) MSG MORE 标记 对 UNIX 域 套 接 字 没有 任何 


























MSG NOSIGNAL 

当 在 已 连接 的 流 式 套 接 字 上 发 送 数据 时 ， 如 果 连 接 的 另 一 端 已 经 关闭 了 ， 指 定 该 标记 后 将 
:会 产生 SIGPIPE 信号 。 相 反 ，send0 调 用 会 失败 ， 伴 随 的 错误 码 为 EPIPE。 这 和 忽略 SIGPIPE 
过 号 所 得 到 的 行为 相同 。 区 别 在 于 该 标记 可 以 在 每 次 调用 中 控制 信号 发 送 的 行为 。 














MSG OOB 

在 流 陈 套 接 字 上 发 送 市 外 数据 。 参 见 61.13.1 市 。 

以 上 标记 中 只 有 MSG OOB 在 SUSv3 中 有 规范 。MSG DONTWAIT 标记 也 在 其 他 一 些 
UNIX 实现 中 出 现 过 ， 而 MSG NOSIGNAL 和 MSG MORE 都 是 Linux 专 有 的 。 

send(2) 和 recv(2) 的 用 户 手 册页 中 还 描述 了 一 些 这 里 没有 介绍 到 的 标记 。 





61.4 sendfile() Z& Zt ij] FH 


ff Web 服务 器 和 文件 服务 器 这 样 的 应 用 程序 常 利 需要 将 磁盘 上 的 文件 内 容 不 做 修改 地 通 
过世 忆 连 接 玉 套 接 字 传 输 昌 盐 ， 一 种 方法 是 通过 循环 按照 如 下 方式 处 理 。 

while ((n = read(diskfilefd, buf, BUZ SIZE)) > O) 

write(sockfd, buf, n); 

对 于 许多 应 用 程序 来 说 ， 这 样 的 循环 是 完全 可 接受 的 。 但 是 ， 如 采 我 们 需要 通过 套 接 字 
频 崇 地 传输 大 文件 的 话 ， 这 种 技术 束 显 得 很 不 局 效 。 为 了 传输 文件 ， 我 们 必须 使 用 两 个 系统 
调用 《可 能 需要 在 循环 中 多 次 调用 ): 一 个 用 来 将 文件 内 容 从 内 核 缓冲 区 cache HP N SHA 
TE, 为 一 个 用 来 将 用 户 空 间 绥 冲 区 找 贝 回 内 核 空间 ,以 此 才能 通过 套 接 字 进 行 传输 。 图 61-1 
的 左 侧 展示 了 这 种 场景 。 如 来 应 用 程序 在 发 起 传输 之 前 根本 不 对 文件 内 容 做 任何 处 理 的 话 ， 
那么 这 种 两 步 式 的 处 理 束 是 一 种 浪费 。 系 统 调 用 sendfile0 被 设计 为 用 来 消除 这 种 低 效 性 。 如 
图 61-1 右 侧 所 示 ， 当 应 用 程序 调用 (BendfileO 时 ,文件 内 容 会 直接 传送 到 套 接 字 二 ; 而 不 会 经 过 
用 户 空间 。 这 种 技术 被 称 为 宪 找 贝 传输 (zero-copy transfer). 
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£5 aix socket 
缓存 发 送 缓冲 区 


55 np px socket 
磁盘 文件 


a) read() + :write() b) sendfile() 
61-31: 将 文件 内 容 传送 到 套 接 字 上 








üt fk C fT 





#include «sys/sendfile.h» 


ssize t sendfile(int out fd, int im fd, off t *offset, size t count); 





Returns number of bytes transferred, or -1 on error 





系统 调用 sendfile() 在 代表 输入 文件 的 描述 符 in fd 和 代表 输出 文件 的 描述 符 out fd 之 
间 传 送 文件 内 容 ( 字 节 )。 描 述 符 out fd 必须 指向 一 个 套 接 字 。 S3 in fd 指向 的 文件 必须 
全 可 以 进行 mmap0 操 作 的 。 在 实践 中 ， 这 通 销 表示 一 个 普通 文件 。 这 些 局 限 多 少 限 制 了 
sendfileO 的 使 用 .成 们 可 以 使 用 SenadfilegO 将 数据 从 文件 传递 到 套 接 等 上 上 , ERIKA ÍT 
另外 ， 我 们 也 不 能 通过 sendfileO 在 两 个 套 接 字 之 间 直 接 传送 数据 。 


如 朵 sendfileO 可 以 用 来 在 两 个 普通 文件 之 间 传 送 字 站 ， 也 可 以 获得 性 能 上 的 优势 。 
在 Linux 2.4 及 早期 版 本 中 ，out fd 是 可 以 指 问 一 个 普通 文件 的 。 内 核 确 层 实 现 做 了 修改 
之 后 意味 看 这 种 用 法 在 2.6 版 的 内 核 中 消失 了 。 但是， 这 个 功能 在 今后 的 内 核 版 本 中 可 能 
会 重新 启用。 

















如 果 参 数 offset 不 是 NULL， 它 应 该 指向 一 个 off t 值 ， 该 值 指 定 了 起 嬉 文件 的 偏 移 量 \ 
意 即 从 in. fd 指向 的 文件 的 这 个 位 置 开始 ， 可 以 传输 字 节 。 这 是 一 个 传 入 传 出 参数 (又 叫 值 一 
结果 参数 )。 在 返回 的 值 中 ， 它 包含 从 in fd 传输 过 来 的 紧 靠 着 最 后 一 个 字 节 的 下 一 个 字 市 的 
偏 移 量 。 在 这 里 ， 

如 果 参 数 offset 指定 为 NULL 的 话 ， 那么 从 in. fd 传输 的 字 节 整 从 当前 的 文件 偏 移 量 处 开 

人 ， 且 在 传输 时 会 更 狐 文 件 偏 移 量 以 有 反映 出 已 传输 的 字 节 数 。 

参数 count 指定 了 请 求 传 输 的 字 节 数 。 如 果 在 count 个 字 节 完成 传输 前 就 遇 到 了 文件 结尾 符 ， 那 
么 只 有 文件 结尾 符 之 前 的 那些 字 节 能 传输 。 调 用 成 功 后 ，(BendfilE0 奔 返回 实际 传输 的 字 节 数 

SUSv3 中 并 没有 指定 sendfile0。 还 有 几 种 不 同 厂 本 的 sendfile0 在 其 他 UNIX 实现 中 也 存 
在 ， 但 参数 列表 一 般 同 Linux 下 的 sendfileO 不 同 。 


从 2.6.16 版 内 核 开 始 ，Linux 提供 了 3 个 新 的 〈 非 标准 的 ) 系统 调用 一 一 spliceO)，vmsplice() 
以 及 tee0 一 一 这 些 系统 调用 提供 了 sendfile0O) 功 能 的 超 集 。 请 参见 用 户 手 册页 以 获得 更 多 细 方 。 























i 译 者 注 : 原文 为 “On retur, it contains the offset of the next byte following the last byte that was transferred from in. fd." 
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TCP CORK 套 接 字 选 项 
要 进步 提高 TCP 应 用 使 用 SendfileO 时 的 性 能 ， 采 用 Linux 专 有 的 套 接 字 选项 TCP_ CORK 

















TÉ ROI. ful, Web 服务 器 传送 页 面 给 浏览 器 ， 作 为 对 请 求 的 啊 应 。Web 服务 器 的 啊 
应 由 两 部 分 组 成 ， HTTP 首部 ， 也 许 会 通过 write0 来 输出 ; 页面 数据 ， 可 以 通过 sendfile0 来 输 








出 。 在 这 种 场景 下 ， 通 常会 传输 2 个 TCP 报 文 段 ; HTTP 首部 在 第 一 个 (非常 小 ) 报 文 段 中 ， 
而 页 面 数据 在 第 二 个 报 文 段 中 发 送 。 这 对 网 络 融 宽 的 利用 率 是 不 够 高 效 的 。 可 能 还 会 在 发 送 和 
接收 TCP 报 文 时 做 些 不 必要 的 工作 ， 因 为 在 许多 情况 下 HTTP 首部 和 页 面 数据 都 比较 小 ， 足 以 
容纳 在 一 个 单独 的 TCP 报 文 段 中 。 套 接 字 选项 TCP_ CORK 正 是 被 设计 为 用 来 解决 这 种 低 效 性 。 

当 在 TO 套 接 字 上 局 用 了 TCP CORK 选项 后 ， 之 后 所 有 的 输出 都 会 缓冲 到 一 个 单独 的 TCP. 
最 文 段 囊 ，” 直 到 满足 以 下 条 件 为 止 : 已 达到 报 文 段 的 大 小 上 限 、 取 消 了 TCP CORK 选项 、 套 接 字 
锌 关闭， 或 者 当 启 用 TCP_CORK 后 ， 从 写 入 第 一 个 学 节 开 始 已 经 经 历 了 200 坚 秒 。( 如 有 条 应 用 程序 
忘记 取消 TCP CORK 选项 ， 那 么 超时 时 间 可 确保 被 缓冲 的 数据 能 得 以 传输 。) 

我 们 通过 setsockoptO 系 统 调 用 〈 见 61.9 5» 来 启用 或 取消 TCP CORK 选项 。 和 下面 的 代 


但 (省略 错 误 检 碍 ) 说 明了 在 我 们 假想 的 HTTP 服务 闫 例子 中 应 该 如 何 使 用 TCP_CORK 选项 。 
int optval; 
































/* Enable TCP CORK option on 'sockfd' - subsequent TCP output is corked 
until this option is disabled. */ 


optval - 1; 
setsockopt(sockfd, IPPROTO TCP, TCP CORK, sizeof(optval)); 


write(sockfd, ...); /* Write HTTP headers */ 
sendfile(sockfd, ...); /* Send page data */ 


/* Disable TCP CORK option on 'sockfd' - corked output is now transmitted 
in a single TCP segment. */ 


optval = 0 
setsockopt(sockfd, IPPROTO TCP, TCP CORK, sizeof(optval)); 


在 我 们 的 应 用 中 ， 通 过 构建 一 个 单独 的 数据 缓冲 区 ， 可 以 避免 出 现 需 要 发 送 两 个 报 文 段 
的 情况 之 后 可 以 通过 二 个 单独 的 WriteO 将 缓 种 区 数据 发 送出 去 《可 选 的 方式 症 ， 我 们 可 以 通 
过 writevO 将 两 个 独立 的 缓冲 区 结合 为 一 次 单独 的 输出 操作 。) 但 是 , 如 果 我 们 布 望 将 sendfileO 
的 零 拷 贝 局 效 性 和 传输 文件 数据 时 在 第 一 个 报 文 段 中 包 人 名 HTTP 首部 信息 的 能 力 结合 起 来 的 
话 ， 那 么 我 们 需要 用 到 TCP CORK. 


fr 61.3 市 中 ， 我 们 提 到 MSG MORE 标记 提供 了 同 TCP CORK 相似 的 功能 ， 只 是 
MSG MORE 是 基于 每 次 调用 的 ( 即 , 可 以 在 每 次 调用 中 调整 , 而 TCP_CORK 是 全 局 性 的 )。 
这 并 不 一 定 是 优点 。 我 们 可 能 会 在 套 接 字 上 设 定 TCP_CORK 选项 , 之 后 通过 调用 男 一 个 程 
序 在 继承 而 来 的 文件 描述 符 上 执行 输出 , 此 时 不 必 知 道 TCP_CORK 选项 的 存在 。 与 之 相反 ， 
如 果 使 用 MSG_ MORE 的话， 需要 显 式 地 修改 程序 的 源 代 人 码 。 

FreeBSD 中 的 TCP_NOPUSH 选项 提供 了 类 似 于 TCP CORK 的 功能 。 


























61.5 ”获取 套 接 字 地 址 
getsockname()fil getpeemame() 这 两 个 系统 调用 分 别 返 回 本 地 套 接 字 地 址 以 及 对 端 套 接 字 地 址 。 
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include «sys/socket.h» 


int getsockname(int sockíd, struct sockaddr *addr, socklen t *addrlen); 
int getpeername(int sockfd, struct sockaddr *addr, socklen t *addrlen); 








Both return 0 on success, or -1 on error 


对 于 这 两 个 系统 调用 ,sockfd KIRI I8] PE HN OCTETRT » 而 addr 是 一 个 指 问 sockaddr Zi 
构 体 的 指针 ， 该 结构 体 包含 着 套 接 字 的 地 址 。 这 个 结构 体 的 大 小 和 类 型 取决 于 套 接 字 域 。 
Addrlen 是 一 个 保存 结 末 值 的 参数 。 在 执行 调用 之 前 ，addrlen 应 该 被 初始 化 为 addr 所 指 癌 的 组 
冲 区 空间 的 大 小 。 调 用 返回 后 ，addrlen 中 包含 实际 写 入 到 这 个 缓冲 区 中 的 字 节 数 。 

getsockname() 可 以 返回 套 接 字 地 址 族 , 以 及 套 接 字 所 绑 定 到 的 地 址 。 如果 套 接 字 绑 定 到 了 
男 一 个 程序 (比如 inetd(8))， 且 套 接 字 文 件 摘 述 符 在 经 过 exec0 调 用 后 仍然 得 到 保留 ， 那么 此 
时 getsocknameO SE Be UK EHH T. 

当 隐 式 绑 定 到 一 个 Internet 域 套 接 字 上 时 ， 如 果 我 们 想 获 取 内 核 分 配给 套 接 字 的 临时 端口 
号 ， 那 么 调用 getsocknameO 也 是 有 用 的 。 内 核 会 在 出 现 如 下 情况 时 执行 一 个 隐 式 绑 定 。 

e 已 经 在 TCP ERF EHT I connectO 或 listen0 调 用 , 但 之 前 还 没有 通过 bindo F 

qs DE Ea 

e "fr UDP £€&'r Emo sendtoül, ZERTARA JE SIRE E. 

e 调用 bindo Kimo (sin port) 指定 为 0。 这 种 情况 下 bind0 会 为 套 接 字 指 定 一 个 

IP 地 址 ， 但 内 核 会 选择 一 个 临时 的 端口 号 。 
系统 调用 getpeernameO 返 回流 陈 套 接 字 连接 中 对 端 套 接 字 的 地 址 。 如 末 服 务 右 想 找 出 发 
出 连接 的 客户 端 地 址 ， 这 个 调用 就 特别 有 用 ， 主 要 用 于 TCP 套 接 字 上 。 对 端 套 接 字 的 地 址 信 
县 也 可 以 在 执行 acceptO 时 获取 ， 但 是 如 果 服 务 器 进程 是 由 另 一 个 程序 调用 的 ， 而 acceptO 是 
由 该 程序 (比如 inetd) 所 执行 ， 那 么 服务 器 进程 可 以 继承 套 接 字 文 件 描述 符 ， 但 由 acceptO 
返回 的 地 址 信息 束 不 存在 了 。 
程序 清单 61-3 中 的 程序 说 明了 getsockname() 和 getpeernameO 的 用 法 。 访 程序 用 到 了 我 们 
在 程序 清单 59-9 中 定义 的 函数 ， 程 序 执行 如 下 的 步骤 。 
1. 通过 inetListenQ KAŽE E KERT listenFd， 并 绑 定 到 通 配 IP Heh b. xm 138 
过 程序 的 命令 行 参 数 指定 。( 诺 口号 可 以 以 数字 方式 指定 ， 也 可 以 通过 服务 名 称 指 
定 。) 参数 len 返回 该 套 接 字 域 的 地 址 结构 体 的 长 度 。 稍 后 会 将 len 返回 的 值 传递 给 
mallocO 以 分 配 一 段 组 种 区 空间 ， 这 段 空 间 用 来 保存 getsockname() 和 getpeername() 
所 返回 的 套 接 字 地 址 。 

2。 通 过 inetConnectO 函 数 创建 第 二 个 套 接 字 connFd。 该 套 接 字 用 来 向 第 1 步 中 创建 的 监 
听 套 接 字 发 起 连接 请 求 。 

3， 在 监听 套 接 字 上 调用 acceptO 以 创建 第 3 个 套 接 字 acceptFd。 该 套 接 字 同 前 一 步 中 创建 
的 套 接 字 之 间 建 立 起 连接 。 

4， 调 用 getsockname0 和 getpeername() 获 取 本 地 (connFd) 和 对 端 acceptFd) 套 接 字 的 地 址 。 
在 这 两 个 调用 之 后 ， 程 序 通 过 inetAddressStrO 函 数 将 套 接 字 地 址 转换 为 可 打印 的 形式 。 

5。 让 程序 休眠 几 秒 钟 ， 这 样 我 们 可 以 运行 netstat 程序 以 确认 套 接 字 地 址 信息 。( 我 们 将 
在 61.7 $ PHA netstat, ) 

下 面 的 shell 会 话 展 示 了 运行 该 程序 的 例子 。 
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$ ./socknames 55555 & 

getsockname(connFd): ^ (localhost, 32835) 
getsockname(acceptFd): (localhost, 55555) 
getpeername(connFd): ^ (localhost, 55555) 
getpeername(acceptFd): (localhost, 32835) 

[1] 8171 

$ netstat -a | egrep '(Address|55555)' 

Proto Recv-Q Send-O Local Address Foreign Address State 


tcp 0 0 *:55555 D LISTEN 
tcp 0 0 localhost:32835  localhost:55555 ESTABLISHED 
tcp 0 0 localhost:55555  localhost:32835 ESTABLISHED 





根据 上 面 的 输出 ， 我 们 可 以 看 到 连接 套 接 字 (connFd) 绑 定 到 了 临时 端口 32835 L. netstat 命 
令 为 我 们 展示 出 了 由 程序 创建 的 3 个 套 接 学 的 所 有 相关 信息 ， 并 人 允许 我 们 对 两 个 连接 套 接 字 的 
闹 口 信息 进行 确认 ， 这 两 个 套 接 子 邦 处 于 ESTABLISHED 状态 (参见 61.6.3 市 中 搬 述 )。 


程序 清单 61-3: 使 用 getsockname() 和 getpeername() 














sockets/socknames.c 

include "inet sockets.h" /* Declares our socket functions */ 
#include "tlpi hdr.h" 
int 
main(int argc, char *argv[]) 
{ 

int listenFd, acceptFd, connFd; 

socklen t len; /* Size of socket address buffer */ 

void *addr; /* Buffer for socket address */ 


char addrStr[IS ADDR STR LEN]; 


if (argc != 2 || stremp(argv[1], "--help") == O0) 
usageErr("Xs service\n", argv[0]); 


listenFd = inetlisten(argv[1], 5, &len); 
if (listenFd -- -1) 
errExit("inetlisten"); 


connFd - inetConnect(NULL, argv[1], SOCK STREAM); 
if (connFd -- -1) 
errExit("inetConnect"); 


acceptFd - accept(listenFd, NULL, NULL); 
if (acceptFd -- -1) 
errExit("accept"); 


addr - malloc(len); 
if (addr -- NULL) 
errExit("malloc"); 


if (getsockname(connFd, addr, &len) == -1) 
errExit("getsockname") ; 
printf("getsockname(connFd):  %s\n", 
inetAddressStr(addr, len, addrStr, IS ADDR STR LEN)); 
if (getsockname(acceptFd, addr, &len) -- -1) 
errExit("getsockname") ; 
printf("getsockname(acceptFd): %s\n", 
inetAddressStr(addr, len, addrStr, IS ADDR STR LEN)); 


if (getpeername(connFd, addr, &len) == -1) 
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errExit("getpeername"); 
printf("getpeername(connFd):  %s\n", 
inetAddressStr(addr, len, addrStr, IS ADDR STR LEN)); 
if (getpeername(acceptFd, addr, &len) == -1) 
errExit("getpeername"); 
printf("getpeername(acceptFd): %s\n", 
inetAddressStr(addr, len, addrStr, IS ADDR STR LEN)); 


sleep(30); /* Give us time to run netstat(8) */ 
exit(EXIT SUCCESS); 


sockets /socknames. c 


61.6 RAIRE TCP 协议 


了 解 一 些 TCP 协议 的 操作 细节 有 助 于 我 们 调试 使 用 TCP 套 接 字 的 应 用 程序 ， 而 且 , 在 某 
些 情况 下 还 能 使 这 样 的 应 用 变 得 更 加 高 效 。 在 接 下 来 的 儿 节 中 ， 我 们 将 探讨 : 

。 TCP 报 文 的 格式 ; 

e TCP 的 确认 机 制 ; 

。 TCP 协议 的 状态 机 ; 

。 TCP 连接 的 建立 和 终止 ; 

e TCP fJ TIME WAIT 状态 。 


61.6.1 TCP 报 文 的 格式 
图 61-2 展示 了 在 一 个 TCP 连接 中 两 个 结 点 之 间 交 换 的 TCP 报 文 格式 。 这 些 字 段 的 含义 如 下 。 











15 16 31 


——- [o 
my 
No 
- 
= 
保留 位 控制 位 窗口 大 小 
bs (4 位 ) (8 位 ) 


首部 


选项 (如 果 存 在 ) 
(0 一 40 FT) 


数据 (如 果 存 在 ) 
(0+ 字 节 ) 
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Wim H (source port number): 这 是 TCP Rik im Jm H o 

目的 端口 写 (destination port number): 这 是 TCP kin hin O e 

序列 号 〈sequence number): 如 58.6.3 节 中 的 描述 所 述 ， 这 是 该 报 文 的 序列 号 ,标识 从 TCP 

Fimi TCP 收 剖 发 送 的 数据 学 节 流 ， 它 表示 在 这 个 报 文 段 中 的 第 一 个 数据 学 节 

MIAJ E (acknowledgement number): 如 果 设 定 了 ACK 位 〈 见 下 文 )， 那 么 这 个 字段 

包含 了 接收 方 期 望 从 发 送 方 接收 到 的 下 一 个 数据 学 节 的 序列 号 。 

首部 长 度 Cheader length): 该 字段 用 来 表示 TCP 报 文 首 部 的 长 度 ， 首 部 长 度 单 位 是 

32 位 。 由 于 这 个 字段 只 占 4 个 比特 位 ， 因 此 首部 总 长 度 最 大 可 达到 60 字 节 (15 个 字 

长 )。 访 字段 使 得 TCP 接收 问 可 以 确定 变 长 的 选项 字段 (options) 的 长 度 ， 以 及 数据 

域 的 起 始点 。 

保留 位 (reserved): 该 字段 包含 4 个 未 使 用 的 比特 位 《必须 置 为 0)。 

控制 位 (control bit): 该 字段 由 8 个 比特 位 组 成 ， 能 进一步 指定 报 文 的 含义 。 

— CWR: 拥 守 窗口 减 小 标记 Ccongestion window reduced flag). 

— ECE: 显 式 的 拥塞 通知 回 显 标 记 〈explicit congestion notification echo flag), CWR 
和 ECE 标记 用 在 TCP/IP 的 显示 拥塞 通知 CECNO. 算法 中 。ECN 加 入 到 TCP/IP 
的 时 间 相 对 较 新 ， 在 RFC 3168 和 [Floyd,，1994] 中 有 详尽 描述 。Linux HAM 2.4 Ji 
内 核 以 来 就 实现 了 ECN， 可 以 为 Linux 专 有 的 文件 /proc/sys/net/ipv4/tcp_ecn i 
置 一 个 非 零 值 来 开局 这 个 功能 。 

— URG: 如 果 设 置 了 该 位 ， 那 么 紧急 指针 字 

— ACK: 如 果 设 置 了 该 位 ， 那 么 确认 序号 字 E 
可 用 来 确认 由 对 病友 送 过 来 的 上 一 个 数据 )。 

— PSH: 将 所 有 收 到 的 数据 发 给 接收 的 进程 。 RFC993 和 [Stevens,，1994] 中 描述 了 这 
< 

一 RST: 重 置 连接 。 该 字段 用 来 处 理 多 种 错误 情况 。 

— SYN: 同步 序列 号 。 在 建立 连接 时 ， 双 方 需要 交换 设置 了 该 位 的 报 文 。 这 样 使 得 
TCP 连接 的 两 端 可 以 指定 初始 序列 号 ， 和 后 用 于 在 双 问 传输 数据 。 
FIN: 发 送 端 提示 已 经 完成 了 发 送 任 务 。 
































T 








x 


L IE EEA E o 
包含 的 信息 残 是 有 效 的 ‘ 即 ， 该 子 段 





T 








X 














"TUER X Ber bog S HIN. REENE), BERTA PHIROCECBEHT T PES. Pl 





如 ， 稍 后 我 们 将 看 到 在 建立 TCP 连接 时 ， 报 文 段 会 同时 设置 SYN 和 ACK. 








口 大 小 (window size): 该 字段 用 在 接收 闫 发 送 ACK 确认 时 提示 目 己 可 接受 数据 的 
宇 间 大 小 。( 访 字段 同 滑动 窗口 机 制 有 关 ， 在 58.6.3 节 中 有 人 简要 描述 。) 
校 验 和 Cchecksum): 16 位 的 检验 和 包括 TCP 首部 和 TCP 的 数据 域 。 





TCP BEES NU HRS TCP 首部 和 数据 域 ， 还 包含 了 种 被 称 为 TCP 伪 首 部 的 12 个 和子。 

伪 首 部 由 如 下 部 分 组 成 : 源 地 址 和 目的 地 址 IP (各 占 4 字 节 ); 2 字 节 用 来 指定 TCP 报 文 的 
大 小 (这 个 值 是 计算 出 来 的 , 但 既 不 属于 P 首部 也 不 属于 TCP 首部 ); TCP/IP 协议 族 中 针对 
TCP 的 唯一 协议 号 ， 单 字 节 ， 值 为 6; 以 及 1 个 字 太 的 填充 域 ,该 字 市 全 为 0 (这 样 伪 冯 部 的 
KEDE 16 位 的 整数 们 了 )。 在 计算 校 验 和 时 要 包含 伪 肯 部 的 原因 古人 允许 TCP 的 接收 器 可 以 
重 狐 核对 接收 到 的 报 文 是 盏 已 经 到 达 正 确 的 目的 地 〈 即 ，IP 层 没 有 错误 地 将 应 该 及 人 往 为 一 台 
主机 的 数据 报 接收 ， 或 者 将 应 该 发 入 万 一 个 上 层 协议 的 数据 包 转 发 给 TCP 层 )。UDP 计算 
校 验 和 的 方式 和 忌 因 都 闫 似 于 TCP。 请 参见 [Stevens, 1994] 以 获取 有 关 伪 首部 的 细节 信息 。 
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。 A HH (Urgent pointer): "lE f URG fv. JI ZA bd zs P Sca hm 1 m e 8n 
的 数据 为 紧急 数据 。 我 们 将 在 61.13.1 节 中 简单 讨论 紧急 数据 。 

。 选项 (Options): 这 是 一 个 变 长 的 字段 ， 包 含 了 控制 TCP 连接 操作 的 选项 。 

。 Xs (Data): 这 个 字段 包含 了 该 报 文 段 中 传输 的 用 户 数 据 。 如 来 报 文 段 没有 包含 任 
何 数据 的 话 ， 这 个 字段 的 长 度 就 为 0《〈 例 如 ， 如 条 只 是 一 个 简单 的 ACK 报 文 )。 


61.6.2 TCP 序列 号 和 确认 机 制 


每 个 通过 TCP 连接 传送 的 字 节 都 由 TCP 协议 分 配 了 一 个 逻辑 序列 号 。( 在 一 条 连接 中 ， 双 问 数 
据 流 都 有 各 自 的 序列 号 。) 当 传送 一 个 报 文 时 ， 该 报 文 的 序列 号 字段 被 设 为 该 传输 方向 上 的 报 文 段 
数据 域 第 一 个 字 节 的 逻辑 偏 移 。 这 样 TCP 接收 端 就 可 以 按照 正确 的 顺序 对 接收 到 的 报 文 段 重 新 组 
装 ， 并 且 当 发 送 一 个 确认 报 文 给 发 送 端 时 就 表明 自己 接收 到 的 是 哪 一 个 数据 。 

要 实现 可 靠 的 通信 ，TCP 采用 了 主动 确认 的 方式 。 也 就 是 ， 当 一 个 报 文 段 被 成 功 接收 
后 ，TCP 接收 融会 发 送 一 个 确认 消息 〈 即 ， 设 置 exam 接收 端 
了 ACK 位 的 报 文 段 ) 给 TCP 发 送 端 ， 如 图 61-3 
所 示 。 该 消 明 的 确认 序号 字段 被 设置 为 接收 方 所 
期 望 接 收 的 下 一 个 数据 学 节 的 逻辑 序列 号 。( 换 句 
话说 ， 确 认 序 号 字段 的 值 束 是 上 一 个 成 功 收 到 的 

















































分 段 (x 5e) 
CETIS NS Nx - p) 





分 段 确认 











G (Ack #: N+x) 

数据 学 市 的 序列 号 加 1. 主机 A 主机 B 
当 TCP 友 送 端 发 送 报 文 时 会 设置 一 个 定时 器 。 e WN — >» 

如 果 在 定时 需 超 时 前 没有 接收 到 确认 报 文 , 那么 该 报 61-3: TCP 协议 的 确认 机 制 

文 会 重新 发 送 。 


图 61-3 以 及 稍 后 出 现 的 相似 的 网 示 引 在 次 明 两 个 结 点 间 交 换 的 TCP 报 文 。 从 上 到 下 看 
这 些 网 时 ， 倾 笠 的 箭头 隐 侣 表示 了 必 送 报 文 所 需要 的 时 间 。 








61.6.3 TCP 协议 状态 机 以 及 状态 迁移 图 

维护 一 个 TCP 连接 需要 同步 协调 这 个 连接 的 两 端 , 为 了 减 小 这 项 任务 的 复 林 上 度 ,TCP 
结 点 以 状态 机 的 方式 来 建 模 。 这 意味 着 TCP 结 点 可 以 处 于 一 组 固定 状态 中 的 其 中 一 种 ， 
并 且 根 据 对 事件 的 啊 应 来 从 一 种 状态 迁移 到 另 一 种 状态 。 比 如 可 根据 TCP 上 层 的 应 用 程 
序 所 执行 的 系统 调用 ， 又 或 者 是 从 对 端 TCP 结 点 接收 到 了 TCP 报 文 。TCP 的 状态 有 如 
PILP 

。 LISTEN: TCP 正 等 竺 从 对 端 TCP 结 点 发 来 的 连接 请 求 。 

e SYN SENT: TCP 友 送 了 一 个 SYN RL, 代表 应 用 程序 执行 了 一 个 主动 打开 的 操作 ， 
开 等 待 对 并 回 应 以 此 完成 连接 的 建立 。 

e SYN _ RECV: 之 前 处 于 LISTEN 状态 的 TCP 结 点 收 到 了 对 端 发 送 的 SYN 报 文 ， 并 已 
AMIR SYN/ACK 报 文 做 出 了 啊 应 ( 即 ， 这 个 TCP 报 文 同时 设置 了 SYN 和 ACK 
^L). IESREBpNm TCP 结 点 发 送 一 个 ACK 以 此 完成 连接 的 建立 。 

。 ESTABLISHED: .5xJ»m TCP 结 点 间 的 连接 建立 完成 。 数 据 报 文 此 时 可 以 在 两 个 TCP 
Zt pa RISUS] Ad 

。 FIN WAITI: 应 用 程序 关闭 了 连接 。TCP 结 点 发 送 一 个 FIN 报 文 到 对 端 ， 以 此 终止 本 
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mE, HEFIN mR ACK. 这 个 状态 以 及 接 下 来 的 3 种 状态 都 与 应 用 程序 执 
行 主 动 天 闭 有 关 一 一 也 就 是 ， 首 先 关 闭 本 端 连接 的 应 用 程序 。 

e FIN WAIT2: 之 前 处 于 FIN_WAIT1 状态 的 TCP AMECA T Xim TCP 结 点 
发 来 的 ACK. 

e CLOSING: 之 前 处 于 FIN_WAIT1 状态 的 TCP 73 &31E EB Ac ACK， 但 却 收 
到 了 FIN。 这 表示 对 问 也 正在 尝试 执行 一 个 主动 天 财 。( 换 句 话说 ， 这 两 个 TOP £i 
几乎 在 同一 时 刻 发 送 了 FIN 报 文 。 这 种 情况 非常 罕见 。) 

。 TIME WAIT: 完成 主动 天 闭 后 ，TCP 结 点 接收 到 了 FIN 报 文 。 这 表示 对 新 执行 了 一 
个 被 动 关闭 。 此 时 这 个 TCP 结 点 将 在 TIME WAIT 状态 中 等 待 一 段 固 定 的 时 间 ， 这 是 
为 了 确保 TCP 连接 能 够 可 靠 地 终止 , 同时 也 是 为 了 确保 任何 老 的 重复 报 文 在 重新 建立 
同样 的 连接 之 前 在 网 络 中 超时 消失 。( 我 们 将 在 61.6.7 万 中 详细 解释 TIME WAIT 状 
态 的 细 市 。〉 当 这 个 固定 的 时 间 段 超时 后 ， 连 接 就 关闭 了 ， 相 关 的 内 核资 源 都 得 到 释 
放 。 

e CLOSE WAIT: TCP 结 点 从 对 端 收 到 FIN 报 文 后 将 处 于 CLOSE. WAIT 状态 。 该 状态 以 
及 接 下 来 的 一 个 状态 都 同 应 用 程序 执行 的 被 动 天 闭 有 关 , 也 就 是 第 二 个 执行 关闭 操作 的 
应 用 。 

* LAST ACK: 应 用 程序 执行 被 动 和 关闭， 而 之 前 处 于 CLOSE WAIT 状态 的 TCP £i ei 
壕 一 个 FIN 报 文 给 对 问 ， 并 等 每 对 问 的 确认 。 当 收 到 对 端 友 来 的 确认 ACK 报 文 时 ， 
连接 关闭 ， 相 关 的 内 核资 源 都 会 得 到 释放 。 

除了 上 述 这 些 状 态 外 ，RFC 793 中 还 增加 了 一 个 虚拟 的 状态 CLOSED， 代 表 没 有 连接 时 

的 状态 〈“ 即 ， 没 有 内 核资 源 被 分 配 来 描述 一 个 TCP 连接 )。 


在 上 述 列 表 中 ， 我 们 对 TCP 各 个 状态 的 名 词 拼写 采用 的 是 Linux 内 核 源 码 中 的 写法 。 
这 同 RFC 793 中 的 拼写 稍 有 区 别 。 










































































图 61-4 展 示 了 TCP 协 议 的 状态 迁移 图 ,.( 这 张 图 基于 RFC 793 以 及 [Stevens et al., 2004] 
中 的 图 表 ,) 这 张 图 展示 了 一 个 TCP 节点 通过 啊 应 各 种 事件 从 一 种 状态 迁移 a 到 为 一 种 状态 。 
每 个 盘 头 表示 一 种 可 能 出 现 的 迁移 ， 并 以 触 友 这 个 迁移 的 相应 事件 做 了 标记 。 这 个 标记 要 
么 是 应 用 程序 做 执行 的 操作 《以 粗 体 表 示 )， 要 么 是 字符 串 recv， 表 示 从 对 端 接 收 到 一 个 
JR OC. 24 TCP 下 点 从 一 种 状态 迁移 到 另 一 种 状态 时 ， 可 能 会 发 送 报 文 到 对 问 和 节点， 这 种 现 
象 由 send 标记 来 标记 。 例 如 从 ESTABLISHED 到 FIN WAITI 状态 的 迁移 ， 箭 头 表示 触 友 
迁移 的 事件 是 本 地 应 用 程序 执行 closeO0 所 产生 , 在 迁移 过 程 中 ，TCP 节点 发 送 一 个 FIN 报 
IE FIJ X) i o 
在 图 61-4 F, 2x9 TCP B S8 S ITJXETSERTEU SEES XE. WARA n TCP 市 
RE e PE Ee E RCM Zr eS. CDL Bf SE o HU ER e Eb Ze.) XUSEERTCTP WU 
头 括 写 里 的 数学 ， 我 们 可 以 看 到 由 两 个 TOP 结 上 点 发 送 和 接收 的 报 文 彼此 之 间 互 为 倒影 镜像 。 
(在 ESTABLISHED 状态 之 后 ， 如 果 是 由 服务 器 执行 主动 关闭， 那么 服务 占 辣 TCP 市 点 和 客户 
Jw TCP 市 点 所 经 过 的 路 人 径 可 能 与 图 中 所 示 的 恰好 相反 。) 
图 61-4 并 没有 展示 出 TCP 状态 机 所 有 可 能 的 迁移 路 径 , 只 是 说 明了 那些 我 们 主要 感 兴 
趣 的 部 分 。 更 详细 的 TCP 状态 迁移 图 可 以 在 http://www.cl.cam.ac.uk/~pes20/Netsem/ 
poster.pdf 找到 。 
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— » 客户 端的 通常 路 径 黑体 : 本 地 应 用 的 行为 
接收 : 由 引发 迁移 的 对 等 端 发 来 的 分 段 





图 例 说 明 


一 一 一 全 服务 器 的 通常 路 径 发 送 :迁移 期 间 发 送 给 对 等 端的 分 段 


61-4: TCP 协议 状态 迁移 图 


61.6.4 TCP 连接 的 建立 


在 套 接 字 API 层 ， 两 个 流 陈 套 接 字 通 过 以 下 步 又 来 建立 连接 《〈 参 匈 图 56-1)。 
1. 服务 如 调用 listenO 在 人 套 接 子 上 执行 被 动 打 开 ， 然后 调用 acceptO PH 2E B 25-8 4E FE HPE 

















接 建立 完成 。 
2. 客户 端 调用 connect0 在 套 接 字 上 执行 主动 打开 ， 以 此 来 同 服务 器 冰 的 被 动 打开 僚 接 字 
之 间 建 立 连接 。 








TCP 协议 建立 连接 所 执行 的 步骤 请 参见 图 61-5。 这 几 个 步骤 通常 被 称 为 3 次 握手 ， 因 为 
在 两 个 TCP 结 点 间 有 3 个 报 文 需要 传递 。 步 又 如 下 。 

1. connectO Ji] H] S SU im TCP 结 点 发 送 一 个 SYN SOCIIS sia TCP 结 点 。 这 个 报 文 

将 告知 服务 器 有 关 客 户 痢 TCP 结 点 的 初始 序列 号 在 图 中 以 M 来 标记 )。 这 个 信息 是 
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必要 的 ， 因 为 序列 号 不 会 从 0 开始 ， 参 见 58.6.3 节 。 

2. IRI 389m; TCP 结 点 必须 确认 客户 端 发 送 来 的 TCP SYN RWL, 并 告知 客户 端 目 己 的 初始 
序列 号 〈 在 图 中 以 六 来 标记 )。( 需 要 两 个 序列 号 是 因为 流 式 套 接 字 是 双 回 的 。) 服务 器 
端 TCP 结 点 返回 一 个 同时 设 定 了 SYN 和 ACK 控制 位 的 报 文 ， 这 样 就 能 同时 执行 这 两 
种 操作 。( 我 们 说 ACK 承载 在 SYN E.) 

3. 2 im TCP 结 点 发 送 一 个 ACK 报 文 来 确认 服务 需 靖 TCP 结 点 的 SYN 报 文 。 














在 3 次 握手 中 ， 前 两 个 步骤 中 交换 的 SYN 报 文 可 能 会 包含 TCP 首部 中 的 options 字段 
信息 ， 这 是 用 来 确定 连接 的 多 个 相关 参数 的 。 请 参见 [Stevens et al., 2004]. [Stevens, 1994] 
以 及 [Wright & Stevens, 1995] 以 获取 更 多 细节 。 





图 61-5 中 尖 括 号 中 的 标记 《例如 <LISTEN> ) 表示 TCP 连接 中 任意 一 侧 的 状态 。 

SYN 标记 占据 了 序列 号 字段 中 的 工 个 学 节 ， 这 么 做 是 必要 的 ,因为 设 定 了 SYN 位 的 报 文 
可 能 还 会 包含 数据 学 市 ， 因 此 这 样 才 能 准确 确认 这 个 标记 。 这 就 是 为 什么 在 图 61-5 中 我 们 通 
过 ACK M-«1 报 文 来 确认 SYN M. 





客户 端 服务 器 
listen( ) «LISTEN» 


accept() 
connect( ) (阻塞 ) 


«SYN. SENT» 
- ( 阻塞 ) 


<«5YN_RECV> 


SYN N, ACK Mr+L _ 


«ESTABLISHED» (返回 ) 





( 返回) «ESTABLISHED» 


61-5: TCP 连接 建立 时 的 3 次 握手 


61.6.5 TCP 连接 的 终止 
关闭 一 个 TCP 连接 通常 会 以 如 下 几 种 方式 进行 。 
1. 在 一 个 TCP 连接 中 ， 其 中 一 端的 应 用 程序 执行 closeO 调 用 。 (通常 是 由 客户 端 发 起 ， 
但 这 并 不 是 必须 的 。) 我 们 说 这 个 应 用 程序 正在 执行 一 个 主动 天 闭 。 
2. 稍 后 ， 连 接 另 一 端的 应 用 程序 〈 服 务 器 ) 也 执行 一 个 close0 调 用 。 这 被 称 为 被 动 关 闭 。 
图 61-6 展示 了 TCP 协议 所 执行 的 相关 步骤 (这 里 ， 我 们 假设 是 由 客户 端 发 起 主动 关闭 )。 
步骤 如 下 。 
1. 客户 端 执 行 一 个 主动 关闭 ， 这 将 导致 客户 端 TCP 结 点 发 送 一 个 FIN 报 文 给 服务 占 。 
2. 在 接收 到 FIN 报 文 后 ， 服 务 器 端 TCP 结 点 发 出 ACK 报 文 作为 啊 应 。 之 后 在 服务 器 端 ， 
任何 对 read0 操 作 的 尝试 都 会 产生 文件 结尾 〈 即 返回 0)。 
3. 稍 后 ， 当 服务 器 关闭 目 己 这 端的 连接 时 ， 服 务 器 端 TCP 结 点 发 送 FIN 报 文 到 客户 端 。 
4. 客户 端 TCP 结 点 发 送 ACK 报 文 作为 响应 ， 以 此 来 确认 服务 器 端 发 来 的 FIN 报 文 。 
以 SYN 标记 为 例 ， 基 于 同样 的 理由 ，FIN 标记 也 会 占据 序列 号 字段 的 1 工 个 字 节 。 这 就 是 为 
什么 我 们 在 图 61-6 中 展示 对 FIN M 报 文 的 确认 时 ， 确 认 报 文 应 该 是 ACK M+. 
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客户 端 服务 器 
( 主动 关闭 ) ( 被 动 关闭 ) 


«ESTABLISHED? sESTABLISHED- 


«FIN WAIT1> — close() FI N M 
< LOSE WAIT 


<FIN_WAIT2> 


close() <LAST ACK> 
<TIME WAIT> 





«CLOSED 


61-6: TCP 连接 的 终止 


61.6.6 在 TCP 套 接 字 上 调用 shutdown() 

在 前 一 节 的 讨论 中 我 们 假设 完成 的 是 全 双 工 的 关闭 ， 那 就 是 说 ， 应 用 程序 通过 close) 
将 TCP 套 接 字 的 发 送 和 接收 通道 都 关闭 了 。 如 61.2 节 中 所 提 到 的 ， 我 们 可 以 使 用 shutdownO 来 只 
关闭 连接 的 其 中 一 个 通道 〈 半 双 工 的 关闭 )。 本 节 对 TCP EFE shutdown(O 操 作 的 一 些 细 节 
之 处 做 了 说 明 。 

在 61.6.5 市 中 我 们 谈 到 将 参数 how 指定 为 SHUT. WR 或 者 SHUT RDWR 时 将 开始 TCP 
连接 的 终止 步骤 〈 即 ， 主 动 关闭 )， 而 不 管 是 否 还 有 其 他 的 文件 描述 符 指 向 这 个 套 接 字 。 一 旦 
终止 步骤 开始 ， 本 地 TCP 结 点 将 迁移 a 到 FIN. WAITI 状态 ,然后 进入 FIN. WAIT2 状态 ， 同 时 对 
mu TCP 结 点 将 迁移 到 CLOSE WAIT 状态 ( 见 图 61-6)。 如 果 参 数 how 指定 为 SHUT_WR,， 那 
么 由 于 套 接 字 文件 描述 符 还 保持 合法 ， 而 且 连 接 的 读 端 仍然 是 打开 的 ， 因 此 对 端 可 以 继续 发 
送 数据 给 我 们 。 

SHUT RD 在 TCP 套 接 字 中 是 没有 实际 意义 的 操作 。 这 是 因为 大 多 数 TCP 协议 的 实现 中 都 
没有 为 SHUT RD 提供 所 期 望 的 行为 ， 而 且 SHUT RD 产生 的 效果 在 不 同 的 实现 中 各 有 不 同 。 
TE Linux 以 及 一 些 其 他 的 实现 中 ,在 执行 SHUT RD 操作 后 (在 剩余 的 数据 全 部 被 读 取 完 毕 后 )， 
read() 将 返回 文件 结尾 ， 这 是 我 们 对 SHUT RD 操作 所 期 望 的 行为 ， 见 61.2 和 的 描述 。 但 是 ， 
如 果 对 端 应 用 程序 稍 后 在 该 套 接 字 上 写 入 数据 时 ， 那 么 仍然 可 能 在 本 地 套 接 字 上 读 取 到 数据 。 

在 其 他 一 些 实现 中 (例如 BSD)，SHUT RD 确实 会 导致 后 续 的 read0 总 是 返回 0。 但 是 ， 
在 那些 实现 中 ， 如 果 对 如 继续 通过 write0 回 套 接 字 写 入 数据 ， 那 么 数据 通道 最 终 会 被 填 满 ， 
直到 对 端的 write) GEER) 被 阻塞 。( 在 UNIX 域 流 式 套 接 字 中 ， 如 果 在 本 地 套 接 字 上 执行 
SHUT RD 操作 后 仍然 继续 回 套 接 字 上 写 入 数据 ， 那 么 对 问 将 接收 到 SIGPIPE 信号 ， 且 伴随 
的 错误 但 为 EPIPE。) 

总 的 来 说 ， 对 于 可 移植 的 TCP 应 用 程序 来 说 ， 应 该 避免 使 用 SHUT_RD 操作 。 


61.6.7 TIME_WAIT 状态 


TCP 协议 中 的 TIME WAIT 状态 在 网 络 编程 中 常常 会 引起 理解 上 的 混乱 。 参 考 图 61-4， 我 
们 可 以 看 到 TCP 在 这 个 状态 下 正在 执行 一 个 主动 关闭 。TIME WAIT 状态 的 存在 主要 基于 两 
个 目的 。 

e 实现 可 徘 的 连接 终止 。 
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e 让 老 的 重复 的 报 文 段 在 网 络 中 过 期 失效 ， 这 样 在 建立 新 的 连接 时 将 不 再 接收 它们 。 

TIME WAIT 状态 区 别 于 其 他 状态 的 地 方 在 于 : 导致 从 该 状态 迁移 到 其 他 状态 (到 
CLOSED 状态 ) 的 事件 是 超时 。 这 个 超时 时 间 为 2 H MSL (2MSL)， 这 里 的 MSL ( 报 文 最 
大 生存 时 间 ) 是 TCP 报 文 在 网 络 中 的 最 大 生存 时 间 。 


IP 首部 中 有 一 个 8 位 的 生存 时 间 字 7 段 (TTL)， 如 果 在 报 文 从 源 主机 到 目的 主机 间 传 递 
时 ， 在 规定 的 跳 数 经 过 的 路 由 占 〉 内 报 文 没有 到 达 目 的 地 ， 那 么 该 字段 用 来 确 你 所 有 的 
IP 报 文 最 终 虱 会 被 于 齐 。MSL 是 IP 报 文 在 超过 TTL 限制 前 可 在 网 络 中 生存 的 最 大 估计 时 
间 。 由 于 TIL 只 有 8 位， 因此 允许 最 大 跳 数 为 255 Bb. E. IP 报 文 在 完成 整个 转发 过 程 
中 需要 的 跳 数 比 这 个 最 大 值 要 小 很 多 。 当 路 由 融 出 现 儿 种 特定 闫 型 的 卉 稼 《例如 ， 路 由 需 
配置 问题 ) 导致 报 文 在 网 络 中 循环 直到 超过 了 TIL 限制， 此 时 IP 报 文 就 会 遇 到 这 个 限制 。 












































BSD 的 套 接 字 实现 假设 MSL 为 30 秒 ， 而 Linux 遵循 了 BSD 规范 。 因 而 ，Linux 上 的 
TIME WAIT 状态 将 持续 60 秒 。 但 是 ，RFC 1122 建议 MSL 的 值 为 2 分 钟 ， 因 此 在 遵循 了 这 
个 建议 的 实现 中 ，TIME_WAIT 状态 将 持续 4 分钟。 

通过 观察 图 61-6， 现 在 我 们 可 以 理解 TIME WAIT 状态 的 第 一 个 目的 了 一 一 人 硼 你 能 可 靠 
地 终止 连接 。 在 这 个 图 中 ， 我 们 可 以 看 到 在 终止 TCP 连接 时 有 4 个 报 文 需要 交换 。 其 中 最 后 
一 个 ACK 报 文 是 从 执行 主动 关闭 的 一 方 友 往 执 行 被 动 天 闭 的 一 方 。 现 在 假设 这 个 ACK 在 网 
络 中 被 丢弃 了 ， 如 末 发 生 了 这 种 情况 ， 那 么 执行 TCP 被 动 关 闭 的 一 方 最 终 会 重 传 它 的 FIN 报 
文 。 让 执行 TCP 主动 关闭 的 一 方 保持 在 TIME WAIT 状态 一 段 时 间 ， 可 以 确保 它 在 这 种 情况 
下 可 以 重新 发 送 最 后 的 ACK 确认 报 文 。 如 果 执 行 主 动 关闭 的 一 方 已 经 不 存在 了 ， 那 么 |i 
于 它 不 再 持 有 关于 连接 的 任何 状态 信息 一 一 TCP 协 议 将 针对 对 端 重 发 的 FIN 发 送 一 个 RST( 重 
HO 给 执行 被 动 关闭 的 一 方 以 作为 响应 。 而 这 个 RST 会 被 解释 为 一 个 错误 。( 这 就 解释 了 为 何 
TIME WAIT 状态 的 持续 时 间 为 2 A MSL: 1 个 MSL 时 间 留 给 最 后 的 ACK 确认 报 文 到 达 对 
9m TCP 结 点 ， 男 一 个 MSL 时 间 留 给 必须 友 送 的 FIN 报 文 。) 


执行 被 动 天 闭 的 一 方 并 不 需要 一 个 功能 上 相当 于 TIME WAIT 的 状态 。 因 为 在 连接 终 
止 时 ， 被 动 关闭 的 一 方 是 作为 发 起 者 开始 进行 最 后 的 报 文 交换 。 在 发 送 了 FIN 报 文 后 ， 
这 个 TOP 结 点 将 等 竺 对 端 发 来 的 ACK 确认 ， 如 果 在 ACK 到 达 之 前 超时 了 就 重 传 FIN. 


要 理解 TIME WAIT 状态 的 第 二 个 目的 一 一 确保 老 的 重复 的 报 文 在 网 络 中 过 期 失效 
一 一 我 们 必须 记 住 TCP 协议 采用 的 重 传 算法 意味 看 可 能 会 生成 重复 的 报 文 ， 并 且 根 据 路 由 
的 选择 ， 这 些 重 复 的 报 文 可 能 会 在 连接 已 经 终止 后 才 到 达 。 假 设 我 们 在 两 个 套 接 字 地 址 之 间 
有 一 条 TOP 连接 ,比如 说 204.152.189.116 端口 21(FTP 服务 的 端口 ), 以 及 200.0.0.1 端口 50000. 
同时 假设 这 条 连接 已 经 关 财 了 ， 而 之 后 使 用 同样 的 IP 和 应 口 重新 建立 新 的 连接 。 这 可 以 看 做 
是 原来 连接 的 新 化 身 。 在 这 种 情况 下 ，TCP 必须 确保 上 一 次 连接 中 老 的 重复 报 文 不 会 在 新 的 
连接 中 被 当成 合法 数据 接收 。 当 有 TCP £i xb T TIME WAIT 状态 时 是 无 法 通过 该 结 点 创建 新 
的 连接 的 ， 这 样 孢 阻止 了 新 连接 的 建立 。 

在 网 络 论坛 中 第 会 看 到 的 一 个 问题 是 如 何 关 财 TIME WAIT 状态， 因为 当 重 新 局 动 的 服 
务 器 进程 尝试 将 套 接 字 绑 定 到 处 于 TIME WAIT 状态 的 地 址 上 时 ， 会 导致 出 现 EADDRINUSE 
的 错误 “地 址 已 使 用 思 。 尽 管 的 确 有 办 法 可 以 关闭 TIME WAIT 状态 (参见 [Stevens et al., 
2004])， 并 且 也 有 办 法 可 以 让 TCP 结 点 从 TIME WAIT 状态 中 过 早 地 终止 (参见 [Snader, 
2000])， 但 还 是 应 该 避免 这 么 做 。 因 为 这 么 做 会 阻碍 TIME_WAIT 状态 所 提供 的 可 靠 性 保证 。 
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在 61.10 节 中 ， 我 们 会 看 到 SO REUSEADDR BT Xe, XX 3e uT H]2KOBE Ao, 55 8 288 $1] 
的 EADDRINUSE 错误 ， 同 时 仍然 允许 TIME WAIT 状态 提供 其 可 靠 性 保证 。 








61.7 ”监视 套 接 字 : netstat 


netstat 程序 可 以 显示 系统 中 Internet M UNIX 域 套 接 字 的 状态 。 当 编写 套 接 字 应 用 程序 时 ， 
netstat 是 个 非常 有 用 的 调试 工具 。 大 多 数 UNIX 实现 都 会 提供 一 种 版 本 的 netstat， 尽 管 在 不 同 
的 实现 中 命令 行 参数 的 语法 有 些 差 别 。 

默认 情况 下 ， 当 执行 netstat 时 如 果 不 给 出 命令 行 选项 ， 那 么 它 会 同时 显示 出 UNIX 3X 
和 Internet 域 已 连接 的 套 接 字 信息 。 我 们 可 以 通过 一 些 命令 行 选 项 来 改变 所 显示 的 信息 。 其 中 
一 些 选项 如 表 61-1 所 示 。 

表 61-1: netstat 命令 的 选项 


































































































选 项 f 述 

-a 显示 所 有 套 接 学 的 信息 ， 包 括 监听 套 接 字 
-e 显示 出 扩展 信息 (包括 僚 接 学 属 主 的 用 户 ID ) 
26 连续 重新 显示 套 接 字 信息 《每 秒 刷新 显示 一 次 ) 
-] 只 显示 监听 套 接 学 的 信息 
-n 显示 卫 地 址 、 奖 口号 并 以 数字 形式 显示 出 用 户 名 称 
-p 显示 进程 ID 号 以 及 套 接 字 所 归属 的 程序 名 称 

--inet 显示 Internet 域 套 接 字 的 信息 

--tcp 显示 Internet H TCP CR) 套 接 字 的 信息 

--udp 显示 Internet 5 UDP (数据 报 〉 套 接 字 的 信息 

--unix 显示 UNIX RER FHA JIA 

这 里 有 个 简单 的 例子 ， 我 们 使 用 netstat 来 列 出 当前 系统 上 所 有 的 Internet 域 套 接 字 信息 ， 





下 和 面 是 输出 。 
$ netstat -a --inet 
Active Internet connections (servers and established) 
Proto Recv-Q Send-O Local Address Foreign Address State 


tcp 0 0 *:50000 TT LISTEN 

tcp 0 0 *:55000 "um LISTEN 

tcp 0 O localhost:smtp ^ *:* LISTEN 

tcp 0 0 localhost:32776 localhost:58000 TIME WAIT 
tcp 34767 0 localhost:55000 localhost:32773 ESTABLISHED 
tcp 0 115680 localhost:32773 localhost:55000 ESTABLISHED 
udp 0 0 localhost:61000 localhost:60000 ESTABLISHED 
udp 684 0 *:60000 Tm 





对 于 每 个 Internet 域 僚 接 字 ， 我 们 可 以 看 到 如 下 的 信息 。 

e Proto: 表示 食 接 凶 所 使 用 的 协议 一 一 例如 tep 或 udp。 

。 Recv-Q: SR EB PERMIT PEREA Bv: FI BEBUPI ES A. oT UDP ERT 
来 说 ， 该 字段 不 只 包含 数据 ， 还 包含 UDP Pris Hbro Pr IE e 

e Send-Q: XR ETCEARA D OTBEBSESAX- CB M Recv-Q 字段 一 样 ， 对 
于 UDP 套 接 字 ， 该 字段 还 包含 了 UDP 首部 和 其 他 元 数据 所 占 的 字 节 。 

* Local Address: 该 字段 表示 侠 接 字 绑 定 到 的 地 址 ， 以 主机 IP: D «HEX. SA 
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认 情 况 下 ， 主 机 地 址 和 端口 号 都 以 名 称 形 式 来 显示 ， 除 非 数 值 形式 无 法 解析 到 对 
应 的 主机 和 服务 名 称 。 地 址 中 主机 部 分 的 星 号 〈*) 表示 这 是 一 个 通 配 IP 地 址 。 
e Foreign Address: 这 是 对 闹 僚 接 凶 所 绑 定 的 地 址 。 和 字符 串 *:* 表 示 没 有 对 端 地 址 。 
e State: 表示 当前 套 接 字 所 处 的 状态 。 对 于 TCP 套 接 凶 来 说 ， 这 束 是 61.6.3 D rp DANI 
那些 状态 中 的 其 中 一 种 。 
要 获得 更 多 细 方 ， 请 参阅 netstat(8) 用 户 手 册页 。 
目录 /proc/net 中 有 多 个 专属 于 Linux 的 文件 , 这 些 文件 允许 程序 读 取 到 同 netstat 的 输出 类 
似 的 信息 。 这 些 文件 名 称 为 ttp、udp、tcp6、udp6 以 及 unix, ix XE UJ. CEDE 
2, WA proc(5) 用 户 手 册页 。 


















































61.8 使 用 tcpdump 来 监视 TCP 流量 


tcpdump 是 一 个 很 有 用 的 调试 工具 ， 可 以 让 超级 用 户 监 视 网 络 中 的 实时 流量 ， 实 时 生成 文 
本 信息 ， 这 些 文本 信息 所 表达 的 意思 类 似 于 61-3 的 图 示 。 尽 管 工 具 的 名 称 是 ttpdump， 但 实际 
上 它 可 以 用 来 显示 所 有 类 型 的 TCP/P 数据 包 流 量 ( 例 如 , TCP 报 文 、UDP 数据 报 以 及 ICMP 报 
文 )。 对 于 每 个 网 络 报 文 ，tcpdump 都 会 显示 出 像 时 间 戳 、 源 IP Hhh HAI IP 地 址 以 及 更 多 
协议 特有 的 细节 信息 。 可 以 根据 协议 类 型 、 源 和 目的 卫 地 址 、 端 口号 以 及 其 他 一 些 标准 来 选 
择 需 要 监视 的 数据 包 。 全 部 的 细 市 可 以 在 tepdump 的 用 户 手 册页 中 找到 。 


wireshark (之 前 叫做 ethereal, http://www.wireshark.org/) 程序 可 完成 同 tcpdump 类 似 
的 任务 ， 但 流量 信息 是 通过 图 形 界 面 来 显示 的 。 




















对 于 每 个 TCP 报 文 ，tcpdump 都 会 按照 如 下 方式 显示 。 





src > dst: flags data-seqno ack window urg «options» 


这 些 衬 段 的 含义 如 下 。 

e src: 表示 源 IP 地 址 和 端口 号 。 

e dst 表示 目的 卫 地 址 和 端口 号 。 

e flags: 该 字段 包含 的 内 容 为 零 个 或 多 个 下 列 字 符 的 组 合 , 每 个 字符 对 应 于 一 个 TCP 控制 
位 ，61.6.1 节 中 已 描述 过 , 它们 是 S (SYN), F (FIN), P (PSH), R (RST), E (ECE) 
以 及 C (CWR). 

e data-seqno: 该 字段 表示 这 个 数据 包 中 的 序列 号 范围 。 


默认 情况 下 ， 序 列 号 范围 的 显示 与 该 方向 上 所 监视 的 数据 流 的 第 一 个 字 世 相关 。 
tcpdump 的 -S 选项 可 以 让 序列 号 以 绝对 格式 显示 。 


e ack: 这 是 一 个 形式 为 “ack num” 的 字符 串 ， 表 示 连 接 的 另 一 应 所 期 望 的 下 一 个 字 节 
的 序列 号 。 

e window: 这 是 一 个 形式 为 “win num” 的 字符 串 ， 表 示 在 这 条 连接 相反 方 同 上 用 于 传 
输 的 接收 缓冲 区 的 空间 大 小 。 

e urg: 这 是 一 个 形式 为 “urg nuom” 的 字符 串 ， 表 示 报 文 段 在 指定 的 偏 移 上 包含 紧急 数据 。 

e options: 这 个 字符 串 摘 述 了 包含 在 该 报 文 段 中 的 任意 TCP 选项 。 

其 中 sre. dst 和 flags 字段 总 是 会 显示 。 其 他 剩余 的 字段 只 在 合适 的 时 候 才 会 显示 。 





















































1048 Linux/UNIX 系统 编程 手册 ( 下 册 ) 
异步 社区 会 员 flyman150(2410757683 (9 qq.com) EF 尊重 版 权 


FAH shell 会 话 展示 了 应 该 如 何 使 用 tepdump KEWA 9m OZI T ENL pukaki E) 和 
服务 器 (运行 在 主机 tekapo E) 之 间 的 流量 。 在 这 个 shell 会 话 中 ， 我 们 用 了 两 个 tepdump 的 选 
项 ， 使 得 输出 信息 变 得 更 为 简洁 。-t 选项 取消 了 时 间 惟 信息 的 显示 ，-N 选项 使 得 在 显示 主机 
名 时 去 控 了 域名 限定 。 此 外 ， 为 了 简洁 而 且 由 于 我 们 不 会 对 TCP 的 各 个 选项 做 细致 的 描述 ， 
我 们 从 tepdump 的 输出 中 去 挥 了 options 字段 。 

Hos ss LEF 55555 mHE, KERIK tepdump 命令 应 该 选择 那个 病 口 上 的 流量 。 输 
出 显示 了 在 建立 连接 时 所 交换 的 3 个 报 文 。 

$ tcpdump -t -N 'port 55555' 

IP pukaki.60391 » tekapo.55555: S 3412991013:3412991013(0) win 5840 


IP tekapo.55555 » pukaki.60391: S 1149562427:1149562427(0) ack 3412991014 win 5792 
IP pukaki.60391 » tekapo.55555: . ack 1 win 5840 


这 三 个 报 文 是 在 三 次 握手 时 交换 的 SYN、SYMNVACK 以 及 ACK (参见 图 61-5). 
在 接 下 来 的 输出 中 ， 客 户 端 发 送 给 服务 器 两 条 消息 ， 分 别 包含 有 16 和 32 字 节 。 而 服务 
器 每 次 都 啊 应 一 条 4 字 节 的 消息 。 


IP pukaki.60391 
IP tekapo.55555 





























» tekapo.55555: P 1:17(16) ack 1 win 5840 
» pukaki.60391: . ack 17 win 1448 

IP tekapo.55555 » pukaki.60391: P 1:5(4) ack 17 win 1448 
IP pukaki.60391 » tekapo.55555: . ack 5 win 5840 

IP pukaki.60391 » tekapo.55555: P 17:49(32) ack 5 win 5840 
IP tekapo.55555 » pukaki.60391: . ack 49 win 1448 

IP tekapo.55555 » pukaki.60391: P 5:9(4) ack 49 win 1448 
IP pukaki.60391 » tekapo.55555: . ack 9 win 5840 


对 于 每 个 数据 包 ， 我 们 都 可 以 看 到 ACEK TROCTETH CBS 77 I8] E 3S 

最 后 ， 我 们 看 看 在 连接 终止 时 所 交换 的 报 文 (前 先 由 客户 端 关闭 它 这 一 端的 连接 ， 然 后 
HEBREERA Im). 

IP pukaki.60391 > tekapo.55555: F 49:49(0) ack 9 win 5840 

IP tekapo.55555 > pukaki.60391: . ack 50 win 1448 


IP tekapo.55555 > pukaki.60391: F 9:9(0) ack 50 win 1448 
IP pukaki.60391 > tekapo.55555: . ack 10 win 5840 


ERRIN di eos Y EER EER RAIRE ILR 61-6). 














619 E FAIN 


EE TAM e UM SUE REREN. ERPF, RIERS KER TANA H 
介绍 了 其 中 几 个 选项 。 涵 再 大 多 数 标 准 套 接 季 选项 的 详细 讨论 可 以 在 [stevens et al., 2004] FR 
到 。 请 参阅 tcp(7)、udp(7)、ip(7)、socket(7) 以 及 unix(7) 的 用 户 手 册页 以 得 到 更 多 Linux EFF 
有 的 细 市 信息 。 

系统 调用 setsockoptO 和 getsockoptO 是 用 来 设 定 和 狄 取 套 接 字 选 项 的 。 
































#include «sys/socket.h» 


int getsockopt(int sockfd, int level, int optname, void *optval, 
socklen t *optlen); 

int setsockopt(int sockfd, int level, int optname, const void *optval, 
socklen t optlen); 


Both return 0 on success, or -1 on error 
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对 于 setsockoptO 4l getsockoptO 来 说 ， 参 数 sockfd REJE In] E Pz-E Ie ocTSIDATI o 

参数 level 指定 了 套 接 字 选项 所 适用 的 协议 一 一 比如 ， 卫 或 者 TCP。 对 于 本 书 中 我 们 描述 
的 大 多 数 套 接 字 选项 来 说 ，level 都 会 设 为 SOL SOCKET， 这 表示 选项 作用 于 套 接 字 API J. 

参数 optname 标识 了 我 们 希望 设 定 或 取出 的 套 接 学 选项 。 参 数 optval 是 一 个 指 问 绥 冲 区 的 指针 ， 
用 来 指定 或 者 返回 选项 的 值 。 根 据 选 项 的 不 同 ， 这 个 参数 可 以 是 一 个 指 问 整数 或 结构 体 的 指针 。 

参数 optlen 指定 了 由 optval 所 指 问 的 缓冲 区 空间 大 小 〈( 字 节 数 )。 对 于 setsockoptO2K i, 
这 个 参数 是 按 值 传递 的 。 (对 于 getsockopt0 来 说 ，optlen 是 一 个 保存 结果 值 的 参数 。 在 调用 之 
Bi, RATH optlen 初始 化 为 由 optval 所 指 问 的 绥 冲 区 空间 大 小 值 ， 调 用 返回 后 ， 访 参数 被 设 
为 实际 写 入 到 绥 冲 区 中 的 字 节 数 。 

61.11 节 中 已 经 详细 说 明了 由 acceptO 返 回 的 套 接 宇文 件 描述 符 从 监听 套 接 字 中 继承 了 可 
设 定 的 套 接 字 选 项 值 。 

套 接 字 选 项 与 打开 的 文件 描述 相关 联 (参见 图 5-2)。 这 表示 通过 dup0 或 forkO 调 用 复制 
而 来 的 文件 描述 符 副 本 同 原始 的 文件 摘 述 符 一 起 共享 套 接 字 选项 集合 。 

套 接 字 选 项 的 一 个 简单 例子 是 SO TYPE， 可 以 用 来 找 出 套 接 字 的 类 型 ， 比 如 : 


int optval; 
socklen t optlen; 


















































optlen = sizeof(optval); 

if (getsockopt(sfd, SOL SOCKET, SO TYPE, &optval, &optlen) == -1) 

errExit("getsockopt"); 

经 过 这 个 调用 之 后 ，optval gb tuom T E FKA HEW, SOCK STREAM 或 者 
SOCK DGRAM. 在 通过 exec0 继 承 了 套 接 字 文件 描述 符 的 程序 中 ， 比 如 由 inetd 所 调用 的 程 
序 ， 这 种 情况 下 该 调用 会 很 有 用 一 一 因为 程序 可 能 并 不 知道 它 继承 而 来 的 套 接 字 是 什么 类 型 。 

SO TYPE 是 只 读 父 接 衬 选项 的 一 个 例子 。 不 能 用 setsockopt(0 来 修改 套 接 字 关 型 。 




















61.10 SO REUSEADDR 套 接 字 选 项 


SO REUSEADDR 套 接 字 选 项 可 用 作 多 种 用 途 ( 见 [Stevens et al., 2004] 第 7 章 以 获得 更 多 
细节 )。 我 们 这 里 只 关注 一 种 最 和 常见 的 用 途 : 避免 当 TCP 服务 器 重启 时 ， 尝 试 将 套 接 字 绑 定 到 
当前 已 经 同 TCP 结 点 相关 联 的 端口 上 时 出 现 的 EADDRINUSE (地 址 已 使 用 ) 错误 。 这 个 问 
题 通常 会 在 下 面 两 种 情况 中 出 现 。 

e 之 前 连接 到 客户 端的 服务 器 要 么 通过 close0， 要 么 是 因为 朋 溃 〈 例 如 被 信号 杀 死 ) 而 
执行 了 一 个 主动 关闭 。 这 就 使 得 TCP 结 点 将 处 于 TIME WAIT 状态 , 直到 2 fii] MSL 
超时 过 期 为 止 。 

e 之 及， 服务 器 先 创建 一 个 子 进程 来 处 理 客 户 端的 连接 。 稍 后 ， 服 务 右 终止 ， 而 子 进程 继 
续 服 务 客户 端 ， 因 而 使 得 维护 的 TCP 结 点 使 用 了 服务 器 的 知名 六 口号 《well-known port. 

在 以 上 两 种 情况 中 ， 剩 下 的 TCP 结 点 无 法 接受 新 的 连接 。 尽 管 如 此 ， 针 对 这 两 种 情况 ， 默 
认 情 况 下 大 多 数 的 TCP 实现 会 阻止 新 的 监听 套 接 字 绑 定 到 服务 器 的 知名 端口 上 。 

EADDRINUSE 错误 在 客户 靖 上 不 禹 出现， 因为 它们 一 般 使 用 的 是 临时 冰 口 ， 这 些 临时 
m LIEBE TIME WAIT 状态 下 的 那些 端口 。 但 是 ， 如 果 客 户 端 绑 定 到 一 个 指定 
的 端口 上 ， 那 么 还 是 会 遇 到 这 个 错误 。 
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"HB SO REUSEADDR 套 接 字 选 项 的 操作 , 回 到 我 们 早先 针对 流 陈 套 接 字 〈 见 56.5 T) 
的 电话 类 比 上 会 很 有 帮助 。 残 像 打 电 话 一 样 〈 忽 略 电话 会 议 的 概念 )， 一 个 TCP 套 接 字 连接 通 
过 一 对 互联 的 结 扣 来 标识 。accept0 操 作 束 类 似 于 公司 内 部 忌 机 (服务 占 ”) 的 接线 员 。 当 有 
狐 有 的 电话 打 进 来 时 ， 接 线 员 将 它 转 接 到 公司 东 个 内 部 的 电话 上 “一 个 新 的 侠 接 字 ”)。 从 外 部 
来 看 是 没 法 找 出 那个 内 部 电话 的 。 当 多 个 外 部 打 来 的 电话 都 通过 总 机 来 处 理 时 ， 唯 一 可 以 区 
别 它们 的 方法 就 是 通过 外 部 电话 的 电话 号 码 和 总 机 号 码 的 组 合 。( 当 考虑 到 可 能 会 有 多 个 公司 
的 总 机 处 于 同一 个 电话 网 络 时 ， 总 机 号 码 也 是 必须 要 知道 的 。) 类 比 来 看 ， 每 次 当 我 们 在 监听 套 
接 字 上 接受 一 个 套 接 学 连接 时 都 会 创建 出 一 个 新 的 父 接 字 。 唯 一 可 区 分 它们 的 方法 是 通过 它 
们 所 连接 到 的 不 同 的 对 咒 套 接 字 。 

换 句 话说 ， 一 个 已 连接 的 TCP 套 接 字 是 由 一 个 4 元 组 ( 即 ，4 个 值 的 联合 ) 来 唯一 标识 
的 ， 形 式 如 下 。 

{ local-IP-address, local-port, foreign-IP-address, foreign-port } 

TCP 规范 有 要 求 每 个 这 样 的 4 元 组 都 是 唯一 的 , 也 束 古 说 只 有 一 个 对 应 的 连接 (“ 打 来 的 电话 ”) 
可 以 存在 。 问 题 是 大 多 数 实现 包括 Linux) 都 强制 施加 了 一 个 更 为 严格 的 约束 : 如 果 主 机 上 有 
任何 可 匹配 到 本 地 闹 口 的 TCP 连接 ， 则 本 地 奖 口 不 能 被 重用 〈 即 ， 对 bindO 的 调用 )。 正 如 本 市 开 
头 描 述 的 场景 ， 其 全 当 TCP 不 能 再 接受 狐 的 连接 时 这 条 规定 也 是 强制 执行 的 。 

局 用 SO REUSEADDR 僚 接 子 选 项 可 以 解放 这 个 限制 ,使 得 更 接近 TCP Bjmck. EAT 
况 下 该 选项 的 值 为 0, 表示 被 关闭 。 我们 可 以 在 绑 定 套 接 字 之 前 为 该 选项 设 定 一 个 非 零 值 来 启 
用 它 ， 见 程序 清单 61-4。 

在 本 市 开头 揪 述 的 两 种 情况 下 ， 尺 管 有 男 一 个 TO 结 点 绑 定 到 了 同一 个 端口 上 ， 我 们 也 
可 以 通过 设 定 SO_REUSEADDR 选项 允许 我 们 将 僚 接 子 绑 定 到 这 个 本 地 端口 上 。 大 多 数 TCP 
服务 器 都 应 该 开启 这 个 选项 。 在 程序 清单 59-6 和 程序 清单 59-9 中 我 们 已 经 看 过 一 些 使 用 这 个 
选项 的 例子 了 。 


程序 清单 61-4. 设 定 SO REUSEADDR FFIN 







































































int sockfd, optval; 


sockfd = socket(AF INET, SOCK STREAM, O); 
if (sockfd -- -1) 
errExit("socket"); 


optval - 1; 
if (setsockopt(sockfd, SOL SOCKET, SO REUSEADDR, 8&optval, 
sizeof(optval)) -- -1) 
errExit(" socket"); 


if (bind(sockfd, &addr, addrlen) -- -1) 
errExit("bind"); 

if (listen(sockfd, backlog) == -1) 
errExit(" listen"); 





61.11 在 accept() h Zo sie 0376151 
多 种 标记 和 设 定 都 可 以 同 打开 的 文件 描述 和 文件 描述 符 〔 见 5.4 节 ) 相关 联 起 来 。 此 外 ， 
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如 61.9 节 所 述 , 我 们 可 以 为 套 接 字 设 定 多 个 选项 。 如 果 将 这 些 标记 和 选项 设 定 在 监听 套 接 字 上 ， 
它们 会 通过 由 acceptO0 返 回 的 新 套 接 字 所 继承 吗 ? REPERI BIA. 

在 Linux 上 ， 如 下 这 些 属性 是 不 会 被 acceptO 返 回 的 新 的 文件 描述 符 所 继承 的 。 

e 同 打开 的 文件 描述 相关 的 状态 标记 一 一 即 ， 可 以 通过 fendR F SETFL ( 见 5.3 节 ) 

操作 所 修改 的 标记 。 这 些 标记 包括 O NONBLOCK 和 O_ASYNC。 

o 文件 描述 符 标记 一 一 可 以 通过 fcntO 的 FE SETFD 操作 来 修改 的 标记 。 唯 一 一 个 这 样 

的 标记 是 执行 中 关闭 (close-on-exec) 标记 (FD CLOEXEC, 27.4 Ti F8 f. 
e 与 信号 驱动 TO《〈 见 63.3 55 相关 联 的 文件 摘 述 符 属 性 ， 如 fcntO 的 E_ SETOWN (8 
EF ID) UK F SETSIG (生成 信号 ) 操作 。 

换 句 话说 ， 由 accept0 返 回 的 新 的 描述 符 继 承 了 大 部 分 套 接 字 选项 ， 这 些 选 项 可 以 通过 
setsockoptO2K ix E (JL 61.9 F). 

本 而 描述 的 一 些 细 而 在 SUSv3 中 并 没有 规定 ,有关 acceptO 返 回 的 新 的 连接 套 接 字 的 继承 
规则 在 不 同 的 UNIX 实现 中 也 有 上 所 区 别 。 最 需要 注意 的 是 ， 在 一 些 UNIX 实现 中 ， 如 果 打 开 
的 文件 状态 标记 如 O NONBLOCK 和 O ASYNC 设 定 在 了 监听 套 接 字 上 ,那么 它们 会 被 acceptO) 
返回 的 新 的 套 接 字 所 继承 。 为 了 满足 可 移植 性 ， 可 能 需要 显 式 地 在 accept0 返 回 的 新 套 接 字 上 
重新 设 定 这 些 属性 。 












































61.12 TCP vs.UDP 


鉴于 TCP 可 提供 可 靠 的 数据 传输 而 UDP 无 法 保证 这 一 点 ， 一 个 明显 的 问题 出 现 了 :“ 那 
为 何 还 要 用 UDP 呢 ?”” 这 个 问题 的 答案 在 [Stevens et al., 2004] 的 第 22 章 中 已 经 有 上 所 涉及 。 这 
里 ， 我 们 总 结 了 一 些 引导 我 们 选择 UDP 而 不 是 TCP 的 原因 。 

e UDP 服务 器 能 从 多 个 客户 问 接 收 数据 报 ( 并 可 以 问 它 们 发 送 回 复 )， 而 不 必 为 每 

个 客户 端 创 建 和 终止 连接 ( 即 , 使 用 UDP 传送 单条 消息 的 开销 比 使 用 TCP 要 小 )。 
e 对 于 简单 的 请 求 一 一 响应 式 通 信 ，UDP 的 速度 比 TCP 要 快 。 因 为 UDP 不 需要 建立 和 
终止 连接 。[Stevens, 1996] 附 录 A 中 记录 了 在 最 好 的 情况 下 使 用 TCP 需要 的 时 间 是 : 
2 * RTT + SPT 

在 这 个 公式 中 ，RTT 表示 往返 时 间 (发 送 一 个 请 求 并 接收 响应 所 需要 的 时 间 )， 而 SPT 表 
示 服 务 器 端 处 理 请 求 所 用 的 时 间 。( 在 广域网 中 ，SPT 的 值 可 能 会 比 RTT 小 ,) 对 于 UDP 来 说 ， 
最 好 情况 下 单个 请 求 啊 应 通信 所 用 的 时 间 为 : 

RTT + SPT 

k] TCP 相 比 少 了 一 个 RTT 时 间 。 由 于 主机 之 间 的 RTT 时 间 受 长 距离 〈 比 如 跨 洲 际 ) 或 
许多 中 间 路 由 器 的 影响 ， 这 个 数值 一 般 可 达到 数 个 十 分 之 一 秒 。 这 个 时 间 上 的 差距 使 得 UDP 
成 为 某 些 请 求 一 一 响应 式 通 信 中 更 有 吸引 力 的 方案 .DNS 就 是 一 个 应 用 UDP 的 绝 好 例子 一 一 
采用 UDP 使 得 域名 得 找 操作 只 需要 在 服务 器 间 双 癌 各 发 送 一 个 数据 报 就 可 以 了 。 

e UDP 套 接 字 上 可 以 进行 广播 和 组 播 处 理 。 广 播 允许 发 送 端 发 送 的 数据 报 能 在 接 入 到 

该 网 络 中 的 所 有 主机 的 相同 端口 上 接收 到 。 组 播 也 类 似 ， 只 是 组 播 只 允许 数据 报 发 
送 到 指定 的 一 组 主机 上 。 更 多 细节 请 参阅 [Stevens et al., 2004] 中 的 第 21 章 和 第 22 章 。 
o 某 些 特定 类 型 的 应 用 〈 例 如 ， 视 频 流 和 音频 流 ) 不 需要 TCP 提供 的 可 靠 性 也 能 工作 在 
可 接受 的 程度 内 。 换 句 话 说 ， 当 报 文 在 传输 过 程 中 丢 寞 ，TCP 答 试 重 传 所 造成 的 延 时 
可 能 是 无 法 接受 的 。( 在 视频 流 中 出 现 延 时 可 能 比 简单 的 丢 包 更 严重 。) 因而 ， 这 样 的 
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应 用 更 倾 癌 于 使 用 UDP, 并 在 应 用 程序 中 采用 特定 的 恢复 策略 来 应 对 偶尔 会 出 现 的 丢 
包 现 象 。 

使 用 UDP 但 又 需要 可 靠 性 保证 的 应 用 程序 必须 自行 实现 可 靠 性 保障 功能 。 通 常 ， 这 人 至少 
需要 序列 号 、 确 认 机 制 S、 丢 包 重 传 以 及 重复 报 文 检 测 。[Stevens et al., 2004] 中 给 出 了 一 个 实现 好 
的 例子 。 但 是 ， 如 果 还 需要 更 高 级 的 功能 如 流量 控制 和 拥塞 控制 的 话 ， 那 么 最 好 还 是 直接 使 
用 TCP。 在 UDP 之 上 实现 所 有 这 些 功能 是 非常 复杂 的 ， 允 算 趴 的 实现 得 很 好 ， 结 采 也 很 可 能 
达 不 到 TCP 的 性 能 。 























61.13 ”高 级 功能 


UNIX 和 Internet 域 套 接 字 还 有 许多 我 们 在 本 书 中 没有 详细 介绍 到 的 功能 。 我 们 在 本 节 中 对 
其 中 一 些 功能 做 了 总 络 。 要 获得 全 部 的 细节 ， 请 参阅 [Stevens et al., 2004]. 


61.13.1 人 带 外 数据 
说 ， 接 收 端 不 需要 读 取 字 节 流 中 所 有 的 中 间 数 据 束 能 获得 有 可 用 的 带 外 数据 的 通知 。 这 个 特 
性 在 许多 程序 中 都 有 用 到 ， 比 如 telnet、rlogin 以 及 ftp， 它 们 利用 该 特性 来 终止 之 前 传送 的 命 
令 。 带 外 数据 的 发 送 和 接收 需要 在 snd0 和 recv0 中 指定 MSG_OOB 标记 。 当 一 个 套 接 字 接 收 
到 带 外 数据 可 用 的 通知 时 ， 内 核 为 套 接 字 的 属 主 〈 通 常 是 使 用 该 套 接 字 的 进程 ) 生成 SIGURG 
信号 ， 如 同 fcntO 的 FE SETOWN 操作 一 样 。 

当 采 用 TCP ERF, 性 意 时 刻 最 多 只 有 中 字 节 数据 可 被 标记 为 带 处 数据。 如果 在 接收 
端 处 理 完 前 一 个 带 外 数据 字 节 之 前 ， 发 送 端 发 送 了 额外 的 带 外 数据 ， 那 么 之 前 对 带 外 数据 的 
通知 就 会 丢失 。 


TCP 将 带 外 数据 限制 为 一 个 字 节 ， 这 实际 上 是 在 套 接 字 API 的 通用 型 带 外 模型 和 采用 
TCP 紧急 模式 的 具体 实现 之 间 的 不 匹配 造成 的 。 我 们 在 61.6.1 节 中 介绍 TCP 报 文 的 格式 时 
束 接 触 到 了 TCP 的 紧急 模式 。TCP 通过 在 首部 中 设 定 URG 标志 位 来 表示 有 紧急 〈 带 外 ) 
数据 存在 ， 并 将 紧急 指针 字段 指 各 了 紧急 数据 。 但 是 ，TCP 本 身 没有 办 法 指明 紧急 数据 序 
列 的 长 度 ， 因 此 就 认为 紧急 数据 只 由 一 个 字 节 组 成 。 

更 多 关于 TCP 紧急 数据 的 信息 可 以 在 RFC 793 中 找到 。 


在 菜 些 UNIX 实现 中 ，UNIX 域 流 陈 套 接 字 是 文 持 市 外 数据 的 ， 而 Linux 不 文 持 。 

砚 而 次 是 不 提 得 使 用 融 儿 数据 的 ， 在 某 些 情况 下 它 可 能 是 不 可 靠 的 〈 参 见 [Gont & 
Yourtchenko, 2009])。 男 外 一 种 方法 是 维护 两 个 流 式 便 接 凶 用 作 通 信 。 其 中 一 个 用 来 做 普通 的 通 
信 ， 而 另 一 个 用 来 做 高 优先 级 通信 。 应 用 程序 可 以 采用 63 章 中 描述 过 的 其 中 一 种 技术 来 同时 监 
视 这 两 个 通道 。 这 种 方法 允许 让 多 个 字 节 的 优先 级 数据 得 到 传送 。 此 外 ， 这 种 技术 可 以 用 在 
任何 通信 域 的 流 式 套 接 字 中 〈 比 如 UNIX IXQETEZ TO. 


61.13.2 sendmsg() 和 recvmsg() 系 统 调 用 


sendmsg() 和 recvmsgO 是 套 接 字 VO 系统 调用 中 最 为 通用 的 两 种 。sendmsg() 系 统 调 用 能 做 到 
所 有 write()、send() 以 及 sendto0 能 做 到 的 事 ; recvmsgO 系 统 调用 能 做 到 所 有 read()、recvO 以 
及 recvfrom() 能 做 到 的 事 。 此 外 ， 这 两 个 系统 调用 还 有 如 下 功能 。 
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e [5] readvO fll writev() CJ, 5.7 45) —FE, RATE DATA HCZE £t VO Cscatter-gather I/O). 
当 我 们 通过 sendmsgOfEZibjsikREBer LAG CET OOXEBRIPPBGBTRE 
接 字 上 执行 writev0)， 融 生成 一 个 单独 的 数据 报 。 相 反 ，recvmsgO0《〈 以 及 readv0) 可 
用 来 在 数据 报 套 接 字 上 分 黎 输 入 ， 将 蛙 个 数据 报 分 敌 到 多 个 用 户 容 间 绥 冲 区 中 。 

e 我 们 可 以 传送 包含 特定 于 域 的 辅助 数据 (也 称 为 控制 信息 )。 辅 助 数据 可 以 通过 流 式 
和 数据 报 式 套 接 字 来 传递 。 我 们 会 在 下 和 面 介绍 一 些 有 关 辅 助 数据 的 例子 。 


Linux 2.6.33 版 新 增 了 一 个 系统 调用 reevmmsg). 该 系统 调用 类 似 于 recvmsgO, 但 允许 
在 单个 系统 调用 中 接收 多 个 数据 报 。 当 应 用 程序 需要 处 理 的 网 络 流量 很 高 时 ， 这 可 以 减 小 
应 用 程序 中 的 系统 调用 开销 。 在 未 来 的 内 核 版 本 中 很 有 可 能 会 增加 一 个 类 似 于 sendmmsgO 
这 样 的 系统 调用 。 



































61.13.3 传递 文件 摘 述 符 

通过 sendmsgO0 和 recvmsg(), 我 们 可 在 同一 台 主 机 上 通过 UNIX RER THES CFR 
符 的 辅助 数据 从 一 个 进程 传递 到 另 一 个 进程 上 。 以 这 种 方式 可 以 传递 任意 类 型 的 文件 描述 符 
一 一 比如 ， 从 open0 或 pipeO 返 回 得 到 的 文件 描述 符 。 一 个 同 父 接 字 更 相关 的 例子 是 : 主 服 务 
器 可 以 在 TCP 监听 套 接 字 上 接受 客户 端 连 接 ， 然 后 将 返回 的 文件 描述 符 传递 给 进程 池 中 的 其 
中 一 个 成 员 上 《上 克 60.4 方 )， 这 些 成 员 由 服务 占 的 子 进程 组 成 。 之 后 ， 子 进程 束 可 以 啊 应 客户 
端的 请 求 了 。 

虽然 这 种 技术 通常 称 为 传递 文件 描述 符 ， 但 实际 上 在 两 个 进程 间 传 递 的 是 对 同一 个 打开 
文件 描述 的 引用 ( 见 图 5-2)。 在 接收 进程 中 使 用 的 文件 描述 符号 一 般 和 发 送 进程 中 采用 的 文 
件 描述 符号 不 同 。 


随 本 书 发 布 的 源码 中 ， 子 目录 sockets 中 的 sem rights send.c 和 sem rights recv.c 文件 
中 给 出 了 传递 文件 描述 符 的 例子 。 









































61.13.4 ERBUR Eum LIS 

另 一 个 使 用 辅助 数据 的 例子 是 通过 UNIX 域 套 接 字 接收 发 送 端的 赁 证。 这 些 任 证 由 发 送 
问 进 程 的 用 户 ID、 组 ID 以 及 进程 D 组 成 。 发 送 应 可 能 会 将 自己 的 用 户 ID 和 组 ID 设置 为 相 
对 应 的 实际 用 户 IDP、 有 效用 户 ID 或 者 保存 设置 中。 这 样 使 得 接收 问 进 程 可 以 在 同一 台 主 机 
上 验证 发 送 问 。 要 获得 更 多 的 细节 ， 请 参阅 socket(7) 和 unix(7) 用 户 手 册页 。 

与 传递 文件 凭证 不 同 ,， 有关 发 送 端的 凭证 传递 并 没有 在 SUSv3 中 规定 。 除 了 Linux 之 外 ， 
一 些 现代 的 BSD 系统 中 实现 了 这 个 特性 (这 里 的 和 凭证 结构 体 中 包含 的 信息 比 Linux 上 的 多 )， 
但 是 很 少 有 其 他 的 UNIX 实现 市 有 这 个 特性 。 有 关 FreeBSD. 上 的 凭证 传递 的 细节 摘 述 可 在 
[Stevens et al., 2004] 中 找到 。 

在 Linux 上 ， 一 个 特权 级 进程 如 果 需 要 传递 的 凭证 的 话 , 可 以 将 用 户 ID、 组 ID 和 进程 ID 
分 别 伪造 成 CAP SETUID、CAP SETGID 和 CAP SYS ADMIN. 






































随 本 书 发 布 的 源码 中 ， 子 目录 sockets 中 的 sem cred send.c 和 sem cred recv.c 文件 中 
2518 I feXESEUERJPIT . 
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61.13.5 ”顺序 数据 包 套 接 字 
顺序 数据 包 套 接 字 (Sequenced-packet sockets) 结合 了 流 式 套 接 字 和 数据 报 套 接 字 的 








同 流 式 套 接 字 一 样 ， 顺 序数 据 包 套 接 学 也 是 面 癌 连接 的 。 建 立 连 接 的 方式 和 流 式 套 接 
学 一 样 ， 也 是 通过 bind()、listen()、acceptO 和 connectO 调 用 。 

e 辣 数 据 报 套 接 字 一 样 ， 顺 序数 据 包 套 接 字 也 是 保留 消息 边界 的 。 在 顺序 数据 包 套 接 宇 
上 调用 readO 只 会 返回 一 条 消 朋 (由 对 靖 写 入 )。 如 果 消 恩 比 调用 者 提供 的 缓冲 区 还 要 
长 ， 那 么 剩余 的 字 节 会 被 丢弃 。 

e 与 流 式 套 接 字 一 样 ， 而 不 同 于 数据 报 套 接 字 的 是 : 顺序 数据 包 套 接 字 之 间 的 通信 是 可 
靠 的 。 消 息 会 以 无 错误 、 投 顺序 、 不 重复 的 方式 传递 到 对 端 应 用 程序 上 ， 且 可 以 保证 
消息 会 到 达 对 端 〈 假 设 没 有 出 现 系统 或 应 用 程序 骨 溃 或 者 网 络 过 载 的 现象 )。 

顺序 数据 包 套 接 字 也 是 通过 socketO 调 用 来 创建 的 ， 需 要 将 参数 type 指定 为 SOCK 
SEQPACKET。 

在 历史 上 ，Linux 同 大 多 数 UNIX. 实现 一 样 ， 并 没有 在 UNIX 域 或 是 Internet 域 提 供 对 顺 
序数 据 包 套 接 字 的 文 持 。 但 是 ， 从 2.6.4 版 内 核 开 始 ，Linux 在 UNIX 域 套 接 字 上 文 持 了 
SOCK SEQPACKET. 

在 Internet HÈ E, UDP 和 TCP 协议 都 不 支持 SOCK SEQPACKET, 1H SCTP 协议 (将 在 
下 一 节 介 绍 ) 是 支持 的 。 

本 书 中 我 们 没有 给 出 一 个 使 用 顺序 数据 包 套 接 字 的 例子 。 但 是 ， 除 了 会 预 留 消息 边界 外 ， 
在 使 用 上 和 它 同 流 式 套 接 字 并 没有 什么 不 同 。 


61.13.6 SCTP 以 及 DCCP 传输 层 协议 


SCTP 和 DCCP 是 两 个 新 的 传输 层 协 议 ， 有 可 能 在 将 来 变 得 越 来 越 普 及 。 

流 控 制 传输 协议 (SCTP，http://www.sctp.org/) 和 梓 设 计 来 专门 文 持 电 话 信 号 ， 但 同时 也 共 
有 通用 的 用 途 。 同 TCP 一 样 ，SCTP 提供 了 可 徘 、 双 同 、 和 耐 辣 连 接 的 传输 。 与 TCP 不 同 的 是 ， 
SCTP 预 留 了 消息 边界 。SCTP 的 符 点 束 是 文 持 多 条 数据 流 ， 这 样 束 允 许多 个 多 辑 上 的 数据 流 
通过 一 条 单独 的 连接 来 传递 。 

AXR SCTP 的 描述 可 在 [Stewart & Xie, 2001]、[Stevens et al., 2004] 以 及 RFC 4960, 3257 和 
3286 上 找到 。 

自从 2.6 内 核 以 来 ，Linux 也 开始 支持 SCTP。 更 多 关于 该 特性 的 实现 信息 可 在 http:// 
Iksctp.sourceforge.net/ |- 1X FI]. 

前 面 的 章节 全 面 地 摘 述 了 套 接 字 API， 我 们 将 Internet RAET E TCP 等 同 起 来 。 
但 是 ，SCTP 提供 了 一 种 可 选 的 协议 来 实现 流 式 套 接 字 ， 上 只 要 按照 如 下 形式 创建 套 接 字 即 可 。 

socket(AF INET, SOCK STREAM, IPPROTO SCTP); 

从 2.6.44 版 内 核 开 始 ，Linux 文 持 了 一 种 新 的 数据 报 协 议 一 一 数据 报 拥 塞 控 制 协议 
CDCCP)。 同 TCP 一 样 ，DCCP 也 提供 拥 内 控制 能 力 〈 应 用 层 束 没 必要 实现 拥塞 控制 了 )， 
防止 由 于 数据 报 的 快速 传递 而 使 网 络 过 载 。( 我 们 在 58.6.3 PHR TCP 协议 时 解释 了 什 
么 是 拥塞 控制 。) 但 是 , 与 TCP 不同 的 是 (类似 于 UDP), DCOP 对 于 可 靠 性 或 按 序 传递 并 
不 做 任何 保证 ， 因 而 可 以 让 不 需要 用 到 这 些 特性 的 应 用 程序 避免 承担 所 经 历 的 延 时 。 关 
于 DCCP 的 信息 可 在 http:Wwww.read.cs.ucla.edu/dccp/ 和 RFC 4336 以 及 4340 中 找到 。 
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61.14 ”总结 


在 许多 情况 下 ， 当 在 流 式 套 接 字 上 执行 VO 操作 时 会 出 现 部 分 读 取 和 部 分 写 入 的 现象 。 我 
们 给 出 了 两 个 函数 readn0 以 及 writen0 的 实现 , 它们 可 用 来 确保 将 缕 冲 区 中 的 数据 完整 地 读 取 
或 写 入 。 

shutdown() 系 统 调 用 对 连接 终止 提供 了 更 加 精细 的 控制 。 通 过 调用 shutdown()， 无 论 
是 否 有 其 他 打开 的 文件 描述 符 指 问 套 接 学 ， 我们 都 可 以 强行 天 闭 双 问 通 信 流 的 其 中 一 并 或 
Vj tij o 

同 read0 和 write) —fFF, recevi sendO H Ho de Per. E341 IO 操作 ， 但 需要 提供 一 
个 额外 的 参数 flags， 访 参数 用 来 控制 特定 于 父 技 字 的 VO 功能 。 

系统 调用 sendfileO 人 允许 我 们 高 效 地 将 文件 内 容 拷贝 到 侠 接 字 上 。 获得 高 效 性 的 原因 在 
于 我 们 不 需要 将 文件 数据 在 用 户 内 存 空间 中 来 回 捞 贝 , 而 read0 和 writeO) 则 需要 这 人 么 处 理 。 

系统 调用 getsockname() 和 getpeername0) 可 以 分 别 获取 侠 接 凶 绑 定 的 本 地 地 址 以 及 连接 的 
Xm Bea HR. 

我 们 对 TCP 协议 的 一 些 操作 细节 做 了 讨论 , 包括 TCP 的 状态 、TCP 状态 迁移 图 以 及 TCP 
连接 的 建立 和 终止 。 作 为 讨论 的 一 部 分 ， 我 们 了 解 了 为 什么 TIME WAIT 状态 在 TCP 的 可 菲 
性 保证 中 占据 了 重要 的 部 分 。 尽 管 当 重 局 服务 器 时 ， 这 个 状态 可 以 导致 出 现 “ 地 址 已 经 使 用 ” 
的 错误 。 之 后 我 们 学 习 了 SO REUSEADDR 套 接 字 选 项 可 用 来 避免 出 现 这 个 错误 ， 同 时 让 
TIME WAIT 状态 达到 其 预期 的 目的 。 

netstat 和 tepdump 命令 是 用 来 监视 和 调试 使 用 套 接 字 的 应 用 程序 的 优秀 工具 。 

系统 调用 getsockoptD 和 setsockoptO 可 用 来 获取 和 修改 有 影响 套 接 字 操作 的 相关 选项 。 

在 Linux 上 ， 当 accept0 调 用 返回 一 个 新 创建 的 套 接 字 时 ， 它 并 不 会 继承 监听 套 接 学 上 的 
与 信号 驱动 VO 相关 的 打开 文件 状态 标记 、 文 件 描述 符 标 记 以 及 文件 描述 符 属 性 。 但 是 ， 可 以 
继承 已 设 定 的 套 接 字 选项 。 我 们 也 提 到 了 在 SUSv3 规范 中 ， 对 于 这 些 继承 规则 的 细节 并 没有 
做 说 明 ， 这 些 规则 在 不 同 的 实现 中 有 所 不 同 。 

尽管 UDP 没有 提供 TCP 那样 的 可 靠 性 保证 , 我们 也 了 解 到 了 对 于 某 些 应 用 程序 来 说 为 什 
4, UDP 是 更 加 合适 的 选择 。 

最 后 ， 我 们 列 出 了 一 些 套 接 凶 编程 中 的 高 级 特性 ， 本 书 并 没有 对 此 做 详细 的 描述 。 


更 多 信息 
请 参阅 59.15 节 中 列 出 的 更 多 信息 来 源 。 








































































































61.15 练习 


61-1. 假设 修改 了 程序 清单 61-2 Cis echo clc) 中 的 程序 ,使 得 程序 不 使 用 forkO 创 建 
两 个 子 进 程 并 行 处 理 ， 相 反 只 采用 一 个 进程 首先 将 标准 输入 拷贝 到 套 接 字 ， 然 
后 谈 取 服务 右 端 的 啊 应 。 运 行 这 个 客户 端 程序 时 可 能 会 出 现 什 么 问题 ?” (参考 
图 58-8.) 

61-2. 通过 socketpair() 来 实现 pipe). JH] shutdown RKM RIE EIKI E? 3 Ze FR. [81 HE] o 

61-3. 通过 readO0、write0 和 lseek0 来 实现 sendfileO 的 替代 品 。 














1056 Linux/UNIX 系统 编程 手册 ( 下 册 ) 
异步 社区 会 员 flyman150(2410757683 (9 qq.com) EF 尊重 版 权 


61-4. 


61-5. 


61-6. 














如 果 在 调用 bind0 之 前 先 在 TCP 套 接 字 上 调用 listen; 那么 内 核 会 为 套 接 学 分 配 一 
个 临时 站 口号 。 编 号 一 个 程序 ， 利 用 getsockname() 来 显示 这 个 结果 。 
编写 一 个 客户 端 和 服务 器 程序 , 使 得 客户 端 能 够 在 服务 器 所 在 的 主机 上 执行 任意 的 
shell 命令 。( 如 果 这 个 应 用 中 没有 实现 任何 安全 机 制 ， 你 应 该 人 确 你 运行 该 服务 器 的 
用 户 账户 不 会 被 恶意 用 户 利 用 并 造成 破坏 。) 客户 冰 应 该 接受 两 个 命令 行 参 数 : 

$ ./is shell cl server-host 'some-shell-command' 

在 连接 到 服务 器 之 后 , 客户 新 将 给 定 的 命令 发 运 到 服务 占 , 然后 通过 调用 shutdown() 
关闭 本 地 和 套 接 宇 的 写 端 ， 这 样 服务 器 会 检测 到 文件 结尾 。 服 务 器 应 该 在 单独 的 子 
进程 中 处 理 每 个 到 来 的 连接 〈 即 ， 采 用 并 发 型 设计 )。 对 于 每 个 到 来 的 连接 ， 服 
务 器 应 该 从 套 接 字 中 读 取 命令 (直到 检测 到 文件 结尾 )， 之 后 调用 一 个 shell 进程 
来 执行 命令 。 这 里 给 出 两 个 提示 。 

e 参见 27.7 市 中 对 SystemO 的 实现 ， 以 此 作为 如 何 执行 一 个 shell 命令 的 例子 。 

e 通过 调用 dup20， 将 套 接 字 复制 到 标准 输出 和 标准 错误 输出 上 ， 被 执行 的 命令 
会 自动 号 入 到 套 接 字 上 。 

61.13.1 市 中 提 到 还 有 一 种 其 他 的 方法 可 处 理 市 外 数据 。 可 以 在 客户 问 和 服务 器 之 
间 创 建 两 条 套 接 字 连接 : 一 条 连接 用 于 处 理 普 通 数据 , 男 一 条 用 于 处 理 优先 级 数据 。 
编写 客户 端 和 服务 器 程序 来 实现 这 个 框架 。 这 里 有 一 些 提 示 。 

e 服务 此 需 要 通过 某 些 方法 获知 哪 两 个 僚 接 学 是 属于 同一 个 客户 问 的 ,一 种 办 法 
AE VEZ Jt 9m 6 1] E — 1 d HR] Ms EE 3 O UTER 〈 即 ， 绑 定 到 端口 0 上 )。 
TEXAS p RIERA Im mO y GIL UH getsocknameO), £x imha 38 
w” IPERBEFPXEBORUM E RII AS UTERBCr b. JPAXÉ AREIS aware 
Erim L1 BJ TH A ZI a s LJ Em ST HC n] HI P EP] M UT Es 
在 相反 的 方向 上 建立 一 条 用 于 处 理 “ 优 先 级 ”数据 的 连接 。(〈 服 务 器 可 以 在 针 
对 普通 连接 的 accept0) 调 用 中 获取 到 客户 端的 IP 地 址 。) 

e 实现 一 些 安 全 保护 机 制 ， 防 止 恶意 进程 答 试 连接 到 客户 器 的 监听 套 接 字 上 。 要 做 
到 这 上 点， 客户 疹 可 以 通过 普通 和 僚 接 字 友 送 一 个 cookie( 即 ， 某 种 类 型 的 唯一 标识 
消息 ) 给 服务 器 。 之 后 服务 器 将 这 个 cookie 通过 优先 级 套 接 字 返回 给 客户 端 ， 以 
fii P mE. 

e J f NUSEEBDBLI ARV ZG ZR RC M eJ 3 838 80 HIC AS s» V rt e LE Hi 2S i m 
用 select0 或 者 poll() (在 63.2 DTP SO. 对 两 个 套 接 字 的 输入 实现 多 路 复 用 。 
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历史 上 ， 用户 接 入 一 个 UNIX 系统 都 是 通过 串 行 线 (RS-232 连接 ) 连接 到 一 个 终端 上 的 。 
Zim Eze: CCRT) 组 成 ， 能 够 显示 出 学 符 ， 而 且 在 某 些 情况 下 可 以 显示 出 基本 图 形 。 
一 般 来 说 ，CRT 能 提供 单 色 24 íT 80 列 的 显示 效果 。 按照 当 今 的 标准 ， 这 些 CRT 体积 很 小 且 曲 
贯 。 其 至 在 更 早 的 时 期 ， 终 问 有 时 候 还 是 便 找 贝 电 传 设备 。 串 行 线 也 可 以 用 来 连接 其 他 的 设 
备 ， 比 如 打印 机 和 用 来 在 计算 机 之 间 互 连 的 调制 解 调 嚣 。 



































在 早期 的 UNIX 系统 上 ， 连 接 到 系统 上 的 终 并 由 字符 型 设备 来 表示 ， 名 称 以 /dev/ttyn 
的 形式 给 出 。( 在 Linux 上 ，/dev/ttyn 设备 是 系统 上 的 虚拟 控制 台 。) 我 们 常会 看 到 tty( 源 
H teletype) 作为 终端 的 缩写 形 却 。 








尤其 是 在 UNIX 的 早期 时 代 ， 终 疹 设 备 并 没有 统一 的 标准 。 这 意味 寿 不同 的 字符 序列 需 
要 执行 类 似 移 动 光 标 到 一 行 的 开头， 或 者 移动 光标 到 屏幕 中 央 这 样 的 操作 。( 终 于 有 些 设备 商 
实现 了 这 样 的 转 义 序列 一 一 例如 ，Digitals 的 VT-100 成 为 了 事实 上 的 标准 ， 最 终 成 为 了 ANSI 
标准 。 但 是 ， 依 然 还 存在 看 各 种 各 样 的 终 问 类 型 。 ) 由 于 缺乏 统一 的 标准 ， 这 束 意 味 看 很 难 编 
写 可 移植 的 程序 来 利用 终 问 的 特性 。vi 编辑 器 是 早期 有 看 这 种 可 移植 性 需求 的 例子 。termcap 
和 terminfo 数据 库 (在 [Strang et al., 1988] 中 有 描述 ) 中 的 制 表 操作 应 该 如 何 针 对 多 种 类型 的 终 
曾 执 行 各 式 各 样 的 屏 徐 控制 操作 昵 ?curses Æ ([Strang, 1986]) 正 是 为 了 应 对 这 种 缺失 的 标准 

如 今 传统 型 终端 已 经 不 常见 了 。 现代 UNIX 系统 的 常用 接口 是 高 性 能 位 映射 图 形 显示 
器 上 的 X Window 窗口 管理 器 。( 老 式 的 终端 所 提供 的 功能 大 致 上 等 同 于 一 个 单独 的 终端 
窗口 xterm 终 冰 或 其 他 类似 的 产品 运行 在 X Window 系统 之 上 。 这 种 终端 的 用 户 
只 有 一 个 单独 的 面 问 系统 的 “窗口 ?， 这 一 事实 是 由 34.7 和 中 描述 的 开发 作业 控制 设施 所 
驱动 的 。〉 同样 的 ， 如 今 许 多 直接 连接 到 计算 机 上 的 设备 《例如 打印 机 ) 都 是 市 有 网 络 连 
接 的 智能 型 设备 。 

以 上 上 所 述 都 是 在 说 如 今 面 问 终 冰 设 备 的 编程 已 经 不 像 以 前 那么 频繁 了 。 因 此 ， 本 章 把 
重点 放 在 终端 编程 上 上， 尤其 是 与 软件 终 问 模拟 器 相关 的 方面 《例如 xterm 及 类 似 的 模拟 器 )。 
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62.1 整体 概览 


传统 型 终端 和 终端 模拟 堪 都 需要 同 终端 驱 动 程 序 相 关联 ， 由 张 动 程序 负责 处 理 设 备 上 的 
输入 和 输出 。( 如 果 是 终端 模拟 器 ， 这 里 的 设备 束 是 一 个 伪 终 端 。 我 们 在 第 64 ENA TAA 
Xm.) 终端 驱动 程序 可 以 由 本 革 中 介绍 的 函数 来 控制 其 多 个 方面 的 操作 。 

当 执 行 输入 时 ， 驱 动 程序 可 以 工作 在 以 下 两 种 模式 下 。 

e 规范 模式 : 在 这 种 模式 下 ， 终 端的 输入 是 按 行 来 处 理 的 ， 而 且 可 进行 行 编辑 操作 。 

一 行 都 由 换行 人 符 来 结束 ， 当 用 户 按 下 回 车 键 时 可 产生 换行 符 。 在 终端 上 执行 的 read() 
调用 只 会 在 一 行 输入 完成 之 后 才 会 返回 ， 且 最 多 只 会 返回 一 行 。( 如 果 read0 请 求 的 字 
节 数 少 于 当前 行 中 的 可 用 宇和 ， 那 么 剩 下 的 宇和 在 下 次 read0 调 用 时 可 用 。) 这 是 默认 
的 输入 模式 。 

o 非 规范 模式 : 终端 输入 不 会 被 装配 成 行 。 像 vi、more 和 less 这 样 的 程序 会 将 终端 置 于 

非 规范 模式 ， 这 样 不 需要 用 户 按 下 回 车 键 它 们 束 能 该 取 到 单个 的 字符 了 。 

终端 驱动 程序 也 能 对 一 系列 的 特殊 字符 做 解释 ， 比 如 中 断 学 符 (通常 为 Ctrl-C) 以 及 文件 
结尾 从 (通常 是 Ctrl-D)。 当 有 信号 为 前 台 进 程 组 产生 时 ， 又 或 者 是 程序 在 从 终端 恋 取 时 出 现 
某 种 类 型 的 得 入 条 件 ， 此 时 束 可 能 会 出 现 这 样 的 解释 操作 。 将 终端 置 于 非 规范 模式 下 的 程序 
通 第 也 会 葵 止 处 理 茶 些 或 者 所 有 这 些 特殊 字符 。 

终端 张 动 程 序 会 对 两 个 队列 做 操作 “〈 人 参见 图 62-1): 一 个 用 于 从 终端 设备 将 输入 字符 传送 到 该 
取 进 程 上 ， 男 一 个 用 于 将 输出 学 从 从 进程 传送 到 终 六 上 。 如 果 开 局 了 终 闹 回 显 功能 ， 那 么 终 问 驱 
动 程 序 会 自动 将 任意 的 输入 字符 插入 到 输出 队列 的 尾部 ， 这 样 输入 字符 也 会 成 为 终端 的 输出 。 


进程 
HiT I/O 


由 进程 读 取 的 字符 





































































由 进程 写 入 的 字符 


T £X HH JE AÀJTEP . 7 7N SC 1 


在 终端 输入 的 字符 在 终端 显示 的 字符 


62-1: 终端 设备 的 输入 和 输出 队列 
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E, sysconf( SC MAX INPUT) 和 sysconf SC_MAX_CANON) 都 会 返回 255。 但 是 ， 内 核 
实际 上 并 不 会 采用 这 些 限制 , 而 只 是 简单 地 在 输入 队列 上 加 上 了 4096 字 节 的 限制 。 相 对 的 ， 
输出 队列 上 也 有 一 个 这 样 的 限制 。 然 而 应 用 程序 不 需要 关心 这 些 限制 ， 这 是 因为 如 果 一 个 进 
程 产 生 输 出 的 速度 比 终端 驱动 程序 处 理 的 速度 还 要 快 的 话 ， 内 核 会 暂停 执行 写 进程 ， 直 到 
输出 队列 的 空间 再 次 可 用 为 止 。 

在 Linux 上 ， 我 们 通过 调用 ioctl(fd, FIONREAD, &cnt) 来 获取 终端 输入 队列 中 的 未 读 取 
"TUBAE, FRIT fd 指 问 的 就 是 终端 。 这 个 特性 在 SUSv3 中 并 没有 规定 。 























62.2. ”获取 和 修改 终端 属性 
函数 tcgetattr() 和 tcsetattr() 可 以 用 来 获取 和 修改 终 闹 的 属性 。 


#include «termios.h» 





int tcgetattr(int fd, struct termios *termios_p); 
int tcsetattr(int fd, int optional actions, const struct termios *(ermios p); 


Both return 0 on success, or -1 on error 
参数 fd éJ 29m RICETTE. CAR fd ARA. iiem PROLES. FERE 

的 错误 码 为 ENOTTY 。) 

参数 termios p 是 一 个 指 问 结构 体 termios 的 指针 ， 用 来 记录 终端 的 各 项 属性 。 


struct termios { 

















tcflag t c iflag; /* Input flags */ 

tcflag t c oflag; /* Output flags */ 

tcflag t c cflag; /* Control flags */ 

tcflag t c lflag; /* Local modes */ 

cc t c line; /* Line discipline (nonstandard)*/ 

cc t c cc[NCCS]; /* Terminal special characters */ 
speed t c ispeed; /* Input speed (nonstandard; unused) */ 
speed t c ospeed; /* Output speed (nonstandard; unused) */ 


}; 

结构 体 termios 中 的 前 4 个 字段 都 是 位 措 码 (数据 类 型 teflag t 是 合适 大 小 的 整数 类 型 )， 
包含 有 可 控制 终端 驱动 程序 各 方面 操作 的 标志 。 

e c iflag 包含 控 制 终 六 输入 的 标志 。 

e c oflag 包含 控制 终 剖 输出 的 标志 。 

e c cflag 包含 与 终 问 线 速 的 便 件 控制 相关 的 标志 。 

e c lflag 包含 控制 终 新 输入 的 用 户 界 和 面 的 标志 。 

所 有 在 上 述 凶 段 中 用 到 的 标志 都 列 在 表 62-2 n. 

c line 字段 指定 了 终端 的 行规 程 Cline discipline)。 为 了 达到 对 终端 模拟 器 编程 的 目的 ， 行 
规程 将 一 直 设 为 N_TTY， 也 丈 是 所 谓 的 新 规程 。 这 是 内 核 中 处 理 终 问 的 代码 中 的 一 个 组 件 ， 
实现 了 规范 模式 下 的 IO 处 理 。 行 规程 的 设 定 同 串口 编程 有 关 。 

数组 c cc 包含 看 终 闹 的 特殊 字符 (中 断 、 挂 起 每 )， 以 及 用 来 控制 非 规 范 模式 下 输入 操作 
的 相关 字段 。 数 据 类 型 ce t 是 无 符号 整 型 ， 适 合 于 保存 这 些 值 。 币 整数 NCCS 指定 了 数组 中 
的 元 素 个 数 。 我 们 在 62.4 中 会 对 终 关 特殊 字符 进行 描述 。 

c ispeed 和 c ospeed FRÆ Linux 上 没有 使 用 到 《〈 并 且 也 没有 在 SUSv3 中 规定 )。 我 们 将 
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在 62.7 市 中 讲解 Linux z Bap DA 24 n e EI o 


随 着 时 间 的 推移 ， 第 7 版 及 早期 的 BSD 终端 驱动 程序 (也 称 作 tty 驱动 ) 已 经 得 到 了 
发 展 ， 它 只 用 了 不 到 4 个 不 同 的 数据 结构 来 代表 同 termios 结构 体 相 同 的 信息 。System V 用 
一 个 单独 的 结构 体 termio 取代 了 这 种 巴 洛 元 式 的 组 织 方式 。 最 初 的 POSIX 委员 会 选 定 了 
System V 的 API 作为 标准 ， 在 这 个 过 程 中 将 其 改名 为 termios. 


当 通 过 tesetattr()2 EM 9m Jg tE, 参数 optional actions 用 来 确定 何 时 这 些 修改 将 生效 。 
该 参数 可 以 被 指定 为 下 列 值 中 的 一 种 。 














TCSANOW 
修改 立刻 得 到 生效 。 
TCSADRAIN 














当 所 有 当前 处 于 排队 中 的 输出 已 经 传送 到 终 曾 之 后 ， 修 改 得 到 生效 。 通 第 ， 该 标记 应 该 
在 修改 影响 终 咒 的 输出 时 才 会 指定 ， 这 样 我 们 整 不 会 影响 到 已 经 处 于 排队 中 、 但 还 没有 显 不 
出 来 的 输出 数据 。 


TCSAFLUSH 

该 标记 的 产生 的 效果 同 TCSADRAIN， 但 古 除 此 之 外 ， 当 标记 生效 时 那些 仍然 等 行 处 理 
的 输入 数据 都 会 被 于 弃 。 这 个 特性 很 用， 比如 ， 当 读 取 一 个 密码 时 ， 此 时 我 们 希望 关闭 终 
痛 回 显 功 能 ， 并 防止 用 尸 提前 输入 。 

通常 (也 是 推荐 做 法 ) 修改 终 剖 属性 的 方法 是 调用 tcgetattr0 来 获取 一 个 包含 有 当前 设 定 
的 termios 结构 体 ， 然 后 调用 tecsetattr0) 将 更 新 后 的 结构 体 传 回 给 驱动 程序 。( 这 种 方法 可 人 确保 
我 们 传递 给 tesetatr0 的 是 一 个 完全 初始 化 过 的 结构 体 ,) 例如 ， 我 们 可 以 采用 下 列 代码 将 终端 
的 回 显 功能 关闭 。 


struct termios tp; 























if (tcgetattr(STDIN FILENO, &tp) == -1) 
errExit("tcgetattr"); 

tp.c lflag &= "ECHO; 

if (tcsetattr(STDIN FILENO, TCSAFLUSH, &tp) -- -1) 
errExit("tcsetattr"); 


如 果 任 何 一 个 对 终端 属性 的 修改 请 求 可 以 执行 的 话 ， 函 数 tesetattr0 将 返回 成 功 ， 它 只 会 
在 没有 任何 修改 请 求 能 执行 时 才 会 返回 失败 。 这 意味 痢 当 我 们 修改 多 个 属性 时 ， 有 时 可 能 有 
必要 再 调 用 一 次 tcgetattr() 来 获取 新 的 终 咒 属性， 并 同 之 前 的 修改 请 求 做 对 比 。 


在 34.72 TP, RANEH TWR tesetattr0 由 后 侣 进程 组 中 的 一 个 进程 调用 的 话 ， 那 么 
终端 张 动 程序 会 通过 发 送 SIGTTOU 信号 来 暂停 这 个 进程 组 。 因 此， 如果 从 孤儿 进程 组 中 调 
用 的 话 ，tcsetattrO 会 失败 ， 伴 随 的 错误 码 为 EIO。 同 样 的 道理 也 适用 于 本 章 中 描述 的 多 个 其 
他 的 函数 ， 包 括 tcflushO、tcflowO、tcsendbreakO 以 及 tcdrain()。 

在 早期 的 UNIX 实现 中 , 终端 属性 是 通过 ioctl0 来 访问 的 。 和 本 章 描 述 的 其 他 几 个 函数 
—Rf. PR tcgetattr0 和 tcsetattr() 都 是 在 POSIX 中 创建 的 ， 个 设计 用 来 解决 由 于 在 ioctl0 中 
第 三 个 参数 没 法 做 类 型 检查 的 问题 。 在 Linux 上 ， 和 其 他 许多 UNIX 实现 一 样 ， 这 些 库 函 
TUE ioctl0 层 之 上 的 。 
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62.3 stty 命令 


stty 命令 是 以 命令 行 的 形式 来 模拟 函数 tcgetattr0 和 tcsetattr0 的 功能 ， 人 允许 我 们 在 shell 上 检视 
和 修改 终端 属性 。 当 我 们 监视 、 调 试 或 者 取消 程序 修改 的 终端 属性 时 ， 这 个 工具 非常 有 用 。 
我 们 可 以 采用 如 下 的 命令 检视 所 有 终端 的 当前 属性 (这 里 是 在 一 个 虚拟 控制 台 上 执行 的 )。 


$ stty -a 

speed 38400 baud; rows 25; columns 80; line = 0; 

intr = ^C; quit = ^V; erase = ^?; kill = ^U; eof = ^D; eol = «undef»; 

eol2 = «undef»; start = ^0; stop = ^S; susp = ^Z; rprnt = ^R; 

werase = ^W; lnext = ^V; flush = ^0; min = 1; time = 0; 

-parenb -parodd cs8 hupcl -cstopb cread -clocal -crtscts 

-ignbrk brkint -ignpar -parmrk -inpck -istrip -inlcr -igncr icrnl ixon -ixoff 
-iuclc -ixany imaxbel -iutf8 

opost -olcuc -ocrnl onlcr -onocr -onlret -ofill -ofdel nlo cro tabo bso vto ffo 
isig icanon iexten echo echoe echok -echonl -noflsh -xcase -tostop -echoprt 
echoctl echoke 


Ext th HS 741 o d T 2E] S CERERE), £m ES d ELK TN E EIU RU 
的 行规 程 (0 代表 N_TTY， 即 新 行规 程 )。 

接 下 来 的 3 行 显示 出 了 有 关 各 种 终 蜗 特殊 子 从 的 设 定 。^C 表示 Ctrl-C, UER. TIF 
串 <unde 仑 表示 相应 的 终端 特殊 字符 目前 没有 定义 min 和 time 的 值 与 非 规范 模式 下 的 输入 有 关 ， 
它们 将 在 62.6.2 17 P HR 

剩 下 的 几 行 显示 出 了 termios 结构 体 中 c_cflag, c_iflag, c oflag 以 及 c Iflag 字段 中 各 个 
标志 的 设 定 《〈 按 顺序 显示 )。 这 里 的 标志 名 前 珊 有 一 个 连 字 符 〈-) 的 表示 目前 被 茶 用 ， 人 否则 表 
示 当 前 已 设 定 。 

如 果 输 入 命令 时 不 加 任何 命令 行 参数 ， 那 么 stty 只 会 显示 出 线 速 、 行 规程 以 及 任何 其 他 
fid és Y YES ET] EAE e 

我 们 可 以 采用 如 下 的 命令 修改 有 关 终 端 特殊 字符 的 设 定 。 

$ stty intr ^L Make the interrupt character Control-L 

当 指 定 了 一 个 控制 字符 作为 最 后 的 命令 行 参 数 时 ， 我 们 能 够 以 多 种 方式 来 完成 。 

e 以 2 个 字符 为 序列 ，^ 跟 着 一 个 相关 的 字符 《如 上 所 示 )。 

e 以 8 进 制 或 16 进 制 数 来 表示 《〈014 或 0xC )。 

。 百 接 得 入 实际 的 字符 本 喘 。 

如 末 我 们 采用 最 后 那 种 选择 ， 且 竺 处 理 的 字符 在 shell 或 终端 驱动 程序 中 有 痢 特别 的 含义 ， 
那么 我 们 必须 在 其 之 前 加 上 文本 形式 的 next (literal next) 字符 〈 通 各 是 Ctrl-V )。 

$ stty intr Control-V Contro--L 

(尽管 基于 可 读 性 的 考虑 ， 上 述 例子 在 Control-V 和 Control-L 之 间 显 示 了 一 个 空格 。 实 际 
上 在 Control- V 和 上 所 期 望 的 字符 之 间 是 不 需要 键入 空格 符 的 。) 

尽 壳 不 币 见 ， 但 还 是 有 可 能 将 终 站 特殊 字符 定义 为 非 控 制 字符 。 

$ stty intr q Make the interrupt character q 

当然 了 ， 妆 我 们 这 么 做 时 束 无 法 以 正 第 的 方式 使 用 q 了 《〈 即 ， 产 生字 人 符 q)。 

要 修改 终端 标志 ， 例 如 TOSTOP 标志 ， 我 们 可 以 使 用 下 列 命令 。 


$ stty tostop Enable the TOSTOP flag 
$ stty -tostop Disable the TOSTOP flag 
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ARAFE DLE Y JS PETER E, P He h MIETAA EIA inah T n] UL Se 
ZH AS] RES s dEZROm dU ds. RATI EAE E HRS D SA iin a EA Je ROBTJT JH 23 — 
个 。 男 一 种 方法 是 ， 我 们 可 以 输入 下 列 学 符 序 列 ， 将 终端 标志 和 特殊 字符 还 原 到 一 个 合 
理 的 状态 。 

Control] stty sane Control] 

Control-J 字符 才 是 真正 的 换行 符 (十 进 制 ASCH 码 为 10)。 我 们 使 用 这 个 字符 是 因为 在 某 
些 模式 下 ， 终 端 驱 动 程序 可 能 不 再 将 Enter 键 (Tit) ASCH 码 为 13). 映射 为 一 个 换行 符 了 。 
我 们 站 先 输入 一 个 Control-J 是 为 了 确保 得 到 一 个 独行 ,前面 没有 任何 字符 。 假 如 终 问 回 显 功能 
LEE HI ME. UA A EB wei Mb i 












































Stty 命令 工作 于 终端 的 标准 输入 之 上 。 F《〈 关 于 权限 检 奏 ) 选项 ， 我 们 可 以 监视 并 设 
定 运 行 看 stty 命令 的 终端 属性 。 

$ su Need privilege to access another user's terminal 

Password: 

# stty -a -F /dev/tty3 Fetch attributes for terminal / dev/tty3 


Output omitted for brevity 

-F 选项 是 stty 命令 在 Linux 上 的 扩展 。 在 许多 其 他 的 UNIX 实现 中 ，stty 总 是 工作 在 终端 
的 标准 输入 上 ， 而 且 我 们 必须 使 用 下 和 面 这 种 形式 的 命令 (在 Linux 上 同样 适用 )。 

# stty -a < /dev/tty3 








62.4 终端 特殊 字符 


K 62-1 列 出 了 Linux 终 问 张 动 程 序 捷 能 识别 的 特殊 字符 。 前 两 列 显 示 了 字符 的 名 称 以 及 
对 应 在 c_cc 数组 中 用 作 下 标的 常量 值 。 (可 以 看 到 , 这些 第 量 只 是 简单 地 在 字符 名 前 加 上 了 V 
作为 前 级 。) CR 和 NL 字符 没有 对 应 的 cece 下 标 ， 因 为 这 些 字 符 的 值 不 能 改变 。 























表 62-1: 终端 特殊 字符 


* s Lem xx quas e 


ICANON, IGNCR. ICRNL, 





Ss (无 ) OPOST. OCRNL、ONOCR " 
DISCARD | VDISCARD 丢弃 输出 (未 实现 ) 
EOF VEOF 文件 结尾 ICANON e 
EOL VEOL 行 结尾 ICANON @ 
EOL2 VEOL2 另 一 种 行 结尾 ICANON, IEXTEN 
ERASE VERASE 探 除 字 符 ICANON o 
INTR VINTR "Hr (SIGINT) ISIG € 
KILL VKILL 探 除 一 ICANON @ 
LNEXT VLNEXT | 字面 化 d" ICANON, IEXTEN 
- (555 ICANON,INLCR, ECHONL, á 


OPOST. ONLCR. ONLRET 
QUIT VQUIT 退出 (SIGQUIT) ISIG e 
REPRINT | VREPRINT | 重新 打印 输入 行 ICANON, IEXTEN. ECHO 
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^Q 


VSTART 开始 输出 IXON. IXOFF 
VSTOP 停止 输出 IXON、 IXOFF 
VSUSP 暂停 (SIGTSTP) ISIG 


VWERASE 控 除 一 个 字 ICANON、 IEXTEN 








表格 中 默认 设 定 这 一 列 显示 了 特殊 字符 通常 的 默认 值 .除了 能 够 将 终端 特殊 字符 设 定 为 
指定 值 之 外 ， 还 可 以 通过 将 该 值 设 定 为 fhathconf( 得 ，PC_VDISABLE) 的 返回 值 来 关闭 该 字 
符 ， 这 里 的 fd 表示 指向 终端 的 文件 描述 符 。( 在 大 多 数 UNIX 实现 中 ， 该 调用 返回 0,) 

每 个 特殊 字符 的 操作 受 termios 结构 体位 掩 码 字段 中 的 各 种 标志 设 定 的 影响 〈 参 见 62.5 
节 )， 请 参见 表格 中 倒数 第 2 列 。 

表格 的 最 后 一 列表 示 这 些 特殊 字符 中 有 哪些 是 在 SUSv3 中 规定 的 。 无 论 SUSv3 是 怎么 规 
定 的 ， 大 部 分 这 些 字符 在 所 有 的 UNIX 实现 中 都 得 到 了 支持 。 

接 下 来 的 段落 为 这 些 终端 特殊 字符 提供 了 更 加 详细 的 解释 和 说 明 。 注 意 到 如 果 终 端 驱动 
程序 对 这 些 输入 字符 执行 了 特殊 的 解释 ， 那 么 除了 CR、EOL、EOL2 以 及 NL 之 外 ， 其 他 字 
符 都 会 被 丢弃 〈 即 ， 不 会 将 字符 传 给 任何 正在 读 取 输入 的 进程 )。 




















CR 








CR 是 回 车 从 。 这 个 字符 会 传递 给 正在 读 取 输入 的 进程 。 在 默认 设 定 了 ICRNL 标记 在 输 
入 中 将 CR 映射 为 NL〉 的 规范 模式 下 〔 设 定 ICANON 标志 )， 这 个 字符 首先 被 转换 为 一 个 换 
行 待人 ASCII 人 码 十 进 制 为 10，^)， 然 后 再 传递 给 读 取 输入 的 进程 。 如 来 设 定 了 IGNCR 忽略 
CR) 标志 ， 那 么 就 在 输入 上 忽略 这 个 字符 (此 时 必须 用 真正 的 换行 符 来 作为 一 行 的 结束 )。 输 
出 一 个 CR 子 符 将 导致 终 剖 将 光标 移动 到 一 行 的 开始 处 。 


DISCARD 





DISCARD 是 丢弃 输出 字符 。 尽管 这 个 字符 定义 在 了 数组 c_ce 中 , 但 实际 上 在 Linux. 上 没 
有 任何 效果 。 在 一 些 其 他 的 UNIX 实现 中 ， 一 旦 输入 这 个 字符 将 导致 程序 输出 被 丢弃 。 这 个 字 
符 就 像 一 个 开关 一 一 再 输入 一 次 将 重新 打开 输出 显示 。 当 程序 产生 大 量 输出 而 我 们 希望 略 过 
其 中 一 些 输出 时 这 个 功能 就 非常 有 用 。( 在 传统 的 终端 上 这 个 功能 更 加 有 用 ， 因 为 此 时 线 速 会 更 
加 缓慢 ， 而 且 也 不 存在 什么 其 他 的 “终端 窗口 % ) 这 个 字符 不 会 发 送 给 读 取 进程。 
EOF 

EOF 是 传统 模式 下 的 文件 结尾 字符 (通常 是 Ctrl-D)。 在 一 行 的 开始 处 输入 这 个 字符 会 
导致 在 终端 上 读 取 输 入 的 进程 检测 到 文件 结尾 的 情况 〈 即 ，read0 返 回 0)。 如 果 不 在 一 行 的 
开始 处 ， 而 在 其 他 地 方 输入 这 个 字符 ， 那 么 该 字符 会 立刻 导致 read0 完 成 调用 ， 返 回 这 一 行 
中 目前 为 止 读 取 到 的 字符 数 。 在 这 两 种 情况 下 ，EOF 字符 本 身 都 不 会 传递 给 读 取 的 进程 。 
EOL 以 及 EOL2 

EOL 和 EOL2 是 附加 的 行 分 隔 字符 ， 对 于 规范 模式 下 的 输入 ， 其 表现 就 如 同 换行 NL) f$ 
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一 样 ， 用 来 终止 一 行 输入 并 使 该 行 对 读 取 进程 可 见 。 默 认 情 况 下 ， 这 些 字 符 是 未 定义 的 。 如 栗 
定义 了 它们 ， 它 们 是 会 被 发 送 给 读 取 进程 的 。EOL2 字符 只 有 当 设 置 了 IEXTEN (扩展 输入 处 
理 ) 标志 时 默认 会 设置 ) 才能 工作 。 

用 到 这 些 字 得 的 机 会 很 少 。 一 种 应 用 是 在 telnet 中 。 通 过 将 EOL 或 EOL2 EN telnet 的 
换 人 码 符 ( 通 当 是 Ctrl-], 或 者 如 果 工 作 在 rlogin 模式 下 时 为 ~)，telnet BE v ZI SA BU ES US 
是 正在 规范 模式 下 读 取 输入 时 也 是 如 此 。 


ERASE 


在 规范 模式 下 ,输入 ERASE 字符 会 擦 除 当前 行 中 前 一 个 输入 的 字符 。 被 擦 除 的 字符 以 及 
ERASE 字符 本 身 都 不 会 传递 给 读 取 输入 的 进程 。 





INTR 

INTR 是 中 断 字 符 。 如 条 设置 了 ISIG Offi) bos GARA ABO. NX NES 
产生 一 个 中 断 信 号 〈SIGINT)， 并 发 送 给 终端 的 前 全 进程 组 〈 见 34.2 节 )。JINTR 字符 本 身 是 
不 会 发 送 给 读 取 输入 的 进程 的 。 





KILL 


KILL 是 欣 除 行 ( 也 称 为 kill line) 字符 。 在 规范 模式 下 ， 和 输入 这 个 字符 使 得 当前 这 行 输 入 
WEF 〈 即 ， 到 目前 为 止 输入 的 字符 连同 KILL 字符 本 身 ， 都 不 会 传递 给 读 取 输 入 的 进程 了 )。 








LNEXT 


LNEXT 是 下 一 个 字符 的 字面 化 表示 (literal next)。 在 某 些 情况 下 ， 我 们 可 能 希望 将 终端 
特殊 字符 的 其 中 一 个 看 作 是 一 个 普通 字符 ， 将 其 作为 输入 传递 给 读 取 进程 。 输 入 LNEXT 字符 
后 (通常 是 Ctrl-V) 使 得 下 一 个 字符 将 以 字面 形式 来 处 理 ， 避 人 免 终 端 驱 动 程序 执行 任何 针对 特 
丈 字 符 的 解释 处 理 。 因 而 ， 我 们 可 以 输入 Ctrl-y Ctrl-C 这 样 的 2 字符 序列 ， 提 供 一 个 真正 的 
Ctrl-C 字符 (CASCI WA 3) 作为 输入 传递 给 读 取 进程 。LNEXT 字符 本 身 并 不 会 传递 给 谈 取 
进程 。 这 个 字符 只 有 在 设 定 了 IEXTEN 标志 (默认 会 设置 ) 的 规范 模式 下 才 会 被 解释 。 























NL 

NL 是 换行 符 。 在 规范 模式 下 ， 该 字符 终结 一 行 输入 。NEL 了 学 符 本 里 是 会 包含 在 行 中 返回 给 读 
取 进 程 的 。( 规 范 模 式 下 ，CR 字符 通常 会 转换 为 NL。) 输出 一 个 NL 字符 导致 终端 将 光标 移动 
到 下 一 行 。 如 果 设 置 了 OPOST 和 ONLCR (将 NL 映射 为 CR-NL) 标志 (默认 会 设置 )， 那 么 
在 输出 中 ， 一 个 换行 符 束 会 映射 为 一 个 2 了 字符 序列 一 一 CR 加 上 NL。( 同 时 设 定 ICRNL 和 
ONLCR 标志 意味 看 一 个 输入 的 CR 字符 会 转换 为 NL， 然 后 回 显 为 CR 加 上 NL.) 























QUIT 
如 果 设 置 了 ISIG 标志 (默认 会 设置 )， 输 入 QUIT 字符 会 产生 一 个 退出 信号 〈SIGQUIT)， 并 
发 送 到 终端 的 前 台 进 程 组 中 C 34.2 节 )。QUIT 字符 本 身 并 不 会 传递 给 读 取 进程 。 











REPRINT 


REPRINT 字符 代表 重新 打印 输入 。 在 规范 模式 下 ， 如 果 设 置 了 IEXTEN 标志 《的 认 会 设 
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置 )， 输 入 该 字符 会 使 得 当前 的 输入 行 〈 还 没有 输入 完全 ) 重新 显示 在 终端 上 。 如 果 某 个 其 他 
的 程序 (例如 wall(1) 或 者 write(1)) 输出 已 经 使 终端 的 显示 变 得 混乱 不 堪 ， 那 么 此 时 这 个 功能 
WEAH T o REPRINT 字符 本 喘 是 不 会 传递 给 读 取 进程 的 。 














START 和 STOP 


START 和 STOP 分 别 代表 开始 输出 和 停止 输出 字符 。 当 设 定 了 XON 《局 动 开始 /停止 输 
出 控制 ) 标志 时 《默认 会 设 定 )， 这 两 个 字符 才能 工作 。(CSTART 和 STOP 字符 在 一 些 终端 模 
拟 器 中 不 会 生效 。) 

输入 STOP 字符 会 暂停 终端 输出 。STOP 字符 本 喘 不 会 传递 给 读 取 进程 。 如 果 设 定 了 
IXOFF 标志 ， 且 终端 的 输入 队列 已 满 ， 那 么 终端 驱动 程序 会 自动 发 送 一 个 STOP 字符 来 对 输 
入 进行 节 流 控制 。 

输入 START 字符 会 使 得 之 前 由 STOP 暂停 的 终端 输出 得 到 恢复 。 START 字符 本 映 不 会 传 
递 给 读 取 进程 。 如 果 设 定 了 IXOFF (启动 开始 /停止 输入 控制 ) 标志 (默认 是 不 会 设 定 的 ), H. 
终端 驱动 程序 之 前 由 于 输入 队列 已 满 已 经 发 送 过 了 一 个 STOP 字符 ， 那 么 一 旦 当 输 入 队列 中 又 
有 了 空间 ， 此 时 终端 驱动 程序 会 目 动 发 送 一 个 START 字符 以 恢复 输出 。 

如 果 设 定 了 IXANY 标志 ， 那 么 任何 字符 ， 不 仅仅 只 是 START， 都 可 以 按 顺序 输入 以 重 
启 输出 (同样 ， 这 个 字符 也 不 会 传递 给 读 取 进 程 )。 

START 和 STOP 字符 可 用 于 在 计算 机 和 终端 设备 间 实 现 双 问 的 软件 流 控 。 这 些 字 符 的 一 
种 功能 是 允许 用 户 停 止 和 启动 终端 的 输出 。 可 以 通过 设 定 IXON 标志 来 使 能 输出 流 控制 。 但 是 ， 
另 一 个 方向 上 的 流 控 〈 即 ， 从 设备 到 计算 机 的 输入 流 控 制 ， 通 过 设 定 IXOFF 标志 开局 ) 也 同 
样 重要 ， 比 如 当 终 端 设备 是 一 台 调 制 解 调 器 或 另 一 台 计 算 机 时 。 如 果 应 用 程序 处 理 输 入 的 速 
度 较 慢 ， 而 内 核 的 缓冲 区 很 快 束 被 填 满 时 ， 输 入 流 控制 可 确保 不 会 丢失 数据 。 

随 着 目前 越 来 越 普 遍 的 高 线 速 ， 软 件 流 控 已 经 被 硬件 流 控 (RTS/CTS) 所 取代 了 。 在 硬件 
流 控 中， 通过 串口 上 两 条 不 同 线 缆 上 发 送 的 信号 来 开局 或 关闭 数据 流 。(RTIS 代表 请 求 发 送 ， 
CTS 代表 清除 发 送 。) 












































SUSP 

SUSP 代表 暂停 字符 。 如 果 设 定 了 ISIG 标志 (默认 会 设 定 )， 输 入 这 个 字符 会 产生 终端 暂 
停 信 号 (SIGTSTP)， 并 发 送 给 终端 的 前 台 进 程 组 CUL 34.2 节 )。SUSP 字符 本 身 不 会 发 送 给 读 
取 进 程 。 











WERASE 

WERASE 是 擦 除 单词 字符 。 在 规范 模式 下 ， 设 定 了 IEXTEN 标志 (默认 会 设 定 ) 后 输入 
这 个 字符 会 控 除 前 一 个 单词 的 所 有 字符 。 一 个 单词 被 看 做 是 一 串 字 符 序 列 ， 可 包含 数字 和 下 
划 线 。( 在 某 些 UNIX 实现 中 ， 单 词 被 看 做 是 由 衬 格 分 隔 的 字符 序列 。) 
其 他 的 终端 特殊 字符 

其 他 的 UNIX 实现 还 提供 了 除 表 62-1 中 之 外 的 特殊 终端 字符 。 

BSD 中 还 提供 了 DSUSP 和 STATUS 字符 。DSUSP 字符 (通常 为 Ctrl-Y) 工作 的 方式 类 似 
JT SUSP 字符 ， 但 只 有 当 莹 试 读 取 该 字符 时 才 会 暂停 前 台 进 程 组 〈 即 ， 在 之 前 所 有 的 输入 都 被 
读 取 之 后 )。 在 几 个 非 源 自 BSD 的 UNIX 实现 中 同样 也 提供 了 DSUSP 字符 。 
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STATUS FIF GEEN Ctrl-T) 使 内 核 将 状态 信息 显示 在 终 问 上 (包括 前 台 进 程 的 状态 以 
及 它 所 消耗 的 CPU 时 间 )， 并 发 送 一 个 SIGINFO 信和 号 到 前 台 进 程 组 。 如 果 需 要 的 话 ， 进 程 可 
以 捕获 这 个 信号 并 显示 进一步 的 状态 信息 。(Linux 通过 神奇 的 SysRd 键 提供 了 类 似 的 功能 。 
细节 请 参见 内 核 源 文件 中 的 Documentation/sysrdq.txt。 ) 

System V 的 衍生 系统 提供 了 SWITCH 字符 。 这 个 字符 用 来 在 shell 层 下 切换 不 同 的 shell. 
shell 层 是 System V 作业 控制 的 前 身 。 














示例 程序 


程序 清单 62-1 展示 了 用 tcgetattr() 和 tcsetattr0 来 修改 终端 的 中 断 衬 符 。 该 程序 将 中 断 
字符 设 定 为 程序 命令 行 参数 中 指定 字符 的 数值 形式 ， 如 宋 没 有 提供 命令 行 参 数 就 天 闭 中 断 
e Ay 














程序 清单 62-1; 修改 终端 的 中 断 字 符 
tty/new intr.c 


include «termios.h» 
include «ctype.h» 
include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


struct termios tp; 
int intrChar; 


if (argc > 1 88 strcmp(argv[1], "--help") == 0) 
usageErr("Xs [intr-char]Wn", argv[0]); 


/* Determine new INTR setting from command line */ 


if (argc == 1) { /* Disable */ 

intrChar = fpathconf(STDIN FILENO, PC VDISABLE); 

if (intrChar -- -1) 

errExit("Couldn't determine VDISABLE"); 

) else if (isdigit((unsigned char) argv[1][0])) 1 

intrChar = strtoul(argv[1], NULL, 0); /* Allows hex, octal */ 
} else { /* Literal character */ 

intrChar - argv[1][0]; 


j 


/* Fetch current terminal settings, modify INTR character, and 
push changes back to the terminal driver */ 


if (tcgetattr(STDIN FILENO, 8tp) == -1) 
errExit("tcgetattr"); 

tp.c cc[VINTR] = intrChar; 

if (tcsetattr(STDIN FILENO, TCSAFLUSH, &tp) == -1) 
errExit("tcsetattr"); 


exit(EXIT SUCCESS); 


tty/new intr.c 


下 面 列 出 的 shell 会 话说 明了 该 程序 的 使 用 方法 。 我 们 将 中 断 字 符 设 为 Ctrl-L CASCII 44 
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为 12)， 然 后 通过 stty 命令 对 修改 做 验证 。 

$ ./new intr 12 

$ stty 

speed 38400 baud; line - 0; 

intr - ^L; 

之 后 我 们 启动 一 个 进程 ， 运 行 sleep(1)。 我 们 发 现 输入 Ctrl-C 已 经 不 会 产生 终止 进程 的 效 
果 了 ， 而 输入 Ctrl-L 才 会 终止 进程 。 

$ sleep 10 


^C Control-C has no effect; it is just echoed 
Type Control-L to terminate sleep 


现在 我 们 显示 出 shell 变量 $? 的 值 ， 该 值 会 给 出 上 一 条 命令 的 终止 状态 。 

$ echo $? 

130 

我 们 看 到 进程 终止 的 状态 为 130。 这 表示 该 进程 由 信号 130 — 128 = 2 来 杀 死 ， 而 信和 号 2 
IE% SIGINT. 

接 下 来 我 们 通过 该 程序 来 关闭 中 断 字 符 。 

$ ./new intr 

$ stty Verify the change 


speed 38400 baud; line - 0; 
intr - «undef»; 


现在 我 们 发 现 无 论 是 Ctrl-C 还 是 Ctrl-L 都 不 会 产生 SIGINT 信号 了 ,我 们 必须 使 用 Ctrl ok 2 
止 这 个 进程 。 














$ sleep 10 

^C^L Control-C and Control-L are simply echoed 
Type Control to generate SIGQUIT 

Quit 

$ stty sane Return terminal to a sane state 


62.5 fum EAS 

K 62-2 中 列 出 了 termios 结构 体 中 4 个 标记 子 段 所 控制 的 设置 。 REP PIA HAIR RC 
对 应 于 单个 比特 位 ， 除 了 那些 可 指定 掩 码 (mask) 的 值 。 这 些 值 会 跨越 多 个 比特 位 ， 可 能 
会 包 合 在 菏 个 范围 的 值 忆 中, 掩 码 在 括号 中 给 出 。 表格 中 标记 为 SUSv3 的 列表 示 该 标志 是 
fik SUSv3 中 规定 ， 而 标记 为 均 认 的 这 一 列 给 出 了 登录 虚拟 控制 台 时 的 献 认 设 置 。 


表 62-2: 终端 标志 














字段 /标志 
c iflag 
BRKINT 在 BREAK 状态 下 发 出 信号 中 断 CSIGINT) 
ICRNL 在 输入 中 将 CR 映射 为 NL 
IGNBRK 忽略 BREAK 状态 
IGNCR 在 输入 中 忽略 CR 
IGNPAR 忽略 有 奇偶 校 验 错 误 的 字符 


IMAXBEL | 终端 输入 队列 满 时 发 出 铃 响 (未 使 用 ) 
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字段 /标志 
INLCR 
INPCK 
ISTRIP 
IUTF8 


IUCLC 


IXANY 
IXOFF 
IXON 
PARMRK 
c oflag 
BSDLY 
CRDLY 
FFDLY 
NLDLY 
OCRNL 
OFDEL 
OFILL 
OLCUC 
ONLCR 
ONLRET 
ONOCR 
OPOST 
TABDLY 
VTDLY 

c cflag 
CBAUD 
CBAUDEX 
CIBAUD 
CLOCAL 
CMSPAR 
CREAD 
CRTSCTS 
CSIZE 
CSTOPB 
HUPCL 
PARENB 
PARODD 


在 输入 中 将 NL 映射 为 CR 

开局 输入 奇偶 校 验 检查 

从 输入 字符 中 去 挥 最 高 位 (bit 8) 

输入 为 UTF-8 编码 (从 Linux 2.6.4 开始 ) 











在 输入 中 将 大 写字 符 映 射 为 小 写字 符 〈 如 果 IEXTEN 也 同时 





设置 的 话 ) 

允许 用 任意 字符 来 重启 已 停止 的 输出 

局 动 开始 /停止 输入 流 探 

局 动 开始 /停止 输出 流 控 

标记 奇偶 校 验 错 误 《〈 带 有 两 个 前 缀 字 节 : 0377-00 

















退 格 延 时 掩 码 (BS0、BS1) 

CR 延 时 掩 码 (CR0、CR1、CR2、CR3) 

换 页 符 延 时 撼 码 (FF0、FF1) 

换行 延 时 掩 码 (NL0、NL1) 

在 输出 中 将 CR BUM 7g NL C19] ONOCRO 

用 DEL (0177) 作为 填充 符 ; 否则 用 NUL (0) 
采用 填充 符 作 为 延迟 《而 不 是 定时 延迟 ) 

在 输出 中 将 小 写字 符 映 射 为 大 与 字符 

在 输出 中 将 NL 映射 为 CR-NL 

假定 NL 执行 CR 的 功能 (移动 到 一 行 的 开始 处 ) 
如 果 已 经 在 一 行 的 开始 处 就 不 输出 CR 
执行 输出 后 续 处 理 

水 平 制 表 符 延 时 掩 码 (TAB0、TAB1、TAB2、TAB3 ) 
3 EB E REIR ERO VTO VT1) 

















波 特 率 〔 比 特 率 ) I (BO. B2400, B9600 等 ) 
扩展 波 特 率 (比特 率 ) 掩 码 (针对 速率 大 于 38400) 
输入 波 特 率 (比特 率 )， 如 果 同 输出 波 特 率 不 同 ( 未 使 用 ) 
忽略 调制 解 调 器 的 状态 行 〈 不 检查 载波 信和 号 ) 
使 用 奇偶 校 验 〈 标 记 / 空 格 ) 

允许 输入 被 接收 

启动 RTS/CTS (硬件) 流 控 

学 符 大 小 撼 码 (第 5 到 第 8 位: CS5、CS6、CS7、CS8) 
每 字符 使 用 2 个 停止 位 ， 否则 只 使 用 1 个 

在 上 次 关闭 时 挂 起 (丢弃 调制 解 调 器 连接 ) 

局 动 奇偶 校 验 

使 用 奇数 奇偶 校 验 ; 否则 使 用 偶数 育 偶 校 验 
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字段 /标志 Ls 

v3 

c Iflag 

ECHO 回 显 输入 字符 d 

ECHOCTL 以 可 视 方 式 回 显 控制 字符 《例如 ，^L ) 

ECHOE 以 可 视 方 式 回 显 ERASE 字符 e 

ECHOK 以 可 视 方 式 回 显 KILL 字符 @ 

ECHOKE 在 回 显 的 KILL 字符 后 不 输出 新 的 行 

ECHONL 回 显 NL《〈 在 规范 模式 下 )， 即 使 禁止 了 回 显 功能 @ 

ECHOPRT 问 后 删除 回 显 的 字符 《在 \ 和 /之 间 D 

FLUSHO 输出 被 刷新 (未 使 用 ) 

ICANON 规范 模式 一行 接 一 行 ) 输 入 @ 

IEXTEN 局 动 对 输入 字符 的 扩展 处 理 e 

ISIG 启动 信号 产生 字符 (NTR, QUIT. SUSP) e 

NOFLSH 禁止 在 INTR. QUIT 和 SUSP 上 进行 刷新 XH] e 

PENDIN 在 下 一 次 读 操 作 时 重新 显示 等 待 的 输入 《〈 未 实现 ) (关闭 ) 

TOSTOP 为 后 台 输 出 产生 SIGTTOU 信和 号 (I 34.7.1 43) 关闭 e 

XCASE 规范 大 /小 写 表 示 (RKI) CXBID 








许多 shell 都 提供 了 命令 行 编辑 功能 ，shell 本 身 可 以 控制 表 62-2 中 列 出 的 标志 。 这 表示 如 
果 我 们 试 着 用 stty(]) 来 检验 这 些 设置 的 话 ， 那 么 当 输入 shell 命令 时 这 些 修改 可 能 不 会 生效 。 
耕 要 绕 过 这 种 行为 ， 我们 必须 在 shell 中 禁止 命令 行 编辑 。 比 如 ， 在 局 动 bash 时 可 以 通过 指定 
命令 行 选项 --noediting 来 花 止 命令 行 编辑 功能 。 

X 62-2 中 列 出 的 一 些 标 志 在 老 式 的 终 问 上 只 提供 有 限 的 能 力 , 且 这 些 标记 在 现代 的 系统 上 使 
用 的 很 少 。 比 如 ，IUCLC、OLCUC 和 XCASE 标 意 上 只 能 用 在 仅 可 以 显示 大 与 字符 的 终 疹 上 。 在 许 
多 老式 的 UNIX 系统 上 ， 如 果 用 户 尝试 以 用 户 名 的 大 写 形式 来 登录 ，login 程序 会 假设 用 户 使 用 的 
下 是 这 样 的 终端 ， 并 且 会 设置 这 些 标志 。 之 后 给 出 的 输入 密码 提示 将 变 成 : 

\PASSWORD: 

WAF, PUB BILAN SERRA EUKSIEXaB. I EIERBIACSAE TE A EB If Jn. E 
反 和 斜 杠 \。 同样 的 , 对 于 输入 , 真正 的 大 写字 符 可 以 通过 加 上 一 个 反 和 斜 杠 前 级 来 指定 。 ECHOPRT 
标志 同样 也 是 设计 用 于 功能 有 限 的 终端 。 

各 式 各 样 的 延 时 掩 人 码 也 同样 有 者 历史 渊源 ， 能 够 允许 终端 和 打印 机 用 更 长 的 时 间 来 回 显 
字符 ， 比 如 回 车 和 换 页 符 。 相 关 的 标志 OFILL 和 OFDEL 指定 了 这 样 的 延 时 是 如 何 执行 的 。 
大 多 数 这 些 标志 在 Linux 上 都 未 使 用 。 有 一 个 例外 是 用 来 设 定 TABDLY 标志 的 TAB3 H, 
使 得 制 表 符 能 够 以 空格 输出 《最 多 8 个 空格 )。 

下 面 的 段 洛 将 对 termios 的 一 些 标志 做 详细 说 明 。 


BRKINT 
如 果 设 定 了 BRKINT， 日 没有 设 定 IGNBRK 标志 ， 那 么 当 出 现 BREAK 状态 时 会 发 送 
SIGINT 信号 到 前 从 进程 组 。 
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大 多 数 常 规 的 哑 终 端 都 提供 了 一 个 BREAK 键 。 按 下 这 个 键 并 不 会 产生 一 个 字符 ， 而 
是 产生 一 个 BREAK 状态 ， 此 时 在 一 段 给 定 的 时 间 内 会 有 一 系列 0 比特 发 送 给 终端 驱动 程 
序 ， 一 般 来 说 会 持续 0.25 或 0.5 秒 〈 即 ， 多 于 传送 一 个 字 节 所 需要 的 时 间 )。 (除非 已 经 设 
定 了 IGNBRK 标志 ,终端 驱动 程序 会 发 送 一 个 单独 的 全 0 字 节 到 读 取 进程 上 。) 在 许多 UNIX 
RAF, BREAK 状态 就 表现 为 一 个 发 送 给 远 闹 主机 的 信号 ， 用 来 将 线 速 ( 波 特 率 ) 调整 为 
适合 于 终端 的 数值 。 因 此 ， 用 户 会 按 住 BREAK 键 直到 屏幕 上 出 现 有 效 的 登录 提示 信息 ， 
表示 此 时 的 线 速 已 经 可 以 适用 于 终 疹 了。 

在 虚拟 控制 合 上 ， 我 们 可 以 通过 按 下 Ctrl-Break 来 产生 一 个 BREAK 状态 。 
































ECHO 

设置 了 ECHO 标志 将 开启 回 显 输 入 字符 的 功能 。 当 读 取 密码 时 ， 禁 止 回 显 是 很 有 用 的 。 在 
vi 的 命令 模式 下 回 显 也 是 被 禁止 的 , 此 时 由 键盘 产生 的 字符 被 解释 为 编辑 命令 而 不 是 文本 输入 。 
ECHO 标记 在 规范 和 非 规范 模式 下 都 是 有 效 的 。 
ECHOCTL 

如 果 设 置 了 ECHO 标志 ， 那 么 开启 ECHOCTL 标志 会 导致 除了 制 表 符 、 换 行 符 、START 和 
STOP 之 外 的 控制 字符 都 将 以 类 似 ^A〈Ctrl-A) 的 形式 回 显 出 来 。 如 果 关 闭 ECHOCTL 标志 ， 
控制 字符 将 不 再 回 显 。 























控制 学 符 是 指 那些 ASCII 码 值 小 于 32 FIF, BEL EFE DEL CASCII 码 十 进 制 为 127)。 
一 个 控制 字符 x, 在 回 显 时 以 ^ 紧 跟着 表达 式 (x^64) 的 结果 所 代表 的 字符 来 表示 。 除了 DEL 外 ， 
对 于 所 有 的 字符 ， 该 表达 式 中 异 或 操作 KOR C) 的 结果 就 是 在 代表 该 字符 的 ASCH 人 码 值 上 加 上 
64。 因 此 ，Ctrl-A CASCI 1) 将 回 显 为 ^A CA 的 ASCII 码 为 66)。 对 于 DEL 字符 ， 该 表达 式 的 
结果 为 从 127 PIRE 64， 得 到 的 值 为 63， 也 就 是 ?的 ASCI 人 码 ， 因 此 DEL 被 回 显 为 ^?。 








ECHOE 

在 规范 模式 下 ， 设 定 ECHOE 标志 使 得 ERASE 能 以 可 视 化 的 方式 执行 ， 将 退 格 -空格 - 退 
格 这 样 的 序列 输出 到 终端 上 。 如 果 关 闭 了 ECHOE 标志 , 那么 ERASE 字符 本 身 就 会 回 显 出 来 ( 例 
如 以 名 的 形式 )， 但 仍然 会 完成 删除 一 个 字符 的 功能 。 
ECHOK 和 ECHOKE 

ECHOK 和 ECHOKE 标志 控制 者 在 规范 模式 下 使 用 KILL 《〈 欣 除 行 ) 字符 时 的 可 视 化 显示 。 在 
默认 迟 况 下 同时 设置 两 个 标记 )， 一 行文 本 以 可 视 化 的 方式 擦 除 〈 参 见 ECHOE)。 如 朵 其 中 任 一 
标志 被 关闭， 那么 就 不 会 执行 可 视 化 的 探 除 (但 输入 行 仍 然 会 被 于 借 )， 而 KLL 字符 本 身 会 被 回 显 
出 来 “例如 以 AU 的 形式 )。 如 果 设 是 了 ECHOK 而 天 财 了 ECHOKE， 那 么 也 会 町 出 一 个 换行 符 。 
ICANON 

设 定 了 ICANON 标志 将 启动 规范 模式 输入 。 输 入 会 集中 成 行 ， 并 且 会 打开 对 特殊 字符 
EOF、EOL、EOL2、ERASE、LNEXT、KILL、REPRINT 以 及 WERASE 的 解释 处 理 〈( 但 需 
要 注意 下 面 描述 到 的 IEXTEN 标志 所 产生 的 效果 )。 
IEXTEN 

设 定 IEXTEN 标记 将 打开 对 输入 字符 的 扩展 处 理 功能 。 必 须 设 定 这 个 标志 〈 同 ICANON 一 
FE), 才能 正确 解释 EOL2、LNEXT、REPRINT 以 及 WERASE 这 样 的 特殊 字符 。 要 使 IUCLC 标 
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志和 生效， 也 必须 要 设 定 IBXTEN 标志 才 行 。SUSv3 中 只 是 说 到 IEXTEN 标志 可 以 打开 扩展 的 
功能 (由 实现 来 定义 )， 具 体 细 市 在 其 他 的 UNIX 实现 中 可 能 有 所 不 同 。 


IMAXBEL 

Linux 上 忽略 了 IMAXBEL 标志 的 设 定 。 在 登录 控制 台 上 ， 当 输入 队列 已 满 时 总 是 会 啊 起 
啊 铃 声 。 
IUTF8 

设 定 IUTF8 标志 将 打开 加 工 模 式 (cooked mode) (W 62.6.3 节 )， 以 此 当 执 行 行 编辑 时 能 
够 正确 地 处 理 UTF-8 输入 。 














NOFLSH 
默认 情况 下 ， 当 输入 INTR. QUIT 或 SUSP 字符 而 产生 信号 时 ， 任 何在 终端 输入 和 输出 
队列 中 未 处 理 完 的 数据 都 会 被 刷新 《丢弃 )。 设 定 NOFLSH 标志 后 将 关闭 这 种 刷新 行为 。 


OPOS 
设 定 OPOST 标记 后 将 打开 输出 的 后 续 处 理 功能 。 必 须 设 定 该 标记 才能 使 termios 结构 体 中 
c oflag 字段 中 的 标志 生效 。( 相 反 ， 关 闭 OPOST 标志 将 禁止 对 所 有 的 输出 做 后 续 处 理 。) 


PARENB, IGNPAR, INPCK, PARMRK 以 及 PARODD 

PARENB, IGNPAR, INPCK, PARMRK 以 及 PARODD 标志 同 奇偶 校 验 生成 和 检查 有 关 。 

PARENB 标志 可 为 输出 字符 打开 奇偶 校 验 位 ， 并 为 输入 字符 做 奇偶 校 验 检查 。 如 果 我 们 
只 希望 生成 输出 的 奇偶 校 验 ， 那 么 我 们 可 以 通过 关闭 INPCK 标志 来 禁止 对 输入 做 奇偶 校 验 检 
查 。 如 果 设 定 了 PARODD 标志 ， 那 么 在 输入 和 输出 上 都 会 采用 奇数 奇偶 校 验 ， 否 则 就 会 采用 
侦 数 奇偶 校 验 。 

剩 下 的 标志 规定 了 当 输 入 字符 出 现 奇 偶 校 验 错 误 时 应 该 如 何 处 理 。 如 果 设 定 了 IGNPAR 
标志 ， 那 么 字符 将 被 丢弃 〈 不 会 传递 给 读 取 进 程 )。 和 否则， 如 果 设 定 了 PARMRK fs. JA 
该 字符 会 传递 给 读 取 进程 ， 但 会 在 前 面 加 上 2 字 节 的 序列 0377 + 0。( 如 果 设 定 了 PARMRK 
标志 ， 但 关闭 了 ISTRIP 标志 ， 那 么 字符 0377 会 加 倍 成 0377 +0377.) 如 果 关 闭 PARMRK ËR 
志 , 但 设 定 了 INPCK 标志 , 那么 字符 被 丢弃 , 旦 不 会 传递 给 读 取 进程 任何 字 节 。 如 果 IGNPAR、 
PARMRK 或 INPCK 都 没有 设 定 ， 那 么 该 学 符 会 传递 给 读 取 进程 。 























M 














示例 程序 


程序 清单 62-2 展示 了 如 何 使 用 tcgetattr0 和 tesetattr()2K XH] ECHO 标记 , 从 而 使 得 输入 字 
符 不 会 被 回 显 。 下 面 是 我 们 运行 该 程序 时 会 看 到 的 结果 示例 。 


$ ./no echo 
Enter text: We type some text, which is not echoed, 
Read: Knock, knock, Neo. but was nevertheless read 


程序 清单 62-2: 关闭 终端 回 显 功能 








tty/no echo.c 


#include «termios.h» 
include "tlpi hdr.h" 


#define BUF SIZE 100 
int 
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main(int argc, char *argv[]) 


struct termios tp, save; 
char buf[BUF SIZE]; 


/* Retrieve current terminal settings, turn echoing off */ 


if (tcgetattr(STDIN FILENO, &tp) -- -1) 

errExit("tcgetattr"); 
save - tp; /* So we can restore settings later */ 
tp.c lflag &- "ECHO; /* ECHO off, other bits unchanged */ 
if (tcsetattr(STDIN FILENO, TCSAFLUSH, &tp) -- -1) 

errExit("tcsetattr"); 


/* Read some input and then display it back to the user */ 


printf("Enter text: "); 
fflush(stdout); 
if (fgets(buf, BUF SIZE, stdin) -- NULL) 
printf("Got end-of-file/error on fgets()Wn"); 
else 
printf("NnRead: Xs", buf); 


/* Restore original terminal settings */ 


if (tcsetattr(STDIN FILENO, TCSANOW, &save) == -1) 
errExit("tcsetattr"); 


exit(EXIT SUCCESS); 


tty/no echo.c 


62.6 Z£*umBJ VO 模式 


我 们 已 经 注意 到 终端 驱动 程序 能 够 以 规范 便 式 或 非 规范 模式 来 处 理 输 入， 这 取决 于 对 
ICANON 标志 的 设 定 。 现 在 我 们 对 这 两 种 模式 做 深入 描述 。 之 后 我 们 会 介绍 3 NAH M i 
模式 一 一 加 工 模式 、cbreak 模式 以 及 原始 模式 ， 这 些 模 式 在 第 7 代 UNIX 系统 中 都 存在 。 最 
后 我 们 将 为 您 展示 如 何在 现代 的 UNIX 系统 上 通过 将 termios 结构 体 中 的 字段 设 定 为 合适 的 值 
来 模拟 这 几 种 模式 的 功能 。 


62.6.1 规范 模式 


我 们 可 通过 设 定 ICANON 标志 来 打开 规范 模式 和 输入。 可 通过 如 下 儿 点 来 区 分 是 人 否 为 规范 模 
式 下 的 输入 。 
e 输入 被 装配 成 行 ， 通 过 如 下 几 种 行 结束 符 来 终结 : NL、EOL、EOL2 《如果 议定 了 
IEXTEN 标志 )、EOF 除 了 一 行 中 的 初始 位 置 ) 或 者 CR CMRI I T ICRNL 标志 )。 
除了 EOF 之 外 ， 其 他 的 行 结束 符 都 会 传递 给 读 取 的 进程 (作为 一 行 中 的 最 后 一 个 字 
符 )。 
o 打开 了 行 编辑 功能 , 这 样 可 以 修改 当前 行 中 的 输入 。 因 此 , 下 列 字 符 是 可 用 的 :ERASE、 
KILL。 如 果 设 定 了 IEXTEN 标志 的 话 ，WERASE 也 是 可 用 的 。 
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e URRE T IEXTEN 标志 ， 则 REPRINT 4I LNEXT 字符 也 都 是 可 用 的 。 

在 规范 模式 下 ， 当 存在 有 一 行 完 整 的 输入 时 ， 终 端 上 的 read0 调 用 才 会 返回 。( 如 果 请 求 
的 字 节 数 比 一 行 中 所 包含 的 字 节 小 ， 那 么 read0 只 会 获取 到 该 行 的 一 部 分 。 剩 余 的 字 节 只 有 在 
后 序 的 read0 调 用 中 取得 。) 如 果 read0 调 用 被 信号 处 理 例 程 中 断 , 且 该 信号 没有 系统 调用 重 局 ， 
此 时 read0 也 会 终止 执行 〈( 见 21.5 节 )。 











在 62.5 节 中 我 们 描述 了 NOFLSH 标志 , 我 们 注意 到 产生 信号 的 字符 同样 会 导致 终端 驱 
动 程序 刷新 终端 的 输入 队列 。 无 不 管 信号 是 否 被 捕获 或 者 是 被 应 用 程序 忽略 ， 刷 新 都 会 发 
生 。 我 们 可 以 通过 打开 NOFLSH 标志 来 防止 出 现 这 种 刷新 的 行为 。 








62.6.2” 非 规 沁 模式 

一 些 应 用 程序 (例如 vi 和 less) 在 用 户 没 有 提供 行 终止 符 时 也 需要 从 终端 中 读 取 字符 。 
非 规 范 模 式 正 是 用 于 这 个 目的 。 在 非 规范 模式 下 《关闭 CANON 标志 ) 不 会 处 理 特殊 的 输入 。 
特别 的 一 点 是 : 输入 不 再 装配 成 行 ， 相 有 反 会 立刻 对 应 用 程序 可 见 。 

在 什么 情况 下 一 个 非 规范 模式 下 的 read0 调 用 会 完成 ?我 们 可 以 指定 非 规 范 模 式 下 的 
read0 调 用 在 经 历 了 一 段 特定 的 时 间 后 ， 或 者 在 读 取 了 特定 数量 的 字 节 后 ， 又 或 者 是 两 者 兼 有 
的 情况 下 终止 执行 。termios 结构 体 中 的 c ec 数组 里 有 两 个 元 素 可 用 来 决定 这 种 行为 : TIME 
和 MIN. WA TIME (通过 常量 VTIME 来 索引 ) 以 十 分 之 一 秒 为 单位 来 指定 超时 时 间 。 元 素 
MIN (通过 VMIN 来 索引 ) 指定 了 被 该 取 字 节 数 的 最 小 值 。CMIN M TIME 的 设置 对 规范 模式 
下 的 终端 IO 不 产生 任何 影响 。) 

参数 MIN 和 TIME 的 精确 操作 和 交互 取决 于 它们 各 目 是 否 包 含有 非 零 值 。 下 和 面 介绍 了 4 
种 情况 。 注 意 ， 在 所 有 4 种 情况 中 ， 如 果 在 read0 调 用 过 程 中 已 经 读 取 了 足够 的 字 节 数 来 满足 
MIN 的 要 求 ， 那 么 read0O 会 立刻 返回 可 用 的 学 厄 数 和 所 请 求 的 学 市 数 中 较 小 的 那个 值 。 



























































MIN == 0, TIME == 0 (〈 轮 询 读 取 ) 


如 果 在 调用 过 程 中 有 数据 可 用 , 那么 read0 将 立刻 返回 可 用 的 字 节 数 和 所 请 求 的 字 节 数 中 
较 小 的 那个 值 。 如 果 没 有 数据 可 用 ，read0 将 立刻 返回 0。 

这 种 情况 可 服务 于 一 般 的 轮 询 请 求 ， 允 许 应 用 程序 以 非 阻 者 的 方式 检查 输入 是 否 存 在 。 这 
种 模式 有 些 类 似 于 为 终端 设 定 O_NONBLOCK 标志 ( 见 5.9 节 )。 但 是 ， 在 设 定 ONONBLOCK 
标志 后 ， 如 条 没有 数据 可 谈 ， 那 么 read0 会 返回 -1， 伴 随 的 错误 码 为 EAGAIN。 


MIN > 0, TIME = 0〈 阻 塞 式 读 取 ) 


这 种 情况 下 read0 会 阻塞 〈 有 可 能 永远 阻塞 下 去 )， 直 到 请 求 的 字 节 数 得 到 满足 或 者 读 取 
到 了 MIN 个 学 节 ， 此 时 束 返 回 这 两 者 中 较 小 的 那 一 个 。 

像 less 这 样 的 程序 一 般 会 将 MIN 设 为 1, 而 把 TIME 设 为 0。 这 使 得 程序 不 用 在 轮 询 中 忙 
等 从 而 浪费 CPU 时 间 ， 只 要 用 户 按 下 单个 按键 read) s Bes n] f. 

如 果 将 一 个 终端 置 于 非 规 范 模 式 ， 且 将 MIN XJ 1, TIME 设 为 0， 那么 可 以 采用 63 $ 
中 描述 的 技术 来 检查 用 户 是 否 已 经 在 终端 上 输入 了 一 个 字符 (而 不 是 一 整 行 )。 









































MIN == 0, TIME > 0〈 带 有 超时 机 制 的 读 操作 ) 
这 种 情况 下 当 调 用 read0 时 会 局 动 一 个 定时 器 。 当 人 至少 有 1 字 节 可 用 ,或 者 当 经 历 了 TIME 
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个 十 分 之 一 秒 后 ，read0 会 立刻 返回 。 在 后 一 种 情况 下 read0 将 返回 0. 
这 种 情况 对 同 串 行 设备 (比如 调制 解 调 器 〉 打 交道 的 程序 来 说 很 有 和 用。 程序 可 以 发 送 数 
气 给 设备 然后 等 待 啊 应 。 假 如 设备 没有 啊 应 ， 采 用 超时 机 制 殉 能 避免 程序 永远 挂 起 。 











MIN > 0，TIME > 0 〈 既 有 超时 机 制 又 有 最 小 读 取 字 节 数 的 要 求 ) 


当 输 入 的 首 个 字 节 可 用 后 ， 之 后 每 接收 到 一 个 字 节 就 重启 定时 器 。 如 果 满 足 读 取 到 了 MIN 个 
字 节 ， 或 者 请 求 的 字 节 数 已 经 读 取 完 毕 ， 此 时 read0 会 返回 两 者 间 较 小 的 那个 值 。 或 者 当 接 收 连 
续 字 节 之 间 的 时 隙 超过 了 TIME 个 十 分 之 一 秒 ， 此 时 read0 会 返回 0。 由 于 定时 器 只 会 在 初始 字 闻 
可 用 后 才 启 动 ， 因 此 人 至少 可 以 返回 1 字 节 。( 这 种 情况 下 read0 可 能 会 永远 阻塞 下 去 。) 

这 种 情况 对 手 处 理 生 成 转 义 序列 的 终 冰 按 键 二 分 有 有 用， 比如， 在 许多 终端 上 ， 左 箭头 键 产生 的 
3 字符 序列 由 退 格 再 加 上 OD 组 成 。 这 些 字符 被 连续 快速 地 传输 。 应 用 程序 在 处 理 这 样 的 字符 序列 
时 需要 区 分 到 底 是 用 户 按 下 了 一 个 这 样 的 按键 还 是 自己 慢 慢 地 单独 输入 了 这 3 个 字符 呢 ?” 这 可 以 
通过 执行 一 次 带 有 短 超 时 的 read0 调 用 来 解决 ， 比 方 说 将 超时 时 间 定 为 0.2 秒 。 有 一 些 版 本 的 vi 
采用 这 种 技术 用 在 了 它 的 命令 模式 上 。 (根据 超时 时 间 的 长 短 ， 在 这 种 应 用 中 ， 我 们 可 能 需要 通过 
快速 输入 前 面 提 到 的 那个 3 字符 序列 来 模拟 出 投下 左 箭头 的 情况 。) 


以 可 移植 的 方式 修改 并 恢复 MIN 和 TIME 


历史 上 , 某 些 UNIX 的 实现 是 互相 兼容 的 。SUSv3 中 允许 VMIN 和 VTIME 的 值 可 以 分 别 
等 同村 VEOF 和 VEOL, 22 9L i t termios 结构 体 中 c cc 数组 里 的 这 些 元 素 可 能 会 产生 冲突 。 
(在 Linux 上 ， 这 些 常 量 的 值 是 各 不 相同 的 。) 这 种 冲突 是 可 能 产生 的 ， 因 为 YEOF 和 VEOL 在 非 
规范 模式 下 是 不 使 用 的 。VMIN 和 VEOF 可 能 有 痢 相 同 的 值 ， 这 一 事实 意味 痢 进 入 非 规范 模 
式 后 程序 需要 特别 谨慎 ， 设 置 了 MIN 的 值 (通常 为 1) 之 后 再 返回 到 规 苑 模式 下 。 此 时 ，EOF 
束 不 再 是 其 之 前 的 值 4 了 【Ctrl-D)。 有 一 种 可 移植 的 方法 能 够 解决 这 个 问题 ， 可 以 在 切换 到 
非 规范 模式 之 前 先 保存 一 份 termios 设置 的 副本 ， 然 后 使 用 这 个 保存 的 副本 返回 到 规范 模式 下 。 


62.6.8 加工 模式 、cbreak 模式 以 及 原始 模式 

第 7 版 UNIX 操作 系统 (以 及 早期 的 BSD 系统 ) 中 的 终端 驱动 程序 能 够 以 3 种 方式 处 理 
输入 ， 分 别 是 : 加 工 模 式 (cooked mode), cbreak 模式 和 原始 模式 。 这 3 种 模式 之 间 的 区 别 总 
结 如 表 62-3 所 示 。 

表 62-3: 加 工 模式 、cbreak 模式 和 原始 模式 之 间 的 区 别 


































































































模 式 
功能 特性 
输入 处 理 LY CEN 
行 编辑 ? ff 
对 产生 信和 号 的 字符 做 解释 ? fü 
是 否 解 释 START/STOP 字符 ? f 
是 否 解 释 其 他 的 特殊 字符 ? f 
是 否 执行 其 他 的 输入 处 理 ? f 
是 否 执行 其 他 的 输出 处 理 ? f 
是 否 回 显 输入 ? ff 
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加 工 模式 本 质 上 就 是 带 有 处 理 默认 特殊 字符 功能 的 规范 模式 〈 可 以 对 CR. NL 和 EOF 
进行 解释 ， 打 开行 编辑 功能 ， 处 理 可 产生 信号 的 字符 ， 设 定 ICRNL、OCRNL 标志 等 )。 

原始 模式 则 恰好 相反 ， 它 属于 非 规范 模式 ， 所 有 的 输入 和 输出 都 不 能 做 任何 处 理 ， 而 且 
不 能 回 显 。( 如 果 应 用 程序 需要 确保 终端 驱动 程序 绝对 不 会 对 传输 的 数据 做 任何 修改 ， 那 就 应 
该 使 用 这 种 模式 。) 

cbreak 模式 处 于 加 工 模式 和 原始 模式 之 间 。 输 入 是 按照 非 规范 的 方式 来 处 理 的 ， 但 产生 
信号 的 字符 会 被 解释 ， 且 仍然 会 出 现 各 种 输入 和 输出 的 转换 (取决 于 个 别 标志 的 设 定 )。cbreak 
模式 并 不 会 禁止 回 显 ， 但 采用 这 种 模式 的 应 用 程序 通常 都 会 禁止 回 显 功能 。cbreak 模式 在 与 
屏幕 处 理 相关 的 应 用 程序 中 很 有 用 《比如 less)， 这 类 程序 允许 逐个 字符 的 输入 ， 但 仍然 需要 
对 INTR、QUIT 以 及 SUSP 这 样 的 字符 做 解释 。 





























示例 程序 


在 第 7 版 UNIX 以 及 原始 的 BSD 系统 的 终端 驱动 程序 中 , 可 以 通过 调整 终端 驱动 程序 数据 
结构 中 的 单个 比特 位 ( 称 作 RAW 和 CBREAK) 在 原始 和 cbreak 模式 间 切 换 。 由 于 过 渡 到 了 
POSIX termios 接口 上 (现在 已 经 在 所 有 的 UNIX 实现 上 得 以 支持 ), 现在 已 经 无 法 再 通过 单个 
比特 位 在 原始 和 cbreak 模式 之 间 做 选择 了 。 因 此 如 果 应 用 程序 要 模拟 出 这 些 模式 ， 必 须 显 式 地 
修改 termios 结构 体 中 的 相关 字段 。 程 序 清单 62-3 给 出 了 两 个 函数 ttySetCbreak() 以 及 
ttySetRaw0， 它 们 实现 了 对 应 的 终端 模式 。 




















用 到 了 ncurses 库 的 应 用 程序 可 以 调用 函数 cbreak0O 以 及 raw0。 它 们 实现 的 功能 同 程序 清 
单 62-3 中 给 出 的 函数 类 似 。 


程序 清单 62-3: "Ex 5 cbreak 和 原始 模式 中 


tty/tty functions.c 
include «termios.h» 
include <unistd.h> 
#include "tty functions.h" /* Declares functions defined here */ 


/* Place terminal referred to by 'fd' in cbreak mode (noncanonical mode 
with echoing turned off). This function assumes that the terminal is 
currently in cooked mode (i.e., we shouldn't call it if the terminal 
is currently in raw mode, since it does not undo all of the changes 
made by the ttySetRaw() function below). Return O on success, or -1 
on error. If 'prevTermios' is non-NULL, then use the buffer to which 
it points to return the previous terminal settings. */ 


int 
ttySetCbreak(int fd, struct termios *prevTermios) 


struct termios t; 


if (tcgetattr(fd, &t) == -1) 
return -1; 


if (prevTermios !- NULL) 
*prevTermios - t; 


t.c lflag 8- "(ICANON | ECHO); 
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t.c lflag |= ISIG; 


t.c iflag &- "ICRNL; 


t.c cc[VMINJ = 1; /* Character-at-a-time input */ 
t.c cc[VTIME] = 0; /* with blocking */ 
if (tcsetattr(fd, TCSAFLUSH, &t) == -1) 
return -1; 
return 0; 


j 


/* Place terminal referred to by 'fd' in raw mode (noncanonical mode 
with all input and output processing disabled). Return O on success, 
or -1 on error. If 'prevTermios' is non-NULL, then use the buffer to 
which it points to return the previous terminal settings. */ 


int 
ttySetRaw(int fd, struct termios *prevTermios) 


struct termios t; 


if (tcgetattr(fd, 8t) -- -1) 
return -1; 


if (prevTermios !- NULL) 
*prevTermios - t; 


t.c lflag &- "(ICANON | ISIG | IEXTEN | ECHO); 
/* Noncanonical mode, disable signals, extended 
input processing, and echoing */ 


t.c iflag &- "(BRKINT | ICRNL | IGNBRK | IGNCR | INLCR | 
INPCK | ISTRIP | IXON | PARMRK); 
/* Disable special handling of CR, NL, and BREAK. 
No 8th-bit stripping or parity error handling. 
Disable START/STOP output flow control. */ 


t.c oflag &- "OPOST; /* Disable all output processing */ 
t.c cc[VMINJ = 1; /* Character-at-a-time input */ 
t.c cc[VTIME] = 0; /* with blocking */ 
if (tcsetattr(fd, TCSAFLUSH, &t) == -1) 
return -1; 
return 0; 


tty/tty functions.c 


将 终端 置 于 原始 或 cbreak 模式 下 的 程序 ， 当 它 终止 时 必须 小 心地 将 终端 返回 到 一 个 可 用 
的 模式 下 。 除 了 其 他 任务 之 外 ， 需 要 处 理 所 有 可 能 会 发 送 给 程序 的 信号 ， 这 样 该 程序 束 不 会 
过 早 终止 执行 。(Ccbreak 模式 下 ， 作 业 控 制 信号 仍然 可 以 从 键 褒 上 产生 ,) 
程序 清单 62-4 给 出 了 一 个 如 何 完成 这 些 任 务 的 例子 。 该 程序 执行 以 下 的 步骤 。 
e 根据 是 否 提供 有 命令 行 参 数 〈 任 意 字 符 串 )， 将 终端 设 为 cbreak 模式 或 原始 模式 。 以 
前 的 终端 设置 都 保存 在 全 局 变量 userTermios 中 。 
e 如果 终 问 处 于 cbreak 模式 下 ， 那 么 信号 可 以 从 终端 中 产生 。 这 些 信和 号 需要 得 到 处 理 ， 
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这 样 当 程 序 终 止 或 挂 起 时 会 将 终端 置 于 用 户 所 期 望 的 状态 中 。 程 厅 为 信号 SIGQUIT 

和 SIGINT 安装 同样 的 处 理 例 程 。 信 和 号 SIGTSTP 需要 一 些 特 别处 理 ， 因 此 这 个 信号 需 

要 安装 一 个 不 同 的 处 理 例 程 。 

为 信号 SIGTERM 安装 处 理 例 程 ， 这 是 为 了 捕获 由 kill 命令 默认 发 送 的 信号。 

执行 一 个 循环 ， 从 标准 输入 《〈stdin) 上 一 次 读 取 一 个 字符 ， 并 在 标准 输出 上 回 显 。 程 

序 在 将 字符 输出 之 前 会 对 各 种 各 样 的 输入 字符 做 特殊 处 理 。 

一 在 输出 之 前 将 所 有 的 字符 转换 为 小 写 形式 。 

一 换行 符 On) MEER OD 不 做 任何 修改 就 直接 回 显 。 

一 除了 换行 符 和 回 和 车 符 之 外 的 控制 宇 符 都 以 2 学 符 序 列 的 形式 回 显 : ^ 加 上 对 应 的 大 
写字 符 ( 例 如 ，Ctrl-A 回 显 为 ^A )。 

一 所 有 其 他 的 字符 都 回 显 为 星 写 (*)。 

一 学 母 q 使 循环 终止 。 

退出 循环 后 ， 将 终端 恢复 到 上 次 用 户 设 定 的 状态 ， 然 后 终止 程序 。 























程序 为 信号 SIGQUIT、SIGINT 以 及 SIGTERM 安装 同一 个 处 理 例 程 。 该 处 理 例 程 将 终端 
状态 恢复 到 上 一 次 用 户 的 设 定 ， 然 后 终止 程序 。 

信号 SIGTSTP 的 处 理 例 程 以 34.7.3 和 中 所 描述 的 方式 来 处 理 该 信号。 对 于 这 个 信和 号 处 理 例 
程 ， 需 要 注意 如 下 几 点 细节 。 





刚 开 始 时 ， 处 理 例 程 保存 当前 的 终端 设置 〈 保 存 到 ourTermios 中 )。 启 动 该 程序 时 ， 在 
BE SI SIGTSTP 信号 而 终止 进程 之 前 ， 将 终端 重 置 为 生效 的 设 定 《保存 在 
userTermios 中 )。 

在 接收 到 信号 SIGCONT 后 ， 程 序 恢 复 执行 。 处 理 例 程 再 次 将 当前 的 终端 设 定 保存 到 
userTermios 中 ， 由 于 当 程 序 停止 执行 时 用 户 可 能 已 经 修改 了 设置 (比如 通过 stty 命令 )。 
之 后 处 理 例 程 就 可 以 将 终端 返回 到 程序 所 要 求 的 状态 中 (ourTermios)。 
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tty/test_tty_functions.c 
#include «termios.h» 
#include <signal.h> 
#include <ctype.h> 
#include "tty functions.h" /* Declarations of ttySetCbreak() 
and ttySetRaw() */ 
include "tlpi hdr.h" 


static struct termios userTermios; 
/* Terminal settings as defined by user */ 


static void /* General handler: restore tty settings and exit */ 
handler(int sig) 


if (tcsetattr(STDIN FILENO, TCSAFLUSH, &userTermios) == -1) 
errExit("tcsetattr"); 


 exit(EXIT SUCCESS); 
} 


static void /* Handler for SIGTSTP */ 
tstpHandler(int sig) 
i 


struct termios ourTermios; /* To save our tty settings */ 
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j 


int 


sigset t tstpMask, prevMask; 
struct sigaction sa; 
int savedErrno; 


savedErrno - errno; /* We might change 'errno' here */ 


/* Save current terminal settings, restore terminal to 
state at time of program startup */ 


if (tcgetattr(STDIN FILENO, 8ourTermios) == -1) 
errExit("tcgetattr"); 

if (tcsetattr(STDIN FILENO, TCSAFLUSH, &userTermios) == -1) 
errExit("tcsetattr"); 


/* Set the disposition of SIGTSTP to the default, raise the signal 
once more, and then unblock it so that we actually stop */ 


if (signal(SIGTSTP, SIG DFL) -- SIG ERR) 
errExit("signal"); 
raise(SIGTSTP); 


sigemptyset(&tstpMask); 

sigaddset(&tstpMask, SIGTSTP); 

if (sigprocmask(SIG UNBLOCK, &tstpMask, &prevMask) == -1) 
errExit("sigprocmask"); 


/* Execution resumes here after SIGCONT */ 


if (sigprocmask(SIG SETMASK, &prevMask, NULL) == -1) 
errExit("sigprocmask"); /* Reblock SIGTSTP */ 
sigemptyset(&sa.sa mask); /* Reestablish handler */ 

sa.sa flags - SA RESTART; 

sa.sa handler - tstpHandler; 

if (sigaction(SIGTSTP, &sa, NULL) == -1) 
errExit("sigaction"); 


/* The user may have changed the terminal settings while we were 
stopped; save the settings so we can restore them later */ 


if (tcgetattr(STDIN FILENO, &userTermios) -- -1) 
errExit("tcgetattr"); 


/* Restore our terminal settings */ 


if (tcsetattr(STDIN FILENO, TCSAFLUSH, &ourTermios) == -1) 
errExit("tcsetattr"); 


errno - savedErrno; 


main(int argc, char *argv[]) 


{ 


char ch; 
struct sigaction sa, prev; 
ssize t n; 


sigemptyset(&sa.sa mask); 
sa.sa flags = SA RESTART; 
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(8) if (argc » 1) ( /* Use cbreak mode */ 
(9) if (ttySetCbreak(STDIN FILENO, &userTermios) == -1) 
errExit("ttySetCbreak"); 


/* Terminal special characters can generate signals in cbreak 
mode. Catch them so that we can adjust the terminal mode. 
We establish handlers only if the signals are not being ignored. */ 


(40) sa.sa handler - handler; 


if (sigaction(SIGQUIT, NULL, &prev) == -1) 
errExit("sigaction"); 
if (prev.sa handler !- SIG IGN) 
if (sigaction(SIGQUIT, 8sa, NULL) == -1) 
errExit("sigaction"); 


if (sigaction(SIGINT, NULL, &prev) == -1) 
errExit("sigaction"); 
if (prev.sa handler !- SIG IGN) 
if (sigaction(SIGINT, &sa, NULL) == -1) 
errExit("sigaction"); 


KD) sa.sa handler - tstpHandler; 
if (sigaction(SIGTSTP, NULL, &prev) == -1) 
errExit("sigaction"); 
if (prev.sa handler !- SIG IGN) 
if (sigaction(SIGTSTP, &sa, NULL) == -1) 
errExit("sigaction"); 


] else { /* Use raw mode */ 
D if (ttySetRaw(STDIN FILENO, &userTermios) == -1) 
errExit("ttySetRaw"); 
} 
(3) sa.sa handler - handler; 
if (sigaction(SIGTERM, &sa, NULL) -- -1) 
errExit("sigaction"); 
setbuf(stdout, NULL); /* Disable stdout buffering */ 
T) for (z) d /* Read and echo stdin */ 
n = read(STDIN FILENO, &ch, 1); 
if (n == -1) { 
errMsg("read"); 
break; 
} 
if (n == 0) /* Can occur after terminal disconnect */ 
break; 
(5) if (isalpha((unsigned char) ch)) /* Letters --» lowercase */ 


putchar(tolower((unsigned char) ch)); 
else if (ch == 'An' || ch == '\r') 

putchar(ch); 
else if (iscntrl((unsigned char) ch)) 

printf("^c", ch ^ 64); /* Echo Control-A as ^A, etc. */ 
else 

putchar('*'); /* All other chars as '*' */ 
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if (ch = 'q') /* Quit loop */ 


(7) if (tcsetattr(STDIN FILENO, TCSAFLUSH, &userTermios) -- -1) 
errExit("tcsetattr"); 
exit(EXIT SUCCESS); 


tty/test tty functions.c 
当 我 们 请 求 程 序 清单 62-4 使 用 原始 模式 时 ， 下 面 是 我 们 会 看 到 的 输出 示例 。 


$ stty Initial terminal mode is sane (cooked) 
speed 38400 baud; line = 0; 
$ ./test tty functions 








abc Type abc, and Control-] 
def Type DEF, Control], and Enter 
^C^Z Type Control-C, Control-Z, and Control-] 
q$ Type q to exit 





1E EXR shell 会 话 的 最 后 一 行 中 ， 我 们 看 到 shell 将 自己 的 提示 符 同 导致 程序 终止 的 字符 q 
打印 在 了 同一 行 上 。 
下 面 是 采用 cbreak 模式 时 的 输出 示例 。 


$ ./test tty functions x 


XYZ Type XYZ and Control-Z 
[1]- Stopped ./test tty functions x 
$ stty Verify that terminal mode was restored 
speed 38400 baud; line = O; 
$ fg Resume in foreground 
./test tty functions x 
qm Type 123 and Control] 

$ Type Control-C to terminate program 
Press Enter to get next shell prompt 
$ stty Verify that terminal mode was restored 


speed 38400 baud; line = O0; 


62.7 imk CLDUBREAED 


不 同 的 终端 之 间 ( 以 及 串 行 线 ) 传 输 和 接收 的 速率 (位 数 每 秒 ) 是 不 同 的 。 函 数 cfgetispeed() 
和 cfsetispeed0 用 来 获取 和 修改 输入 的 线 速 。 函 数 cfgetospeed0 和 cfsetospeedO 用 来 获取 和 修改 
输出 的 线 速 。 


术语 波 特 Cbaud) 通 币 被 当做 是 终端 线 速 〈 位 数 每 秒 ) 的 同义词 ， 尽 管 这 种 用 法 在 技 
术 上 来 说 并 不 正确 。 谁 确 地 说 ， 波 特 baud) 是 线路 中 信号 每 秒 可 以 变化 的 频率 ， 和 每 秒 
可 传送 的 位 数 不 是 一 回 事 ， 因 为 后 者 取决 于 比特 位 要 如 何 编码 为 信号 。 不 过 ， 术 语 波 特 
(baud) 依然 继续 被 用 作 位 京 〔 位 数 每 秒 ) 的 同义词 。( 术 语 “ 波 特 率 ”(baud rate) 常常 用 
作 波 特 baud 的 同义词 ， 但 这 么 次 是 元 余 的 ， 因 为 流 特 定义 的 束 是 速率 。) 为 了 避免 这 些 混 
WB. dd DE RI D Br SE IRURE T ZI e 


























Hinclude «termios.h» 








speed t cfgetispeed(const struct termios */ermios p); 


第 62 章 终端 1081 


异步 社区 会 员 flyman150(2410757683@qq.com) EF 尊重 版 权 


speed t cfgetospeed(const struct termios *fermios p); 
Both return a line speed from given termios structure 


int cfsetospeed(struct termios *";ermios D, speed t speed); 
int cfsetispeed(struct termios *";ermios D, speed t speed); 


Both return 0 on success, or -1 on error 








这 里 每 一 个 函数 用 到 的 termios 结构 体 都 必须 先 通 过 tcgetattr() 来 初始 化 。 
比如 ， 要 找 出 当前 终 病 的 得 出 线 速 ， 我 们 可 以 这 样 做 : 
struct termios tp; 


speed t rate; 


if (tcgetattr(fd, 8tp) == -1) 
errExit("tcgetattr"); 
rate = cfgetospeed(&tp); 
if (rate -- -1) 
errExit("cfgetospeed"); 
RAS BEAT AU. np AAEE PIRDOCEE ABRE: 
if (cfsetospeed(8&8tp, B38400) == -1) 
errExit("cfsetospeed"); 
if (tcsetattr(fd, TCSAFLUSH, &tp) == -1) 
errExit("tcsetattr"); 


数据 类 型 speed t 用 来 保存 线 速 。 这 里 没有 直接 以 数值 形式 来 设置 线 速 ， 而 是 采用 了 一 
组 从 号 常量 (定义 在 <termios.h> 中 )。 这 些 常 量 定义 了 一 系列 离 获 的 值 。 关 于 这 些 常量 ， 
一 些 例子 比如 B300, B2400, B9600 以 及 B38400， 分 别 各 自 对 应 于 线 速 300、2400、9600 
以 及 38400 位 数 每 秒 。 使 用 一 组 离散 的 数值 也 反应 出 一 个 事实 , 那 就 是 终端 通常 都 被 设计 为 
工作 在 一 组 固定 的 不 同 线 速 上 (已 标准 化 的 )。 这 些 线 速 都 从 某 个 基准 线 速 派生 而 来 (例如 
115200 通常 用 于 个 人 电脑 ), 基准 线 速 除 以 某 个 整数 得 到 这 些 线 速 (例如 , 115200 / 12 = 9600 )。 

SUSv3 HüxE T Xm XE VA DRE E termios 结构 体 中 ， 但 并 没有 规定 《故意 的 ) 保存 在 哪 
个 字段 中 。 包 括 Linux 在 内 的 许多 实现 中 ， 都 是 在 c_cflag 字段 中 通过 CBAUD MiM 
CBAUDEX 标志 来 维护 这 些 值 。( 在 62.2 市 中 ， 我 们 提 到 过 在 Linux 中 ，termios 结构 体 中 的 
非 标准 字段 c_ispeed 和 c_ospeed 是 不 被 使 用 的 。) 

尽管 函数 cfsetispeed() MI cfsetospeed0 可 以 分 开 指定 输入 和 和 输出 线 速 ， 但 是 在 许多 终端 上 
这 两 个 速率 必须 是 一 样 的 。 此 外 ，Linux 只 用 一 个 单独 的 字段 来 保存 线 速 〈 即 ， 假 定 这 两 个 速 
率 值 总 是 一 样 的 )， 这 表示 所 有 同 输 入 和 输出 线 速 率 相 关 的 函数 访问 的 都 是 相同 的 termios £i 
构 体 字段 。 


在 cfsetispeed0 中 将 speed 设置 为 0 表示 将 输入 线 速 设 定 为 各 后 调用 tcsetattr0 时 得 到 的 
任何 输出 线 速 值 。 在 那些 将 这 两 个 线 速 分 开 维护 的 系统 中 ， 这 种 方法 十 分 有 用 。 






































62.8 终端 的 行 控制 


函数 tcsendbreak0 ,tcdrain0、tcflushO 以 及 tcflow0O 所 执行 的 任务 通常 都 归 类 在 行 控制 (line 
control) F. CX RARE POSIX 中 创建 的 ， 被 设计 用 来 取代 各 种 ioctlO 操 作 。) 
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dinclude «termios.h» 


int tcsendbreak(int fd, int duration); 
int tcdrain(int fd); 

int tcflush(int fd, int queue selector); 
int tcflow(int fd, int action); 





All return 0 on success, or -1 on error 








在 每 个 函数 中 ， 参 数 fd XCTI OA CJR Aink TT2E E RAB EA e 

tcsendbreakO 函 数 通过 传输 连续 的 0 比特 流产 生 一 个 BREAK 状态 。 参 数 duration 指定 
了 传输 持续 的 时 间 。 如 果 duration 为 0, 那么 传输 0 比特 序列 的 时 间 将 持续 0.25 秒 。(SUSv3 
规定 这 个 时 间 至 少 要 有 0.25 秒 , 但 不 超过 0.5 秒 。) WR duration 的 值 大 于 0， 传输 0 比特 序 
列 的 时 间 残 会 持续 duration 个 坚 秒 。SUSv3 对 于 这 种 情况 没有 做 任何 规定 ， 对 于 非 零 值 的 
duration 应 该 如 何 处 理 ， 在 不 同 的 UNIX 实现 中 区 别 很 大 (这 里 讨论 的 细节 只 针对 于 glibc )。 

FK ZA. tcdrain0) 刷 狐 〈( 于 人 弃 ) 终 闹 输 入 队列 、 终 新 输出 队列 或 者 这 两 者 中 的 数据 ( 见 图 
62-1)。 刷 新 输入 队列 将 丢弃 已 经 由 终端 驱动 程序 接收 但 还 没有 被 任 何 进程 读 取 的 数据 。 比 如 ， 
一 个 应 用 程序 可 以 使 用 tcfltush0 来 丢弃 提示 输入 密码 之 前 就 已 经 输入 到 终端 的 数据 。 刷 新 输出 
队列 将 丢弃 已 经 写 入 (传递 到 终端 驱动 程序 ) 但 还 没有 传递 给 设备 的 数据 。 人 参数 queue-selector 
指定 了 表 62-4 中 所 示 的 其 中 一 个 值 。 


。 注意， 术语 刷新 (flush) 在 teflush0 中 的 合 义 和 我 们 在 谈论 文件 VO 时 是 不 一 样 的 。 对 于 
文件 V0， 刷新 意味 着 通过 标准 输入 的 fnushO0 将 输出 从 用 户 空间 内 存 上 强制 传输 到 缓冲 区 
A A a E 



































表 62-4: tcflush() 中 参数 queue. selector 的 值 


值 Ho x 
TCIFLUSH 刷新 输入 队列 
TCOFLUSH Ag gr EH BA ol] 

TCIOFLUSH 输入 队列 和 输出 队列 都 得 到 刷新 





函数 tcflow0 控 制 看 数据 在 计算 机 和 终 并 (或 者 其 他 的 远程 设备 ) 之 间 的 数据 流 方 向。 参 
数 action 为 表 62-5 中 所 示 的 值 之 一 。 TCIOFF 和 TCION 只 有 在 终端 能 够 解释 STOP 和 START 
字符 时 才 有 效 ， 在 这 种 情况 下 这 些 操作 将 分 别 导 致 终端 暂停 和 恢复 发 送 数据 到 计算 机 。 


K 62-5: tcflush() 中 参数 action 的 值 


值 描 jÈ 
TCOOFF 暂停 终端 上 的 输出 
TCOON 恢复 终端 上 的 输出 
TCIOFF 传送 一 个 STOP 字符 给 终端 
TCION 传送 一 个 START 字符 给 终端 
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62.9 终端 窗口 大 小 


企 一 个 窗口 环境 中 ， 一 个 处 理 屏 幕 的 应 用 程序 需要 能 够 监视 终端 窗口 的 大 小 ， 这 样 
当 用 户 修改 了 窗口 大 小 时 能 够 适当 地 重新 绘制 屏幕 。 内 核对 此 提供 了 两 种 方式 来 文 持 。 
。 在 终 病 窗 口 大 小 改变 后 发 送 一 个 SIGWINCH fi^28 8j GXEREZH S SA TUO P. VE 
EX NE o 
e 在 任意 时 刻 一 一 通常 是 在 接收 到 SIGWINCH 信和 号 之 后 一 一 进程 可 以 使 用 ioctlO If] 
TIOCGWINSZ 操作 来 获取 终 病 窗口 的 当前 大 小 。 
ioctl0 的 TIOCGWINSZ 操作 应 该 按照 如 下 方式 来 使 用 。 
if (ioctl(fd, TIOCGWINSZ, &ws) == -1) 
errExit("ioctl"); 
参数 fd 表示 指向 终端 窗口 的 文件 描述 符 。ioctl0 的 最 后 一 个 参数 是 指向 winsize 结构 体 ( 定 
义 在 <sys/ioctlLh> 中 ) 的 指针 ， 用 来 返回 终端 窗口 的 大 小 。 
































struct winsize { 


unsigned short ws row; /* Number of rows (characters) */ 
unsigned short ws col; /* Number of columns (characters) */ 
unsigned short ws xpixel; /* Horizontal size (pixels) */ 
unsigned short ws ypixel; /* Vertical size (pixels) */ 


15 


和 许多 其 他 的 实现 一 样 ，Linux 没有 使 用 winsize 结构 体 中 与 像素 大 小 相关 的 字段 。 

程序 清单 62-5 演示 了 信号 SIGWINCH 以 及 ioctl0 的 TIOCGWINSZ 操作 的 用 法 。 下 面 是 
运行 该 程序 时 的 输出 示例 ， 该 程序 运行 在 一 个 窗口 管理 器 下 ， 而 且 终 端 窗 口 大 小 改变 了 3 次 。 

$ ./demo SIGWINCH 

Caught SIGWINCH, new window size: 35 rows * 80 columns 

Caught SIGWINCH, new window size: 35 rows * 73 columns 


Caught SIGWINCH, new window size: 22 rows * 73 columns 
Type Control-C to terminate program 

















程序 清单 62-5: 监视 终端 窗口 大 小 的 改变 


tty/demo SIGWINCH.c 
include «signal.h» 
include «termios.h» 
include «sys/ioctl.h» 
include "tlpi hdr.h" 


static void 
sigwinchHandler(int sig) 


{ 
j 


int 
main(int argc, char *argv[]) 


struct winsize ws; 
struct sigaction sa; 
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sigemptyset(8sa.sa mask); 

sa.sa flags = 0; 

sa.sa handler - sigwinchHandler; 

if (sigaction(SIGWINCH, &sa, NULL) -- -1) 
errExit("sigaction"); 


for (55) 1 
pause(); /* Wait for SIGWINCH signal */ 


if (ioctl(STDIN FILENO, TIOCGWINSZ, &ws) == -1) 
errExit("ioctl"); 
printf("Caught SIGWINCH, new window size: " 
"Ad rows * 4d columnsNn", ws.wS row, ws.ws col); 


tty/demo SIGWINCH.c 


t nf DAE ioctlOR] TIOCSWINSZ 操作 中 传 入 一 个 初始 化 过 的 winsize RERE US E m JA 
动 程序 对 于 窗口 大 小 的 设 定 。 
WS.WS rOW = 40; 
WS.ws col - 100; 
if (ioctl(fd, TIOCSWINSZ, 8ws) == -1) 
errExit("ioctl"); 


如 果 winsize Zt f rp EA fe^ £m UC SHEET 3 IDE T $8 B. DINI] E36 那么 会 
发 生 两 件 事情 : 

o 终 汕 驱动 程序 的 数据 结构 得 到 更 独 ， 使 用 的 值 正 是 在 参数 ws 中 提供 的 新 值 ; 

。 及 达 一 个 SIGWINCH fi 7 $02E*m FF] BU S HEFE F e 

然而 需要 注意 的 是 ， 这 些 事 件 本 映 并 不 足以 改变 实际 的 窗口 显示 尺寸 ， 这 是 由 内 核 之 外 
的 软件 所 控制 的 《比如 窗口 管理 器 或 终端 模拟 器 程序 )。 

RVBJEICH TE SUSv3 中 得 到 规范 化 ， 大 多 数 UNIX 实现 邦 提 供 了 本 市 介绍 的 ioctl0 操 作 
来 访问 终端 的 贸 口 大 小 。 






































62.10 umb 


在 34.4 WP, RIINA T ctermidrS Zi, iz eR ZAR IRE RET BUE Xm EJ A A CE UNIX 系 
统 上 通 利 为 /dewtty)。 本 节 摘 述 的 函数 对 于 标识 终端 也 同样 有 用 。 

PR Žr isattyO 使 我 们 能 够 判断 文件 描述 符 fd 是 否 同一 个 终 问 相关 联 ( 相 比 于 其 他 的 文件 
类 型 


2e). 


Dn 





#include «unistd.h» 


int isatty(int fd); 


Returns true (1) if fd is associated with a terminal, otherwise false (0) 








KZ isatty Oo] T Sa EC gs A fta m 2 78] BS a edt NRI A h e t 2E I8] 829g. E BI DE AE RE 
程序 来 说 十 分 有 用 。 
给 定 一 个 文件 描述 符 ， 函 数 ttyname0 返 回 与 之 相关 的 终端 设备 名 称 。 
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#include <unistd.h> 


char *ttyname(int fd); 


Returns pointer to (statically allocated) string containing 
terminal name, or NULL on error 











ITPA mAAR, ttyname() 通 过 调用 18.8 TF HAX H PR Zt opendir0 和 readdir0 来 过 历 包 
含 终 闹 设备 名 称 的 目录 ， 查 找 每 个 目录 ， 直 到 找到 的 设备 有 D 号 〈stat 结构 体 中 的 st rdev FE) 
同文 件 描述 符 公所 关联 的 设备 相 匹 配 。 终 问 设 备 通 第 都 保存 在 两 个 目录 下 : /dev 和 /dev/pts。 
/dev 目录 中 包含 了 有 关 虚 拟 控制 台 的 条 目 《 比 如 ，/devwtty1) 和 BSD 伪 终 端 。/dev/pts 目录 则 
包含 了 (System V 风格 ) 伪 终 问 从 设备 。( 我 们 在 第 64 章 中 讨论 伪 终 端 。) 


ttyname() 还 有 一 个 形式 为 ttyname_r() 的 可 重 入 版 本 。 
yD 命令 可 以 易 不 出 了 已 的 标准 输入 相关 联 的 从 闹 名 称 ， 它 契 孙 数 tyname0 的 全 信行 模拟 。 

















62.11 Ati 


在 早期 的 UNIX 系统 上 ， 终 端 是 通过 串 行 线 连 接 到 计算 机 上 的 真正 的 硬件 设备 。 早 期 的 
终端 并 没有 得 到 标准 化 ， 这 意味 着 对 于 不 同 的 人 硬件 厂商 ， 对 终端 进行 编程 时 的 转 义 序列 是 不 
同 的 。 在 现代 工作 站 上 ， 这 样 的 终端 已 经 被 运行 看 X Window 系统 的 位 图 监视 器 所 取代 了 。 但 
是 ， 当 处 理 虚 拟 设 备 比如 虚拟 控制 侣 和 终端 模拟 器 《使 用 了 伪 终 端 )， 以 及 通过 串 行 线 连接 的 
真实 设备 时 ， 仍 然 需 要 能 够 对 终端 进行 编程 。 

有 关 终 端的 设置 《除了 终端 窗口 大 小 外 ) 都 维护 在 termios 结构 体 中 ， 它 包含 了 4 个 位 
措 码 字段 用 来 控制 有 关 终 端的 各 种 设置 ， 以 及 一 个 定义 了 各 种 特殊 字符 的 数组 , 这些 特殊 字 
从 由 终端 驱动 程序 负 贡 解释 。 函 数 tcgetattr() 和 tesetattr() 人 允许 程 序 获 取 并 修改 终端 的 设置 。 

当 执 行 输 入 时 ， 终 端 驱 动 程序 可 以 操作 于 两 种 不 同 的 模式 下 。 在 规范 模式 下 ， 输 入 会 装 
配 成 行 ( 由 其 中 一 种 行 终 止 符 结束 )， 且 打开 了 行 编辑 功 能 。 与 之 相反 ， 非 规范 模式 下 人 允许 应 
用 程序 一 次 只 读 取 一 个 输入 字符 ， 而 不 需要 等 到 用 户 输入 一 个 行 终止 符 。 非 规范 模式 下 禁止 
了 行 编辑 功能 。 非 规范 模式 下 的 该 操作 什么 时 候 完 成 ， 是 由 termios 结构 体 中 的 MIN 和 TIME 
字段 来 控制 的 ， 它 们 决定 了 最 少 被 读 取 的 字符 数 以 及 施加 于 该 操作 上 的 超时 时 间 。 我 们 对 非 
规范 模式 下 的 读 操作 的 4 种 不 同情 况 作 了 描述 。 

历史 上 第 7 版 UNIX 以 及 BSD 终端 驱动 程序 提供 了 3 种 输入 模式 一 一 加 工 模式 、cbreak 
模式 和 原始 模式 一 一 它们 对 终端 的 输入 和 输出 处 理 提供 了 不 同 程 度 的 支持 。cbreak 和 原始 模 
式 可 以 通过 修改 termios 结构 体 中 的 各 个 字段 来 模拟 。 

还 有 一 系列 函数 可 以 执行 各 种 其 他 的 终端 操作 。 这 些 函数 包括 修改 终端 线 速 以 及 执行 行 
控制 操作 (生成 一 个 BREAK 状态 ,暂停 进程 直到 输出 已 经 完成 传递 ， 刷 新 终端 的 输入 和 输出 
队列 ， 暂 集 或 恢复 终端 和 计算 机 之 间 的 双 问 数据 传输 );。 其 他 的 函数 允许 我 们 检查 给 定 的 文件 
揪 述 符 是 否 指 问 一 个 中 断 ， 并 获取 该 终端 的 名 称 。 系 统 调用 ioctl0 可 用 来 获取 并 修改 由 内 核 记 
录 的 终端 窗口 大 小 ， 并 执行 一 系列 其 他 的 与 终端 相关 的 操作 。 


更 多 信息 
[Stevens, 1992] 中 也 对 面 癌 终端 的 编程 做 了 描述 ， 并 对 串口 编程 做 了 更 加 细致 的 讲解 。 网 络 
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上 还 有 一 些 讨 论 面 癌 终 端 编程 的 优秀 资源 。 比 如 在 LDP 站 点 Chttp://www.tldp.org? 上 的 Serial 
HOWTO 以 及 Text-terminal HOWTO, , 作者 都 是 David S. Lawyer。 另 一 个 有 用 的 资源 是 Michael R. 
Sweet MA] (POSIX 操作 系统 下 的 串口 编程 指南 》(“Serial Programming Guide for POSIX 
Operation Systems”)， 可 以 在 http:/www.easysw.comy/~mike/serial/ 上 找到 在 线 资 源 。 





62.12 练习 


62-1. 实现 函数 isatty()。( 你 会 发 现 读 一 读 62.2 节 中 关于 tcgetattr0 的 摘 述 很 有 帮助 。) 

62-2. 实现 函数 ttyname()。 

62-3. 实现 8.5 下 中 摘 述 过 的 函数 getpass(). (函数 getpassO 可 以 通过 打开 /dewtty 为 控制 
终 疹 获取 到 一 个 文件 描述 符 。) 

62-4. 编写 一 个 程序 显示 下 列 信 息 : 判断 标准 输入 所 指向 的 终端 是 处 于 规范 模式 还 是 非 规 
苑 模式 。 如 果 处 于 非 规 范 模 式 ， 显 示 出 TIME 和 MIN 的 值 。 
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其 他 备 选 的 1/O 模型 


除了 已 经 在 本 书 很 多 地 方 使 用 到 的 常规 文件 UO 外 ， 本 章 我 们 将 讨论 其 他 3 种 可 选 的 IO 
模型 。 

e LO 多 路 复 用 〈selectO 以 及 poll0 系 统 调用 )。 

。 [i53x3) IO. 

e Linux 专 有 的 epoll 编程 接口 


63.1 整体 概览 


目前 为 止 , 本 书 中 大 部 分 程序 使 用 的 IO 模型 都 是 单个 进程 每 次 只 在 一 个 文件 描述 符 上 执 
ÍT VO 操作 ,每 次 VO 系统 调用 都 会 阻 赛 直到 完成 数据 传输 。 比 如 ， 当 从 一 个 宣道 中 谈 取 数据 
时 ， 如 末 过 这 中 恰好 没有 数据 ， 那 么 通 币 read0 会 阻 宪 。 而 如 采 过 道中 疫 有 足够 的 空间 保存 行 
写 入 的 数据 时 ，write0 也 会 阻 赌 。 当 在 其 他 类 型 的 文件 如 FIFO MERT EST VO 操作 时 ， 
也 会 出 现 相 似 的 行为 。 


磁盘 文件 是 个 特例 。 如 第 13 和 章 中 所 描述 的 ， 内 核 采 用 缓冲 区 cache 来 加 速 磁盘 IO 请 
求 。 因 而 一 旦 请 求 的 数据 传输 到 内 核 的 缓冲 区 cache， 对 磁盘 的 writeO0 操 作 将 立刻 返回 ， 而 
不 用 等 到 将 数据 实际 号 入 磁盘 后 才 返 回 《〈《 除 非 在 打开 文件 时 指定 了 O SYNC 标志 )。 与 之 
对 应 的 是 ，read0 调 用 将 数据 从 内 核 缓 冲 区 cache 移动 到 用 户 的 缓冲 区 中 ， 如 果 请 求 的 数据 
不 在 内 核 绥 冲 区 cache， 那 么 内 核 就 会 让 进程 休眠 ， 同 时 执行 对 磁盘 的 读 操 作 。 


对 于 许多 应 用 来 说 ,传统 的 阻 罕 式 IO 模型 已 经 足够 了 , 但 这 不 代表 所 有 的 应 用 都 能 得 到 
WAE FEDIA, AEH ADEL PRUE, KA N E AR ia e AE o 

。 WMR RERIT, IEEE WT AR A RIT EE m n] XETT VO 操作 。 

。 [ipee IBN. A ENPE seg AAT VO 操作 。 

我 们 已 经 过 到 了 两 种 可 以 部 分 满足 这 些 需 求 的 搁 术 : JEE O 和 多 进程 或 多 线程 
BOR. 

我 们 在 5.9 A 44.9 市 中 对 非 阻塞 式 WO 做 了 详细 的 说 明 。 如 果 在 打开 文件 时 设 定 了 
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O NONBLOCK 标志 ,会 以 非 阻 杏 方式 打开 文件 。 如 采 IO 系统 调用 不 能 立刻 完成 ， 则 会 返回 
错误 而 不 是 阻塞 进程 。 非 阻塞 式 IO 可 以 运用 到 管道 、FIFO、 套 接 字 、 终 端 、 伪 终端 以 及 其 
他 一 些 类 型 的 设备 上 。 

非 阻 塞 式 IO 可 以 让 我 们 周期 性 地 检查 ( 轮 询 ”) 某 个 文件 描述 符 上 是 否 可 执行 VO 操作 。 
比如 ， 我 们 可 以 让 一 个 输入 文件 描述 符 成 为 非 阻塞 式 的 ， 然 后 周期 性 地 执行 非 阻 塞 式 的 读 操 
作 。 如 果 我 们 需要 同时 检查 多 个 文件 描述 符 ， 那 么 就 需要 将 它们 都 设 为 非 阻 塞 ， 然 后 依次 对 
它们 轮 询 。 但 是 ， 这 种 轮 询 通常 是 我 们 不 希望 看 到 的 。 如 果 轮 询 的 频率 不 高 ， 那 么 应 用 程序 
响应 IO 事件 的 延 时 可 能 会 达到 无 法 接受 的 程度 。 换 名 话说 , 着 宇 个 其 次 的 循环 牛 做 轮 询 就 是 
人 














本 和 章 中 我 们 以 两 种 截然 不 同 的 方式 来 使 用 轮 询 “poll) 这 个 词 。 其 中 一 种 代表 IO 多 路 
复 用 的 系统 调用 poll0。 故 一 种 则 表示 “以 非 阻 暑 的 方式 检查 文件 揪 述 从 的 状态 ”。 


如 果 不 希 望 进程 在 对 文件 描述 符 执 行 VO 操作 时 被 阻塞 ， 我 们 可 以 创建 一 个 新 的 进 
程 来 执行 IO。 此 时 父 进程 就 可 以 去 处 理 其 他 的 任务 了 ， 而 子 进 程 将 阻塞 直到 UO 操作 完 
成 。 如 果 我 们 需要 处 理 多 个 文件 描述 符 上 的 O, 此 时 可 以 为 每 个 文件 描述 符 创 建 一 个 子 
进程 。 这 种 方法 的 问题 在 于 开销 昂贵 且 复 杂 。 创 建 及 维护 进程 对 系统 来 说 都 有 开销 ， 而 
且 一 般 来 说 子 进 程 需 要 使 用 某 种 IPC 机 制 来 通知 父 进程 有 关 UO 操作 的 状态 。 
使 用 多 线程 而 不 是 多 进程 ， 这 将 占用 较 少 的 资源 。 但 线程 之 间 仍 然 需 要 通信 ， 以 告知 其 
他 线程 有 关 IO 操作 的 状态 ,这 将 使 编程 工作 变 得 复杂 。 尤其 是 如 果 我 们 使 用 线程 池 技 术 来 最 
小 化 需要 处 理 大 量 并 发 客户 的 线程 数量 时 。 (多 线程 特别 有 用 的 一 个 地 方 是 如 果 应 用 程序 需要 调 
用 一 个 会 执行 阻塞 式 IO 操作 的 第 三 方 库 , 那么 可 以 通过 在 分 离 的 线程 中 调用 这 个 库 从 而 避免 
应 用 被 阻塞。 ) 
H FIEREN WO 和 多 进 ( 线 ) 程 都 有 各 目的 局 限 性 ， 下 列 备 选 方 案 往 往 更 可 取 。 
。 LO 多 路 复 用 允许 进程 同时 检查 多 个 文件 摘 述 符 以 找 出 它们 中 的 任何 一 个 是 否 可 执行 
UO 操作 。 系 统 调用 select0 和 poll0 用 来 执行 VO 多 路 复 用 。 
e 信号 驱动 VO 是 指 当 有 输入 或 者 数据 可 以 写 到 指定 的 文件 摘 述 符 上 时 , VEZ ISI SE SK GS 
的 进程 发 送 一 个 信号 。 进 程 可 以 处 理 其 他 的 任务 ， 当 LO 操作 可 执行 时 通过 接收 信和 号 
来 获得 通知 。 当 同时 检查 大 量 的 文件 描述 符 时 ， 信 和 号 驳 动 IO 相 比 selectO4I poll0 有 
显著 的 性 能 提升 。 
e epoll API 是 Linux 专 有 的 特性 ， 首 次 出 现 是 在 Linux 2.6 版 中 。 同 UO 多 路 复 用 API 一 
样 ，epoll API 允许 进程 同时 检查 多 个 文件 描述 符 ， 看 其 中 任意 一 个 是 否 能 执行 VO 操 
作 。 同 信号 驱动 VO 一 样 ， 了 同 时 六 可 天 车 实 件 措 述 符 时 Gol 能 提供 更 好 的 性 稻 ， 


本 革 余 下 的 部 分 我 们 将 主要 对 上 述 技 术 进 行 讨论 。 但 是 ， 这 些 拉 术 也 可 以 应 用 到 多 线 
程 应 用 中 。 






























































实际 上 UO 多 路 复 有 用、 信号 驱动 VO 以 及 epoll 部 是 用 来 实现 同一 个 目标 的 技术 一 一 同 
时 检查 多 个 文件 撕 述 符 ， 看 它们 是 否 准 备 好 了 执行 VO 操作 (准确 地 说 ， 是 看 IO 系统 调 
用 是 否 可 以 非 阻塞 地 执行 )。 区 和 俐 描述 符 就 绪 状 态 的 转化 是 通过 一 些 JO 事件 来 触发 的 , O 
如 输入 数据 到 达 , 套 接 字 连接 建立 完成 , 或 者 是 之 前 满载 的 套 接 字 发 送 缓冲 区 在 TCP 将 队 
蜀 申 的 数据 苇 送 到 对 端 之 后 有 了 和 刹 奈 宅 | 闻 。 同 时 检查 多 个 文件 描述 符 在 类 似 网 络 服务 器 的 
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应 用 中 很 有 用 处 ， 或 者 是 那些 必须 同时 检查 终端 以 及 管道 或 僚 接 字 输 入 的 应 用 程序 。 
需要 注意 的 是 这 些 技术 都 不 会 执行 实际 的 IO 操作 。 它 们 只 是 告诉 我 们 某 个 文件 描述 符 已 
经 处 于 融 绪 状态 了 。 这 时 需要 调用 其 他 的 系统 调用 来 完成 实际 的 IO 操作 。 











本 章 我 们 没有 介绍 的 一 种 IO 模型 是 POSIX 异步 WO (AIO), POSIX AIO 允许 进程 将 IO 
操作 排列 到 一 个 文件 中 ， 当 操作 完成 后 得 到 通知 。POSIX AIO 的 优点 在 于 最 初 的 IO 调用 将 立刻 
返回 ， 因 此 进程 不 会 一 直 等 竺 数据 传输 到 内 核 或 者 等 待 操作 完成 。 这 使 得 进程 可 以 同 IO 操作 
一 起 并 行 处 理 其 他 的 任务 (可 能 会 包含 将 未 来 的 IO 操作 入 队列 )。 对 于 特定 类 型 的 应 用 , POSIX 
AIO 能 提供 有 用 的 性 能 优势 。 目 前 ，Linux 在 glibc 中 提供 有 基于 线程 的 POSIX AIO 实现 。 与 
作 本 书 时 ， 人 们 正在 朝 着 内 核 化 的 POSIX AIO 实现 而 努力 ， 这 应 该 能 提供 更 好 的 伸缩 性 能 。 
POSIX AIO 的 描述 可 在 [Gallmeister 1995] 和 [Robbins & Robbins, 2003] 中 找到 。 



































选择 哪 种 技术 


在 本 章 中 ， 我 们 将 思考 为 何 要 选择 其 中 的 某 种 技术 ， 为 什么 其 他 技术 不 适用 ， 其 理由 是 
什么 。 同 时 我 们 会 总 结 出 一 些 要 点 。 
。 系统 调用 select0 和 poll0 在 UNIX 系统 中 已 经 存在 了 很 长 的 时 间 。 同 其 他 技术 相 比 ， 它 
们 主要 的 优势 在 于 可 移植 性 ， 主 要 缺点 在 于 当 同 时 检查 大 量 的 〈 数 百 或 数 干 个 ) 文件 
描述 符 时 性 能 延展 性 不 佳 。 
e epoll API 的 关键 优势 在 于 它 能 让 应 用 程序 高 效 地 检查 大 量 的 文件 摘 述 符 。 其 主要 缺点 
在 于 它 是 专属 于 Linux 系统 的 API。 








一 些 其 他 的 UNIX 实现 提供 了 和 非 标准 的 ) 类 似 于 epoll 的 机 制 。 比 如 ，Solaris 提供 了 特 
殊 的 /dev/poll 文件 (在 Solaris poll(7d) 手 册页 中 描述 )， 而 其 他 一 些 BSD 变种 提供 了 kqueue API 
( 相 比 epoll， 这 是 一 种 更 为 通用 的 检查 机 制 )。[Stevens et al,. 2004] 中 简要 介绍 了 这 两 种 机 制 。 
关于 kqueue 的 更 多 讨论 可 以 在 [Lemon, 2001] 中 找到 。 


e [i] epoll 一 样 , 信号 驱动 VO 可 以 让 应 用 程序 高 效 地 检查 大 量 的 文件 描述 符 。 但 是 epoll 
有 一 些 信 号 驱动 IO 所 没有 的 优点 。 
一 避免 了 处 理 信 号 的 复杂 性 。 
一 我 们 可 以 指定 想 要 检查 的 事件 类 型 ( 即 ， 读 就 绪 或 者 写 就 绪 )。 
一 我 们 可 以 选择 以 水 平 触发 或 边缘 触发 的 形式 来 通知 进程 (在 63.1.1 节 中 详 述 )。 
另外 ， 要 完全 利用 信号 VO 的 优点 需要 用 到 不 可 移植 的 Linux 专 有 的 特性 ， 而 如 果 我 们 这 
么 做 了 ， 那 么 信号 驱动 VO 的 可 移植 性 也 不 会 比 epoll 更 好 。 


因为 从 另 一 方面 来 说 select0 和 poll0 的 可 移植 性 更 好 ,而 售 号 驱动 JOSE 有 着 更 好 的 履 
能 表现 对 于 某 些 应 用 来 说 ， 编 写 一 个 软件 抽象 层 来 检 碍 文件 描述 符 事件 是 非常 值得 做 的 。 有 了 
这 样 一 个 抽象 层 ， 可 移植 的 程序 束 能 在 提供 有 epoll 机 制 的 系统 上 应 用 epoll (或 类 似 的 API), 
而 在 其 他 系统 上 继续 使 用 select0 和 poll0。 






































Libevent 库 就 是 这 样 一 个 软件 层 ， 它 提供 了 检 醋 文件 摘 述 行 VO 事件 的 抽象 ， 已经 移植 到 
了 多 个 UNIX 系统 中 。Libevent 的 底层 机 制 能 够 《以 透明 的 方式 ) 应 用 本 半 所 描述 的 任意 一 种 
BUR: select(). poll). f5i 5 3K2/J IO 或 者 epoll。 同 样 ， 也 支持 Solaris 专 有 的 /dev/poll 接口 和 BSD 
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系统 的 kqueue 接口 。( 因 此 ，libevent 也 可 以 作为 如 何 使 用 这 些 技术 的 绝 佳 示例 。) libevent 的 
作者 是 Niels Provos， 访 项 目 可 在 http://monkey.org/-provos/ libevent/ 上 找到 。 


63.1.1 水平 触 发 和 边缘 触发 
在 深入 讨论 多 种 可 选 的 IO 机 制 之 前 , 我 们 需要 先 区 分 两 种 文件 摘 述 符 准 备 束 绪 的 通知 模式 。 
e JKOP fS XE: 如 果 文 件 描述 符 上 可 以 非 阻 圭 地 执行 IO 系统 调用 ， 此 时 认为 它 已 经 
就 绪 。 
。 污 毕 般 奖 通 乱 ， 如 果 文 件 描述 符 自 上 次 状态 检查 以 来 有 了 新 的 1/O 活动 (比如 新 的 输 
入 )， 此 时 需要 触发 通知 。 
表 63-l 总 结 了 LO 多 路 复 用 、 信 号 驱动 VO 以 及 epoll 所 采用 的 通知 模型 。epoll API 同 其 
他 两 种 IO 模型 的 区 别 在 于 它 对 水 平 触 发 〈( 默 认 ) 和 边缘 触发 都 支持 。 


表 63-1: 使 用 水 平 触发 和 边缘 触发 通知 模型 


IO 模式 水 平 触发 边缘 触发 














select(),poll() 
信号 驱动 IO @ 
epoll o 





8 2XXx P REL ARTS: 70 px] FH 28 KERRE 2] rr 3E. PES TI YS — P8 ABS 
型 的 选择 是 如 何 影响 我 们 设计 程序 的 方式 的 。 
当 采 用 水 平 触 发 通知 时 ， 我 们 可 以 在 任意 时 刻 检查 文件 摘 述 符 的 束 绪 状态 。 这 表示 当 我 
们 确定 了 文件 摘 述 符 处 于 残 绪 态 时 《比如 存在 有 输入 数据 )， 束 可 以 对 其 执行 一 些 VO BRE, 
然后 重复 检查 文件 描述 符 ， 看 看 是 否 仍然 处 于 就 绪 态 (比如 还 有 更 多 的 输入 数据 )， 此 时 我 们 
就 能 执行 更 多 的 VO， 以 此 类 准 。 换 句 话 说 , (由 于 水 平 触发 模式 允许 我 们 在 任意 时 刻 午 复 检 
f VO 状态 ,没有 必要 每 次 当 文 件 摘 述 符 就 绪 后 需要 尽 可 能 多 地 执行 JO《〈 也 就 是 尽 可 能 多 地 读 
取 字 和 节 ， 四 或 是 根本 不 去 执行 任何 IO)。 
与 之 相反 的 是 ， 当 我 们 采用 边缘 触发 时 ， 只 有 当 VO 事件 发 生 时 我 们 才 会 收 到 通知 。 在 另 
一 个 IO 事件 到 来 前 我 们 不 会 收 到 任何 新 的 通知 。 另 外 ， 当 文件 描述 符 收 到 IO 事件 通知 时 ， 
通常 我 们 并 不 知道 要 处 理 多 少 UO 《例如 有 多 少 字 节 可 谈 )。 因 此 ， 采 用 边缘 触发 通知 的 程序 
通常 要 按照 如 下 规则 来 设计 。 
。 在 接收 到 一 个 VO 事件 通知 后 ， 程 序 在 某 个 时 刻 应 该 在 相应 的 文件 描述 符 上 尽 可 能 多 
HERAT VO CEE mU HE fe S HEU B. 如 果 程 序 没 这 么 做 , 那么 就 可 能 失去 执行 IO 
的 机 会 。 因 为 直到 产生 另 一 个 VO 事件 为 止 ， 在 此 之 前 程序 都 不 会 再 接收 到 通知 了 ， 
因此 也 就 不 知道 此 时 应 该 执行 IO 操作 。 这 将 导致 数据 丢失 或 者 程序 中 出 现 阻塞 。 前 
面 我 们 说 “在 某 个 时 刻 ” 是 因为 有 时 候 当 我 们 确定 了 文件 摘 述 符 是 残 绪 态 时 ， 此 时 
可 能 并 不 适合 马上 执行 所 有 的 VO 操作 。 问 题 的 原因 在 于 如 果 我 们 仅 对 一 个 文件 描述 
符 执 行 大 量 的 IO 操作 ， 可 能 会 让 其 他 文件 摘 述 符 处 于 饥 饼 状 态 。 在 63.4.6 TP, 我 
们 对 epoll API 的 边缘 触发 通知 做 介绍 时 再 深入 讨论 这 个 问题 。 

e 如 果 程 序 采 用 循环 来 对 文件 摘 述 符 执 行 尽 可 能 多 的 WO， 而 文件 摘 述 符 又 被 置 为 可 阻 
塞 的 ， 那 么 最 终 当 没有 更 多 的 IO 可 执行 时 ，LIO 系统 调用 就 会 阻塞 。 基 于 这 个 原因 ， 
每 个 被 检查 的 文件 描述 符 通 常 都 应 该 置 为 非 阻 罕 模 式 ， 在 得 到 LO 事件 通知 后 重复 执行 
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63.1.2 ”在 备 选 的 1/O 模型 中 采用 非 阻 塞 |/O 


JEPE I/O CO NONBLOCK 标志 ) 常 和 本 章 中 所 描述 的 UO 模型 一 起 使 用 。 下 面 列 出 了 
一 些 例子 ， 以 说 明 为 什么 这 么 做 会 很 有 用 。 
e 如 同上 一 节 所 述 ， 非 阻塞 VO 通常 和 提供 有 边缘 触发 通知 机 制 的 VO 模型 一 起 使 用 。 
e 如 果 多 个 进程 〈 或 线程 ) 在 同一 个 打开 的 文件 描述 符 上 执行 IO 操作 ， 那 么 从 某 个 特 
定 进 程 的 角度 来 看 ， 文 件 描述 符 的 残 绪 状态 可 能 会 在 通知 残 络 和 执行 后 续 VO 调用 之 
间 发 生 改 变 。 结 果 就 是 一 个 阻塞 式 的 IO 调用 将 阻塞 ， 从 而 防止 进程 检查 其 他 的 文件 
描述 符 。( 这 种 情况 会 发 生 在 本 章 所 描述 的 所 有 VO 模型 上 , 无 论 它们 采用 的 是 水 平 触 
发 还 是 边缘 触发 。) 

e 尽管 水 平 触发 模式 的 API 比 如 select0 或 poll0 通 知 我 们 流 式 套 接 字 的 文件 描述 符 已 经 写 就 
绪 了 ， 如 果 我 们 在 单个 write0 或 send0 调 用 中 写 入 足够 大 块 的 数据 ， 那 么 该 调用 将 阻塞 。 

e 在 非常 罕见 的 情况 下 ， 水 平 触发 型 的 API 比如 select0 和 pollO0， 会 返回 虚假 的 就 绪 通 知 
一 一 它们 会 错误 地 通知 我 们 文件 描述 符 已 经 就 结 了 。 这 可 能 是 由 内 核 bug 造成 的 ， 或 
非 普 通 情 况 下 的 设计 方案 所 期 望 的 行为 。 

[Stevens et al., 2004] 中 16.6 节 介 绍 了 一 个 BSD 系统 上 的 监 昕 套 接 字 的 虚假 就 绪 通 知 例 
子 。 如 果 客 户 问 先 连接 到 服务 器 端的 监听 套 接 字 上 ， 然 后 再 重 置 连接 ， 服 务 器 端的 select() 
调用 在 这 两 个 事件 之 间 将 提示 监听 套 接 字 为 可 读 束 绪 ， 但 随后 当 客 户 端 重 置 连接 后 ， 服 务 
Anf] accepto HH SHE. 



































63.2 1/O 多 路 复 用 


IO 多 路 复 用 允许 我 们 同时 检查 多 个 文件 描述 符 ， 看 其 中 任意 一 个 是 否 可 执行 IO 操作 。 我 
们 可 以 采用 两 个 功能 几乎 相同 的 系统 调用 来 执行 IO 多 路 复 用 操作 。 第 一 个 是 select), CEA 
出 现在 BSD 系统 的 套 接 字 API 中 。 在 这 两 个 系统 调用 中 ， 历 史上 select() 的 应 用 更 广泛 。 男 一 
个 系统 调用 是 poll0, 它 出 现在 System V 中 。select0 和 pollO 现 在 都 是 SUSv3 中 规定 的 标准 接口 。 

我 们 可 以 在 普通 文件 、 终 端 、 伪 终端 、 管 道 、FIFO、 套 接 字 以 及 一 些 其 他 类 型 的 字符 型 
设备 上 使 用 select0 和 poll0 来 检查 文件 描述 符 。 这 两 个 系统 调用 都 允许 进程 要 么 一 直 等 待 文件 
描述 符 成 为 就 绪 态 ， 要 么 在 调用 中 指定 一 个 超时 时 间 。 


63.2.1 select() 系 统 调用 
系统 调用 select0 会 一 直 阻 竖 ， 直 到 一 个 或 多 个 文件 描述 符 集 合成 为 就 绪 态 。 


include «sys/time.h» /* For portability */ 
include «sys/select.h» 

















int select(int nds, fd set *readíds, fd set *writefds, fd set *exceptfds, 
struct timeval *timeout); 


Returns number of ready file descriptors, 0 on timeout, or -1 on error 
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参数 nfds, readfds, writefds 和 exceptfds 指定 了 selectO 要 检查 的 文件 描述 符 集 合 。 参 数 
timeout 可 用 来 设 定 selectO 阻 杜 的 时 间 上 限 。 我 们 接 下 来 详细 朱 述 这 些 参数 的 意义 。 


F 文 给 出 的 selectO 函 数 原 型 中 我 们 包含 了 头 文件 <systime.h>， 因 为 这 是 SUSv2 中 指定 的 
头 文 件 ， 而 且 其 他 一 些 UNIX 实现 中 需要 这 个 头 文 件 。(Linux 中 也 提供 有 头 文件 <sys/time.h>， 
包含 它 没什么 坏处 。) 








文件 描述 符 集合 

参数 readfds、writefds 以 及 exceptfds 都 是 指 回 文件 摘 述 符 集 合 的 指针 ， 上 所 指 回 的 数据 关 
型 是 fd_set。 这 些 参数 按照 如 下 方式 使 用 。 

。 readfds 是 用 来 检测 输入 是 否 就 绪 的 文件 摘 述 符 集 合 。 

e writefds 是 用 来 检测 输出 是 否 瓯 绪 的 文件 摘 述 符 集 合 。 

e exceptfds 是 用 来 检测 异 稼 情况 是 否 发 生 的 文件 描述 符 集 合 。 

术语 “ 措 委 情况 ”和 营 常 被 误解 为 在 文件 描述 符 上 出 现 了 一 些 错 误 ， 这 并 不 正确 。 在 Linux E, 
一 个 寞 第 情况 只 会 在 下 和 耐 两 种 情况 下 发 生 (其 他 的 UNIX 实现 也 类 似 )。 

e 连接 到 处 于 信和 包 模 式 下 的 伪 终 闹 主 设备 上 的 从 设备 状态 发 生 了 改变 〈( 见 64.5 市 )。 

e MAERT ERKE S irská I 61.13.1 方 )。 

通常 ， 数 据 类 型 fd_set UMER KM, B, RAA E , 
为 所 有 关于 文件 描述 和 从 集合 的 操作 都 是 通过 四 个 宏 来 完成 的 : FD ZEROO,. FD SETQO. 
FD CLRQUAA FD ISSET(). 























include «sys/select.h» 


void FD ZERO(fd set *fdset); 
void FD SET(int fd, fd set *fdset); 
void FD CLR(int fd, fd set *fdset); 
int FD ISSET(int fd, fd set *fdsel); 
Returns true (1) if fd is in fdset, or false (0) otherwise 








这 些 宏 按 如 下 方式 工作 。 

。 FD ZEROO 将 fdset 所 指 癌 的 集合 初始 化 为 空 。 

e FD_SETO 将 文件 描述 符 乌 添 加 到 由 fdset 所 指向 的 集合 

。 FD_CLRO 将 文件 描述 符 fd 从 fdset 所 指 疝 的 集合 中 移 除 。 

。 UCET fd 是 fdset 所 指 问 的 集合 中 的 成 员 ，FD_ISSETO 返 回 true. 

文件 摘 述 符 集合 有 一 个 最 大 容量 限制 ， 由 常量 FD SETSIZE 来 决定 。 (在 Linux E, A 

EEA 1024. (其 他 UNIX. 实现 对 于 该 限制 也 有 类 似 的 常量 值 来 限定 。) 
尽管 FD_* 宏 操作 的 是 用 户 空间 数据 结构 ，select() 的 内 核实 现 却 能 处 理 更 大 的 文件 

描述 符 集 合 。 在 glibe 中 没有 什么 简单 的 方法 可 以 修改 FD_SETSIZE 的 定义 。 如 果 我 们 
想 修 改 这 个 限制 ， 必 须 修改 glibe 头 文件 中 的 定义 。 但 是 ， 基 于 本 章 稍 后 所 到 的 原因 ， 
如 朱 我 们 需要 检查 大 量 的 文件 朱 述 符 ， 那 么 使 用 epoll 可 能 比 selectO 更 加 可 取 。 


参数 readfds, writefds 和 exceptfds 所 指 问 的 结构 体 都 是 你 存 结 果 值 的 地 方 。 在 调用 select() 
之 前 ， 这 些 参数 指 回 的 结构 体 必须 初始 化 (通过 FD_ZEROO 和 FD_SETO)， 以 包含 我 们 感 兴 
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趣 的 文件 描述 符 集 合 。 之 后 selectO 调 用 会 修改 这 些 结构 体 ， 当 select0 返 回 时 ， 它 们 包含 的 就 
是 已 处 于 就 绪 态 的 文件 描述 符 集合 了 。 (由 于 这 些 结构 体会 在 调用 中 被 修改 ,， 产 果 要 在 循环 种 
重复 调用 Select， 我 们 必须 保证 每 次 都 要 重新 初始 化 它们 5) 之 后 这 些 结构 体 可 以 通过 
FD_ISSETO 来 检查 。 

如 果 我 们 对 某 一 类 型 的 事件 不 感 兴 趣 , 那么 相应 的 fd. set 参数 可 以 指定 为 NULL。 我 们 将 
在 63.2.3 市 中 对 这 三 种 事件 类 型 做 更 准确 的 解释 。 

参数 nfds 必须 设 为 比 3 个 文件 描述 符 集 合 中 所 包含 的 最 大 文件 描述 符号 还 要 大 1。 该 参 
数 让 selectO0 变 得 更 有 效率 ， 因 为 此 时 内 核 就 不 用 去 检查 大 于 这 个 值 的 文件 描述 符号 是 否 属于 
这 些 文 件 摘 述 符 集 合 。 











timeout 参数 


参数 timeout 控制 看 selectO 的 阻塞 行为 .该 参 数 可 指定 为 NULL 此 时 select0 会 一 直 阻 塞 。 
又 或 者 指 问 一 个 timeval 结构 体 。 
struct timeval { 
time t tv sec; /* Seconds */ 
suseconds t tv usec; /* Microseconds (long int) */ 
}; 


如 果 结 构 体 timeval 的 两 个 域 都 为 0 的 话 ， 此 时 selectO) 不 会 阻塞 , 它 只 是 简单 地 轮 询 指定 
的 文件 摘 述 符 集合 , 看 看 其 中 是 否 有 束 绪 的 文件 接 述 符 并 立刻 返回 ,否则 , timeout 将 为 selectO) 
指定 一 个 等 待 时 间 的 上 限 值 。 

尽管 结构 体 timeval 能 文 持 微 秒 级 的 精度 ， 访 调用 的 准确 度 仍 受 软件 时 钟 粒 度 的 限制 〈 见 
10.6 节 )。SUSv3 规定 ， 当 timeout 不 是 该 粒度 的 整数 倍 时 将 向 上 取 整 。 




















SUSv3 要 求 最 大 允许 的 超时 间隔 全 少 为 31 Ko KEZ UNIX 实现 允许 一 个 相当 高 的 限制 
值 。 由 于 Linux/x86-32 使 用 32 位 整数 作为 tme t 的 类 型 ， 因 此 上 限 值 局 达 数 年 。 














当 timeout 设 为 NULL, 或 其 指 问 的 结构 体 子 段 非 零 时 , selectO 将 阻 团 下 到 有 下 列 事件 肥 生 : 
e readfds、writefds 或 exceptfds 中 指定 的 文件 揪 述 人 符 中 全 少 有 一 个 成 为 环绕 态 ; 

。 该 调用 被 信号 处 理 例 程 中 断 ; 

e timeout 中 指定 的 时 间 上 限 已 超时 。 


”在 缺少 亚 秒 级 sleep 调用 (例如 nanosleep0) 的 老式 UNIX 实现 中 ，selectO 被 用 来 模拟 这 个 ， 
功能 。 这 可 以 通过 指定 nfds 7j 0, readfds, writefds 以 及 exceptfds 全 设 为 NULL， 而 期 望 的 休 
眠 时 间 在 timeout 中 指定 来 完成 。 


fr Linux E, WR select0 因 为 有 一 个 或 多 个 文件 摘 述 符 成 为 束 绪 态 而 返回 ， 且 如 果 参 数 
timeout JEF, JI A selectO 会 更 新 timeout 所 指 问 的 结构 体 以 此 来 表示 和 独 余 的 超时 时 间 。 但 是 ， 
这 种 行为 是 与 具体 实现 相关 的 。SUSv3 中 还 允许 系统 不 去 修改 timeout 所 指向 的 结构 体 ， 且 大 
多 数 UNIX 实现 都 不 会 修改 这 个 结构 体 。 在 循环 中 使 用 了 selectO 的 可 移植 的 应 用 程序 应 该 总 
是 确保 timeout 所 指 问 的 结构 体 在 每 次 调用 selectO 之 前 都 要 得 到 初始 化 , 而 且 在 调用 完成 后 应 
该 忽略 该 结构 体 中 返回 的 信息 。 

SUSv3 中 规定 由 timeout 所 指 问 的 结构 体 只 有 在 selectO 调 用 成 功 返 回 后 才 有 可 能 被 修改 。 
但 是 ,在 Linux 上 如 果 selectO 被 一 个 信号 处 理 例 程 中 断 的 话 ( 因 此 select) P^ ^E EINTR 错误 人 码 )， 
那么 该 结构 体 也 会 被 修改 以 表示 剩余 的 超时 时 间 《〈 其 作用 相当 于 select0 成 功 返回 )。 
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如 果 我 们 使 用 Linux 专 有 的 personality0 系 统 调 用 来 设 定 包 含 了 STICKY_TIMEOUTS 位 的 
进程 运行 域 ， 那 么 select() 将 不 会 修改 由 timeout 所 指 癌 的 结构 体 。 





select() 的 返回 值 


作为 函数 的 返回 值 ，selectO 会 返回 如 下 几 种 情况 中 的 一 种 。 

e 返回 -1 表示 有 错误 发 生 。 可 能 的 错误 码 包括 EBADF 和 EINTR. EBADF 表示 readfds, 
writefds 或 者 exceptfds 中 有 一 个 文件 摘 述 符 是 非法 的 〈 例 如 当前 并 没有 打开 )。EINTR 
表示 该 调用 被 信号 处 理 例 程 中 断 了 。( 如 21.5 节 所 述 ,如 果 被 信号 处 理 例 程 中 断 ,selectO) 
是 不 会 自动 恢复 的 。) 

e 返回 0 表示 在 任何 文件 摘 述 符 成 为 陇 绪 态 之 前 selectO 调 用 已 经 超时 。 在 这 种 情况 下 ， 
每 个 返回 的 文件 摘 述 符 集 合 将 被 清空 。 

e 返回 一 个 正 整 数 表 示 有 1 个 或 多 个 文件 摘 述 和 从 已 达到 束 绪 态 。 返 回 值 表示 处 于 就 绪 态 
的 文件 揪 述 符 个 数 。 在 这 种 情况 下 ， 每 个 返回 的 文件 揪 述 符 集 合 都 需要 检查 ( 通 
过 FD_ISSETO), 以 此 找 出 发 生 的 VO 事件 是 什么 。 如 果 同 一 个 文件 描述 符 在 readfds、 
writefds 和 exceptfds 中 同时 被 指定 ， 且 它 对 于 多 个 VO UERITAS. JA 
区 会 被 统计 多 次 。 换 名 话说 ，select0 返 回 所 有 在 3 个 集合 中 被 标记 为 就 绪 态 的 文件 描述 
ITAN o 

















示例 程序 

程序 清单 63-1 中 的 程序 说 明了 selectO 的 用 法 。 通 过 命令 行 参 数 ， 我 们 可 以 指定 超时 时 间 
以 及 我 们 和 硕 望 检查 的 文件 描述 符 。 第 一 个 命令 行 参 数 指定 了 select0 中 的 timeout 参数 ， 以 秒 为 
单位 。 如 果 这 里 指定 了 连 字 符 〈-)， 那 么 select0 的 timeout 参数 就 设 为 NULL， 表 示 会 一 直 阻 
圭 。 剩 下 的 命令 行 参 数 用 来 指定 需要 检 答 的 文件 摘 述 符 个 数 ， 跟 独 的 字符 表示 需要 被 检查 的 
HFR, RINZE Uee r GERA) Mw CRAE). 

程序 清单 63-1: 使 用 select() 来 检查 多 个 文件 描述 符 























altio/t select.c 
#include «sys/time.h» 
include «sys/select.h» 
#include "tlpi hdr.h" 


static void 
usageError(const char *progName) 


{ 
fprintf(stderr, "Usage: Xs {timeout|-} fd-num[rw]...Nn", progName); 
fprintf(stderr, " - means infinite timeout; Win"); 
fprintf(stderr, " r = monitor for read\n"); 
fprintf(stderr, " w = monitor for writeWn Wn"); 
fprintf(stderr, " e.g.: 4s - Orw 1wMn", progName); 
exit(EXIT FAILURE); 

} 

int 


main(int argc, char *argv[]) 


fd set readfds, writefds; 
int ready, nfds, fd, numRead, j; 
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struct timeval timeout; 
struct timeval *pto; 
char buf[10]; /* Large enough to hold "rwNo" */ 


if (argc < 2 || stremp(argv[1], "--help") == 0) 
usageError(argv[0]); 


/* Timeout for select() is specified in argv[1] */ 


if (stremp(argv[1], "-") == 0) { 
pto - NULL; /* Infinite timeout */ 
} else { 
pto = &timeout; 
timeout.tv sec = getlong(argv[1], 0, "timeout"); 
timeout.tv usec - 0; /* No microseconds */ 


j 


/* Process remaining arguments to build file descriptor sets */ 


nfds = 0; 
FD ZERO(&readfds); 
FD ZERO(&writefds); 


for (j = 2; j < argc; j++) 1 
numRead = sscanf(argv[j], "%d%2[rw]", &fd, buf); 
if (numRead != 2) 
usageError(argv[0]); 
if (fd >= FD SETSIZE) 
cmdLineErr("file descriptor exceeds limit (%d)\n", FD SETSIZE); 


if (fd »- nfds) 
nfds = fd + 1; /* Record maximum fd + 1 */ 
if (strchr(buf, 'r') !- NULL) 
FD SET(fd, &readfds); 
if (strchr(buf, 'w') !- NULL) 
FD SET(fd, &writefds); 
} 


/* We've built all of the arguments; now call select() */ 


ready = select(nfds, &readfds, &writefds, NULL, pto); 
/* Ignore exceptional events */ 
if (ready == -1) 
errExit("select"); 


/* Display results of select() */ 


printf("ready = %d\n", ready); 
for (fd = 0; fd < nfds; fd++) 
printf("%d: %s%s\n", fd, FD ISSET(fd, &readfds) ? "r" : "", 
FD ISSET(fd, &writefds) ? "w" : ""); 


if (pto !- NULL) 
printf("timeout after select(): %1d.%03ld\n", 


(long) timeout.tv sec, (long) timeout.tv usec / 10000); 
exit(EXIT SUCCESS); 


altio/t select.c 
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在 下 面 的 shell 会 话 日 志 中 ， 我 们 说 明了 程序 清单 63-1 的 用 法 。 在 第 一 个 例子 中 ， 我 们 请 
Ad OC MERDA 0 上 的 输入 ， 超 时 时 间 定 为 10 b. 


$ ./t select 10 Or 
Press Enter, so that a line of input is available on file descriptor O 





ready - 1 

0: r 

timeout after select(): 8.003 

$ Next shell prompt is displayed 





上 面 的 输出 告诉 我 们 selectO BE T AART CURE T Wie. XCTI 0 已 经 
准备 好 读 取 数据 了 。 我 们 也 可 以 看 到 timeout 已 经 个 修改 了 。 最 后 一 行 输 出 只 有 shell 提示 符 $， 
这 是 因为 t select 程序 并 没有 读 取 让 文件 描述 符 0 处 于 读 束 绪 态 的 换行 件 ， 因 此 这 个 字符 由 
shell 读 取 ， 结 果 束 是 打印 出 了 为 一 个 shell 提示 符 。 

在 下 一 个 示例 中 ， 我 们 再 次 检查 文件 描述 符 0 的 输入 状态 ， 但 这 一 次 将 超时 时 间 设 为 0 秒 。 


$ ./t select 0 Or 
ready - 0 
timeout after select(): 0.000 


select Ug H ZR IRI, HEMRA XCEETIOANTT Rb T LEE Se 
下 一 个 示例 中 ， 我 们 检查 文件 描述 符 0 上 有 是 售 有 输入 ， 以 及 文件 描述 符 1 Excuse 
在 这 种 情况 下 ， 我 们 将 参数 timeout 设 为 NULL【〈 第 一 个 命令 行 参数 为 连 字 符 -)， 表 示 一 直 阻 














aep 
$ ./t select - Or 1w 
ready - 1 
0: 
1: w 


selectO 调 用 立刻 返回 ， 并 告诉 我 们 文件 描述 符 Y 上 有 输出 。 


63.2.2 pol) ZAJA 

系统 调用 poll0 执 行 的 任务 同 selectO 很 相似 。 两 者 间 主 要 的 区 别 在 于 我 们 要 如 何 指定 待 检 
AWR. Æ select0 中 ， 我 们 提供 三 个 集合 ， 在 每 个 集合 中 标明 我 们 感 兴趣 的 文件 描 
BIT. 而 在 pol0 中 我 们 提供 一 列 文件 描述 符 , 并 在 每 个 文件 描述 符 上 标明 我 们 感 兴 趣 的 事件 。 








#include «poll.h» 


int poll(struct pollfd fds[], nfds t nfds, int timeout); 


Returns number of ready file descriptors, 0 on timeout, or -1 on error 








参数 fds 列 出 了 我 们 需要 poll0 来 检查 的 文件 描述 符 。 该 参数 为 pollfd 结构 体 数 组 ， 其 定 
义 如 下 。 
struct pollfd { 


int fd; /* File descriptor */ 
short events; /* Requested events bit mask */ 
short revents; /* Returned events bit mask */ 


ps 

参数 nfds 指定 了 数组 fds 中 元 素 的 个 数 。 数 据 类 型 nfds t 实际 为 无 符号 整形 。 

pollfd 结构 体 中 的 events 和 revents 字段 都 是 位 手 公 。 调 用 者 杞 始 化 events 来 指定 需要 为 
描述 符 fd 做 检查 的 事件 。 当 poll0 返 回 时 ，revents 被 设 定 以 此 来 表示 该 文件 描述 符 上 实际 发 
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生 的 事件 。 

K 63-2 列 出 了 可 能 会 出 现在 events 和 revents 字段 中 的 位 扒 码 。 该 表 中 第 一 组 位 掩 人 码 
(POLLIN、POLLRDNORM、POLLRDBAND、POLLPRI 以 及 POLLRDHUP) 同 输入 事件 相 
关 。 下 一 组 位 掩 码 (POLLOUT、POLLWRNORM 以 及 POLLWRBANDDO 同 输 出 事件 相关 。 
第 三 组 位 掩 码 (POLLERR、POLLHUP 以 及 POLLNVAL) 是 设 定 在 revents 字段 中 用 来 返回 
有 关 文 件 描述 符 的 附加 信息 。 如 果 在 events 字段 中 指定 了 这 些 位 掩 码 ， 则 这 三 位 将 被 急 略 。 
在 Linux 系统 中 ，poll0) 不 会 用 到 最 后 一 个 位 掩 码 POLLMSG. 


X 63-2: pollfd 结构 体 中 events 和 revents 字段 中 出 现 的 位 掩 码 值 


oH 码 events 中 的 输入 Hox 

















POLLIN 可 读 取 非 高 优先 级 的 数据 
POLLRDNORM 等 同 于 POLLIN 
POLLRDBAND 可 读 取 优先 级 数据 (Linux 中 不 使 用 ) 
POLLPRI 可 读 取 高 优先 级 数据 
POLLRDHUP 对 端 套 接 字 关闭 
POLLOUT 普通 数据 可 与 
POLLWRNORM 等 同 于 POLLOUT 
POLLWRBAND 优先 级 数据 可 写 入 
POLLERR 有 错误 发 生 

POLLHUP 出 现 挂 断 

POLLNVAL 文件 摘 述 符 未 打开 


POUMSG | | imis HARUM CUI PRE 


在 提供 有 STREAMS 设备 的 UNIX 实现 中 ，POLLMSG 表示 包含 有 SIGPOLL 信和 号 的 消息 
已 经 到 达 stream 头 部 。Linux 中 没有 使 用 到 POLLMSG， 因 为 Linux 并 没有 实现 STREAMS. 








如 有 果 我 们 对 有 某 个 特定 的 文件 摘 述 符 上 的 事件 不 感 兴趣 ， 可 以 将 events 议 为 0。 另外 , £5 fd 
学 段 指 定 一 个 负 值 〈 例 如 ， 如 果 值 为 非 零 ， 取 它 的 相反 数 ) 将 导致 对 应 的 events 字段 被 忽略 ， 
H. revents 字段 将 总 是 返回 0。 这 两 种 方法 都 可 以 用 来 (也 许 只 是 暂时 的 ) 关闭 对 单个 文件 描 
述 得 的 检查 ， 而 不 需要 得 独 建 并 整个 fds 列表 。 

注意 ， 下 面 进一步 列 出 的 要 点 主要 是 关于 pollO0 的 Linux 实现 。 

e 尽管 似 定 义 为 不 同 的 位 担 码 ，POLLIN 和 POLLRDNORM 是 同义词 。 

e 尽管 人 定 义 为 不 同 的 位 提 码 ，POLLOUT 和 POLLWRNORM 是 同义词 。 

e 一 般 来 说 POLLRDBAND 是 不 被 使 用 的 , 也 就 是 说 它 在 events 字段 中 被 忽略 ， 也 不 会 

设 定 到 revents 中 去 。 














唯一 用 到 POLLRDBAND 的 地 方 是 在 实现 DECnet 网 络 协议 的 代码 中 《已 过 时 )。 











e 尽管 在 特定 情形 下 可 用 于 对 套 接 字 的 设 定 ，POLLWRBAND 并 不 会 传达 任何 有 用 的 信息 。 
(不 会 出 现 当 POLLOUT 和 POLLWRNORM 没有 设 定 ， 而 设 定 了 POLLWRBAND 的 情况 。) 
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POLLRDBAND 和 POLLWRBAND 对 于 提供 有 System V STREAMS 实现 的 系统 来 说 是 
有 意义 的 〈Linux 没有 实现 STREAMS). Æ STREAMS 下 ， 消 息 可 以 附 上 一 个 非 零 的 优先 
级 ， 这 样 的 消息 在 接收 奖 排 队 时 按照 优先 级 递减 的 方式 排列 ， 会 排 在 普通 消 县 〈 优 先 级 为 0) 
的 前 面 。 


e 必须 定义 XOPEN SOURCE 测试 安 ， 这 样 才 能 在 头 文 件 <pollh> 中 得 到 负重 
POLLRDNORM、POLLRDBAND、POLLWRNORM 以 及 POLLWRBAND 的 定义 。 
。 POLLRDHUP 是 Linux 专 有 的 标志 位 ， 从 2.6.17 版 内 核 以 来 束 一 直 存 在 。 要 在 头 文件 
<poll.h> 中 得 到 它 的 定义 ， 必 须 定 义 _GNU_SOURCE 测试 宏 。 
。 如果 指 定 的 文件 摘 述 符 在 调用 poll0 时 关闭 了 ， 则 返回 POLLNVAL。 
总 结 以 上 要 点 , poll0 真 正 关心 的 标志 位 就 是 POLLIN、 POLLOUT、 POLLPRI、 POLLRDHUP, 
POLLHUP 以 及 POLLERR。 我 们 在 63.2.3 市 中 以 更 评 尽 的 方式 讨论 这 些 标志 位 的 意义 。 




















timeout 参数 


参数 timeout 决定 了 pollORJBEH2E41T 7g, Hki F.o 

e 如 果 timeout 等 于 -1，poll0 会 一 直 阻 塞 直到 fds 数组 中 列 出 的 文件 描述 符 有 一 个 达到 
就 绪 态 (定义 在 对 应 的 events 字段 中 ) 或 者 捕获 到 一 个 信号。 

e 如 果 timeout 等 于 0，pol0 不 会 阻塞 一 一 只 是 执行 一 次 检查 看 看 哪个 文件 摘 述 符 处 于 

e 如 果 timeout 大 于 0，polO 至 多 阻塞 timeout Z&f^, HFI) fds 列 出 的 文件 描述 符 中 有 一 
个 达到 就 绪 态 ， 或 者 直到 捕获 到 一 个 信和 号 为 止 。 

同 select() 一 样 ，timeout 的 精度 受 软件 时 钟 粒度 的 限制 〈 见 10.6 节 )， 而 SUSv3 中 规定 ， 

如 果 timeout 的 值 不 是 时 钟 粒 度 的 整数 倍 ， 将 总 是 向 上 取 整 。 






































poll() 的 返回 值 


作为 函数 的 返回 值 ，poll0 会 返回 如 下 儿 种 情况 中 的 一 种 。 

e 返回 -1 表示 有 错误 发 生 。 一 种 可 能 的 错误 是 EINTR， 表 示 该 调用 被 一 个 信号 处 理 
例 程 中 断 。( 如 21.5 贡 中 所 注 明 的 ， 如 果 被 信号 处 理 例 程 中 断 ，pollO 绝 不 会 目 动 
恢复 。) 

e 返回 0 表示 该 调用 在 任意 一 个 文件 描述 符 成 为 就 绪 态 之 前 束 超 时 了 。 

e 返回 正 整数 表示 有 1 个 或 多 个 文件 揪 述 符 处 于 束 绪 态 了。 返回 值 表示 数组 fds 中 拥有 
非 零 revents 字段 的 pollfd 结构 体 数 量 。 


注意 select0 同 poll0 返 回 正 整 数值 时 的 细小 差别 。 如 果 一 个 文件 描述 符 在 返回 的 描述 符 集 
合 中 出 现 了 不 止 一 次 ， 系 统 调用 selectO 会 将 同一 个 文件 摘 述 符 计 数 多 次 。 而 系统 调用 pollo 
回 的 是 就 绪 态 的 文件 描述 符 个 数 ， 日 一 个 文件 揪 述 符 只 会 统计 一 次 , 束 算 在 相应 的 revents 字段 
中 设 定 了 多 个 位 掩 码 也 是 如 此 。 




















示例 程序 
程序 清单 63-2 给 出 了 一 个 使 用 poll0 的 简单 演示 。 这 个 程序 创建 了 一 些 管道 (每 个 管道 使 
用 一 对 连续 的 文件 掏 述 符 )， 将 字 蔬 写 到 随机 选择 的 管道 号 中， 然后 通过 poll0 来 检查 看 哪个 
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党 道中 有 数据 可 进行 读 取 。 

下 面 的 shell 会 话 展示 了 当 我 们 运行 该 程序 时 会 看 到 什么 结果 。 程 序 的 命令 行 参数 指定 了 应 
该 创建 10 个 管道 ， 而 写 操作 应 该 随机 选择 其 中 的 3 个 管道 。 

$ ./poll pipes 10 3 

Writing to fd: 4 (read fd: 3) 

Writing to fd: 14 (read fd: 13) 

Writing to fd: 14 (read fd: 13) 

poll() returned: 2 

Readable: 3 

Readable: 13 


从 上 面 的 输出 我 们 可 知 polO 发 现 两 个 党 息 上 有 数据 可 恋 取 。 
程序 清单 63-2: 使 用 poll() 来 检查 多 个 文件 描述 符 











altio/poll pipes.c 
#include «time.h» 
#include «poll.h» 
include "tlpi hdr.h" 


int 
main(int argc, char *argv[]) 


int numPipes, j, ready, randPipe, numWrites; 
int (*pfds)[2]; /* File descriptors for all pipes */ 
struct pollfd *pollFd; 


if (argc < 2 || stremp(argv[1], "--help") == 0) 
usageErr("Xs num-pipes [num-writes]Nn", argv[0]); 


/* Allocate the arrays that we use. The arrays are sized according 
to the number of pipes specified on command line */ 


numPipes = getInt(argv[1], GN GT 0, "num-pipes"); 


pfds = calloc(numPipes, sizeof(int [2])); 
if (pfds -- NULL) 
errExit("malloc"); 
pollFd = calloc(numPipes, sizeof(struct pollfd)); 
if (pollFd == NULL) 
errExit("malloc"); 


/* Create the number of pipes specified on command line */ 


for (j = 0; j < numPipes; j++) 


if (pipe(pfds[j]) == -1) 
errExit("pipe Ad", j); 


/* Perform specified number of writes to random pipes */ 


numWrites = (argc > 2) ? getInt(argv[2], GN GT 0, "num-writes") : 1; 
srandom((int) time(NULL)); 
for (j = 0; j < numurites; j++) { 
randPipe = random() % numPipes; 
printf("Writing to fd: %3d (read fd: %3d)\n", 
pfds[randPipe][1], pfds[randPipe][0]); 
if (write(pfds[randPipe][1], "a", 1) == -1) 
errExit("write 2d", pfds[randPipe][1]); 
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/* Build the file descriptor list to be supplied to poll(). This list 
is set to contain the file descriptors for the read ends of all of 
the pipes. */ 


for (j = 0; j < numPipes; j++) { 
pollFd[j].fd = pfds[jl[0]; 
pollFd[j].events - POLLIN; 


ready - poll(pollFd, numPipes, -1); /* Nonblocking */ 
if (ready == -1) 
errExit("poll"); 


printf("poll() returned: %d\n", ready); 
/* Check which pipes have data available for reading */ 


for (j = 0; j < numPipes; j++) 
if (pollFd[j].revents & POLLIN) 
printf("Readable: Xd %3d\n", j, pollFd[j].fd); 


exit(EXIT SUCCESS); 


altio/poll pipes.c 


63.2.3 ”文件 搬 述 符 何 时 就 绪 
正确 使 用 selectOAI poll0 需 要 理解 在 什么 情况 下 文件 摘 述 符 会 表示 为 束 绪 态 。SUSv3 
中 说 : WRX VO 函数 的 调用 不 会 阻 寨 ， 而 不 论 该 函数 是 否 能 够 实际 传输 数据 ， 此 时 文件 
描述 从 (未 指定 O_NONBLOCK Jy ASA JJ Ze LAIT] select I polO 只 会 告诉 我 们 LO 
操作 是 否 会 阻 时 ,而 不 是 告诉 我 们 到 故 能 耕 成 功 传输 数 据 。 按 照 这 个 思路 ， 让 我 们 考虑 一 
下 这 些 系统 调用 在 不 同类 型 的 文件 描述 符 上 所 做 的 操作 。 我 们 将 这 些 信 息 在 表格 中 以 两 列 
来 显示 。 
e Select( 这 一 列表 示 文 件 描述 符 是 否 被 标记 为 可 该 (r2, E w) 还 是 有 弄 第 情况 
(X )。 
e poll0 这 一 列表 示 在 revents 字段 中 返回 的 位 掩 码 。 在 这 些 表 格 中 ， 我 们 忽略 
POLLRDNORM, POLLWRNORM, POLLRDBAND 以 及 POLLWRBAND。 尽 管 在 很 
多 情况 下 这 些 标 志 会 在 revents 中 返回 〈 如 果 在 events 字段 中 指定 过 这 些 标志 )， 但 它 
们 相对 于 POLLIN、POLLOUT、POLLHUP 以 及 POLLERR 来 说 ， 并 没有 提供 更 多 有 
用 的 信息 。 






































普通 文件 
代表 普通 文件 的 文件 描述 符 总 是 被 select0 标 记 为 可 读 和 可 写 。 对 于 poll0 来 次 ， 则 会 在 
revents 字段 中 返回 POLLIN 和 POLLOUT 标志 。 原 因 如 下 。 
e read() 总 是 会 立刻 返回 数据 、 文 件 结尾 符 或 者 错误 例如， 文件 并 没有 因为 读 操 作 而 
11212. 
e Write(0) 总 是 会 立刻 传输 数据 或 者 因 出 现 某 些 错误 而 失败 。 
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SUSv3 中 说 select VIZE AR EB SCT ETE] SCIAS TENTAT THE 6 OSET AA ÁOGS] a 
文件 来 说 没有 明显 的 意义 )。 只 有 一 些 UNIX 实现 才 会 这 么 做 , 而 Linux 是 其 中 一 种 不 会 这 样 处 
理 的 实现 之 一 。 





K 63-3 总 结 了 在 终端 和 伪 终 端 上 《〈 见 第 64 章 ) select0 和 polO 的 行为 表现 。 

当 伪 终端 对 的 其 中 一 端 处 于 关闭 状态 时 ， 另 一 端 由 poll0O 返 回 的 revents 将 取决 于 具体 实 
现 。 Æ Linux 上 至 少 会 设置 POLLHUP 标志 。 但 是 ,在 其 他 实现 上 将 返回 各 种 不 同 的 标志 来 表 
示 这 个 事件 一 一 比如 ，POLLHUP、POLLERR 或 者 POLLIN。 此 外 ， 在 一 些 实现 中 ， 设 定 什 
么 样 的 标志 取决 于 被 检查 的 是 伪 终 端 主 设备 还 是 从 设备 。 

















R 63-3: 在 终端 和 伪 终 端 上 select() I poll() 所 表示 的 意义 


有 输入 r POLLIN 
可 输出 Ww POLLOUT 
伪 终 端 对 端 调用 closeO 后 rw Ji Ex 
处 于 信和 模式 下 的 伪 终 端 主 设备 检测 到 从 设备 端 状 态 改变 X POLLPRI 


管道 和 FIFO 
表 63-4 中 总 结 了 管道 或 FIFO 的 读 痕 细节。 管道 中 有 数据 ? ”这 一 列表 示 管 道中 是 合 全 少 有 


1 学 市 数据 可 读 。 在 这 个 表格 中 ， 我 们 假设 已 经 在 events 字段 中 指定 了 POLLIN 标志 。 














K 63-4: select() 和 poll() 在 管道 或 FIFO 读 端 上 的 通知 


条 件 或 事件 
select() poll() 
管道 中 有 数据 ? 写 端 打开 了 吗 ? 
T POLLHUP 
r POLLIN 
r POLLIN | POLLHUP 


在 其 他 一 些 UNIX 实现 中 ， 如 果 管 道 的 写 端 是 关闭 状态 ,那么 poll0 不 会 返回 POLLHUP, 
而 会 返回 POLLIN 标志 “因为 read0 遇 到 文件 结尾 符 会 立刻 返回 )。 可 移植 性 高 的 程序 应 该 检 
得 这 两 个 标 六 从 而 得 知 read0) 是 否 会 阻塞。 

X 63-5 总 结 了 管道 写 病 的 细 市 。 在 这 个 表格 中 ， 我 们 假设 已 经 在 events 字段 中 指定 了 
POLLOUT 标志 。“ 有 PIPE BUF 个 字 节 的 空间 吗 ?” 这 一 列表 示 管 道中 是 否 有 足够 剩余 空间 能 
够 以 原子 方式 写 入 PIPE_BUF 个 学 节 而 不 会 阻塞 。 这 是 Linux 判定 管道 是 否 写 就 绪 的 标准 方 
法 。 其 他 一 些 UNIX 实现 也 采用 相同 的 标准 ; 还 有 一 些 实现 中 认为 上 只要 可 以 写 入 1 个 字 节 ， 那 
么 管道 就 是 写 残 绪 的 。( 在 Linux 2.6.10 版 之 前 ,管道 的 负载 能 力 束 是 PIPE_BUF NEI. AKZ 
如 果 管 道 只 包含 1 衬 节 数据 ， 那 么 就 认为 它 是 不 可 写 的 。) 

在 其 他 一 些 UNIX 实现 中 ， 如 果 管 道 的 恋 问 关闭， 那么 poll0 并 不 会 返回 POLLERR Tas; 
相反 ， 要 么 会 返回 POLLOUT， 要 么 返回 POLLHUP。 可 移植 的 程序 需要 检查 这 些 标志 ， 以 此 


pu mu n 
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Tz 


来 判断 writeO 是 否 会 阻塞 。 


X 63-5: select() 和 poll() 在 管道 或 FIFO 写 端 上 的 通知 


条 件 或 事件 select() poll() 
有 了 PIPE BUF 个 字 节 的 空间 吗 ? 读 端 打开 了 了 吗 ? 


T d w POLLERR 
是 是 w POLLOUT 
是 5 w POLLOUT | POLLERR 


BRF 

X 63-6 总 结 了 selectOM pollO 在 套 接 字 上 的 行为 表现 。 对 于 poll0 这 一 列 , 我 们 假设 events 
字段 已 经 指定 了 (POLLIN | POLLOUT | POLLPRD 标志 位 。 对 于 select0 这 一 列 ， 我 们 假设 需 
要 检 奉 文件 描述 符 的 输入 、 和 输出 以 及 异种 情况 是 个 发 生 。( 即 , 文件 描述 符 在 所 有 传递 给 select() 
的 3 个 集合 中 都 有 指定 )。 该 表 只 涵 关 了 币 见 的 情况 ， 并 不 包含 所 有 可 能 出 现 的 情况 。 

表 63-6: select() 和 poll() 在 套 接 字 上 通知 的 事件 



































有 输入 POLLIN 

可 输出 POLLOUT 
在 监听 套 接 字 上 建立 连接 POLLIN 
接收 到 市 外 数据 《只 限 TCP) POLLPRI 
MER THIR m K AERE POLLIN|POLLOUT| 
执行 了 shutdown(SHUT. WR) POLLRDHUP 








— Linux F, UNIX 域 套 接 字 对 端 调 用 close0 后 ，poll0 表 现 的 行为 同 表 63-6 中 所 展示 的 不 
一 样 。 除 了 其 他 标志 外 ，poll0 还 会 在 revents 中 额外 返回 POLLHUP。 





Linux 专 有 的 POLLRDHUP 标志 (从 Linux 2.6.17 以 来 就 一 直 存 在 ) 需 要 做 进一步 的 解释 。 
其 实 ， 这 个 标志 的 实际 形式 是 EPOLLRDHUP 一 一 主要 被 设计 用 于 epoll API 的 边缘 触发 模式 
下 ( 见 63.4 节 )。 当 流 式 套 接 字 连接 的 远 端 关闭 了 写 连 接 时 会 返回 该 标志 。 使 用 这 个 标志 能 让 
采用 了 epoll 边缘 触发 模式 的 应 用 程序 使 用 更 简洁 的 代码 来 判断 远 端 是 否 已 经 关闭 。( 另 一 种 可 
选 的 方法 是 ， 在 应 用 程序 中 设 定 POLLIN 标志 ， 然 后 执行 一 次 read0， 如 果 返 回 0 则 表示 远 端 
已 经 关闭 了 。) 


63.2.4 比较 select() 和 poll() 
本 节 中 ， 我 们 讨论 一 些 select0 和 pollO0 之 间 的 异同 点 。 


























在 Linux 内 核 层 面 ，select0 和 pollO 都 使 用 了 相同 的 内 核 poll 例 程 集合 。 这 些 poll HEA 31] 
于 系统 调用 poll0 本 号 。 每 个 例 程 都 返回 有 关 单 个 文件 描述 符 就 绪 的 信息 。 这 个 融 绪 信息 以 位 掩 
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码 的 形式 返回 , 其 值 同 poll0 系 统 调 用 中 返回 的 revents 字段 中 的 比特 值 相关 ( 见 表 63-2). poll0 
系统 调用 的 实现 包括 为 每 个 文件 接 述 从 调用 内 核 poll 例 程 ， 并 将 结 末 信息 填 到 对 应 的 revents 
字段 中 去 。 

为 了 实现 select), REH- ARR AA poll 例 程 返 回 的 信息 转化 为 由 selectOJAR [el If) 57 
之 对 应 的 事件 类 型 。 

#define POLLIN SET (POLLRDNORM | POLLRDBAND | POLLIN | POLLHUP | POLLERR) 

/* Ready for reading */ 

#define POLLOUT SET (POLLWRBAND | POLLWRNORM | POLLOUT | POLLERR) 

/* Ready for writing */ 

#define POLLEX SET (POLLPRI) /* Exceptional condition */ 

这 些 宏 定义 展现 了 select0 和 poll0 所 返回 的 信息 之 间 的 语义 关系。( 观 察 63.2.3 TRK 
格 中 select0 和 pollO 这 两 列 ， 可 以 发 现 每 个 系统 调用 提供 的 信息 都 同上 述 宏 保 持 一 致 。) 唯 
一 一 点 我 们 需要 额外 增加 的 是 ， 如 有 果 被 检查 的 文件 描述 符 当 中 有 一 个 关闭 了 ，poll0 会 
在 revents 字段 中 返回 POLLNVAL， 而 select0 会 返回 -1 且 将 错误 码 设 为 EBADF。 





























API 之 间 的 区 别 


以 下 是 系统 调用 select0 和 poll0 之 间 的 一 些 区 别 。 

e select() 所 使 用 的 数据 类 型 fd. set 对 于 被 检查 的 文件 手 述 符 数 量 有 一 个 上 限 限 制 
(FD SETSIZE)。 在 Linux 下 ， 这 个 上 限 值 默认 为 1024， 修 改 这 个 上 限 需 要 重新 编 详 
应 用 程序 。 与 之 相反 ，polO 对 于 被 检查 的 文件 描述 符 数 量 本 质 上 是 没有 限制 的 。 

e 由 于 select() 的 参数 fd set 同时 也 是 保存 调用 结果 的 地 方 ， 如 末 要 在 循环 中 重复 调用 
selectO 的 话 , 我 们 必须 每 次 都 要 重新 初始 化 fd_set。 而 pollO 通 过 独立 的 两 个 字段 events 
(针对 输入 ) 和 revents 〈 针 对 和 输出) 来 处 理 ， 从 而 避免 每 次 都 要 重 狐 初始 化 参数 。 

e Select(0 提 供 的 超时 精度 《〈 微 秒 ) 比 poll0 提 供 的 超时 精度 〈 坚 秒 ) 高 。( 这 两 个 系统 调 
用 的 超时 精度 都 受 软件 时 钟 粒度 的 限制 。) 

e 如 条 其 中 一 个 被 检查 的 文件 摘 述 符 关 闭 了 了 ， 通 过 在 对 应 的 revents ^£ Ec H E 
POLLNVAL 标记 , pol0 会 准确 告诉 我 们 是 哪 一 个 文件 描述 符 关 闭 了 。 与 乙 相 反 , select) 
只 会 返回 -1， 并 设 错误 人 码 为 EBADF。 通 过 在 捅 述 符 上 执行 VO 系统 调用 并 检查 错误 
仔 ， 让 我 们 目 己 来 判断 哪个 文件 摘 述 符 关 财 了 。 通 弟 这 些 区 别 都 不 重要 ， 因 为 应 用 程 
序 一 般 都 会 自己 跟踪 已 经 关闭 的 文件 描述 符 。 

可 移植 性 
历史 上 ，select() 比 poll0 使 用 得 更 加 广泛 。 如 今 这 两 个 接口 都 在 SUSv3 中 标准 化 了 ， 且 都 


广泛 存在 于 现代 的 UNIX 实现 中 。 但 是 如 63.2.3 节 中 提 到 的 ，poll0 在 不 同 的 实现 中 行为 上 会 
有 























当 如 满足 如 下 两 条 中 任意 一 条 时 ，pollO0 和 selectO 将 具有 相似 的 性 能 表现 。 

o 待 检查 的 文件 描述 符 范 围 较 小 〈 即 ， 最 大 的 文件 描述 符号 较 低 )。 

。 有 大 量 的 文件 描述 符 待 检查， 但 是 它们 分 布 得 很 密集 。( 即 ， 大 部 分 或 所 有 的 文件 摘 
述 符号 都 在 0 到 某 个 上 限 之 间 )。 

然而 ， 如 果 被 检查 的 文件 摘 述 符 集 合 很 稀 玖 的 话 ，selectO 和 pollO 的 性 能 差异 将 变 得 非常 明 
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Wo EDU, ERLT N 是 个 很 大 的 整数 ， 但 在 0 到 NN 之 间 只 有 1 个 或 几 个 文件 插 述 从 
要 被 检 合 。 在 这 种 情况 下 ，poll0 的 性 能 表现 将 优 于 select0。 我 们 可 以 通过 传递 给 这 两 个 系统 
调用 的 参数 来 理解 这 其 中 的 原因 。 在 select0 中 ， 我 们 传递 一 个 或 多 个 文件 描述 符 集 合 ， 以 及 
比 竺 检查 的 集合 中 最 大 的 文件 描述 符号 还 要 大 1 的 nfds。 不 管 我 们 是 否 要 检查 范围 0 到 nfds-1 
之 间 的 所 有 文件 描述 符 ,nfds 的 值 都 不 变 。 无论 哪 种 情况 ， 内 核 都 必须 在 每 个 集合 中 检查 nfds 
个 元 素 ， 以 此 来 得 明 到 撒 需 要 检查 哪个 文件 描述 符 。 与 之 相反 ， 当 使 用 polO 时 ， 只 需要 指定 
我 们 感 兴趣 的 文件 描述 符 即 可 ， 内 核 上 只 会 去 检 奉 这 些 指定 的 文件 描述 符 。 


Linux 2.4 版 中 pol0 和 select0 在 稀 芷 的 描述 符 集 合 中 性 能 表现 送 卉 很 大 。 在 2.6 版 内 核 中 通 
过 一 些 优化 手段 ， 这 个 性 能 兰 异 已 经 被 极 大 地 缩小 了 。 


我 们 将 在 63.4.5 广 中 进一步 讨论 select0 和 poll0 的 性 能 , 在 那 一 他 中 我 们 将 比较 这 两 个 系 
统 调用 同 epoll 乙 间 的 性 能 差异 。 


63.2.5 ”select() 和 poll( 存 在 的 问题 


系统 调用 select0 和 pollO 是 用 来 同时 检查 多 个 文件 摘 述 符 就 绪 状 态 的 方法 ， 它 们 是 可 移植 的 、 
长 期 存在 且 补 广泛 使 用 的 。 但 是 当 检 奏 大 量 的 文件 摘 述 符 时 ， 这 两 个 API 都 会 过 到 一 些 问题 。 
。 每 次 调用 select()2X, poll0， 内 核 都 必须 检 奏 所 有 被 指定 的 文件 摘 述 符 ， 看 它们 是 侣 处 
于 束 绪 态 。 当 检 奏 大 量 处 于 密集 范围 内 的 文件 描述 符 时 ， 访 操作 耗费 的 时 间 将 大 大 超 
过 接 下 来 的 操作 。 
。 每 次 调用 select0 或 polO 时 ， 程 序 都 必须 传递 一 个 表示 所 有 需要 被 检查 的 文件 描述 符 
的 数据 结构 到 内 核 ， 内 核 检 查 过 摘 述 符 后 ， 修 改 这 个 数据 结构 并 返回 给 程序 。( 此 外 ， 
对 于 select0 来 说 ， 我 们 还 必须 在 每 次 调用 前 初始 化 这 个 数据 结构 。) 对 于 poll0 来 说 ， 
随 看 待 检查 的 文件 摘 述 符 数 量 的 增加 ,传递 给 内 核 的 数据 结构 大 小 也 会 随 之 增加 。 当 检 
ARKEL RITIT, MH JP RORIS PEZ A RIS REPE UL 3o AI 2 d £s A HIR 
的 CPU 时 间 。 对 于 selectO0 来 说 ， 这 个 数据 结构 的 大 小 固定 为 FD_ SETSIZE， 与 竺 检 
查 的 文件 捅 述 符 数量 无 关 。 
e select() 或 poll0 调 用 完成 后 ， 程 序 必须 检查 返回 的 数据 结构 中 的 每 个 元 素 ， 以 此 查 明 
EAS SCTETRDOSTSE XE T LEA ES T e 
PERH 7 ^E BJ dS IRL IE GRISE EE IRI DCTE TRO AEI, select M pollO 所 占用 的 
CPU 时 间 也 会 随 之 增加 (更 多 细节 请 参见 63.4.5 节 )。 对 于 需要 检查 大 量 文件 描述 符 的 程序 来 
说 ， 这 就 产生 了 问题 。 
select poll0 糟 糕 的 性 能 延展 性 源 自 这 些 API 的 局 限 性 : 通常 ， 程 序 重复 调用 这 些 系统 
调用 所 检查 的 文件 摘 述 符 集 合 都 是 相同 的 ， 可 是 内 核 并 不 会 在 每 次 调用 成 功 后 束 记 录 下 它们 。 
我 们 接 下 来 要 讨论 的 信号 驱动 VO 以 及 epoll 都 可 以 使 内 核 记录 下 进程 中 感 兴趣 的 文件 描 
述 符 ， 通 过 这 种 机 制 消 除了 select! poll0 的 性 能 延展 问题 。 这 种 解决 方案 可 根据 发 生 的 IO 
事件 来 延展 ， 而 与 被 检查 的 文件 描述 符 个 数 无 关 。 结 果 就 是 ， 当 需要 检查 大 量 的 文件 描述 符 
时 ， 信 号 驱动 TO 和 epoll 能 提供 更 好 的 性 能 表现 。 




























































































63.3 ”信号 驱动 I/O 


在 VO 多 路 复 用 中 ， 进 程 是 通过 系统 调用 (select0 或 pollQ) 来 检查 文件 描述 符 上 是 否 可 
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以 执行 VO 操作 。 而 在 信号 驱动 VO 中 ， 当 文件 描述 符 上 可 执行 VO 操作 时 ， 进 程 请 求 内 核 为 自 
己 发 送 一 个 信和 号。 之 后 进程 就 可 以 执行 任何 其 他 的 任务 直到 VO 就 绪 为 止 ,， 此 时 内 核 会 发 送信 
号 给 进程 。 要 使 用 信号 驱动 TO， 程 序 需 要 按照 如 下 步骤 来 执行 。 
1. 为 内 核发 送 的 通知 信号 安装 一 个 信号 处 理 例 程 。 默认 情况 下 ， 这 个 通知 信号 为 SIGIO. 
2. JWeXEOCUETRDANTI HUE ES 也 束 是 当 文 件 摘 述 符 上 可 执行 VO 时 会 接收 到 通知 信号 的 进程 或 
进程 组 。 通 常 我们 让 调用 进程 成 为 属 主 。 设 定 属 主 可 通过 fcntl0) 的 F_SETOWN 操作 来 完 
成 : 
fcntl(fd, F SETOWN, pid); 
3. 通过 设 定 O NONBLOCK 标志 使 能 非 阻 罕 LO。 
通过 打开 O_ASYNC 标志 使 能 信号 驱动 WO。 这 可 以 和 上 一 步 合 并 为 一 个 操作 ， 因 为 它们 
都 需要 用 到 fentl0 的 F_SETEFL HE CJL 5.3 5. 


flags = fcntl(fd, F GETFL); /* Get current flags */ 
fcntl(fd, F SETFL, flags | O ASYNC | O NONBLOCK); 


5. 调用 进程 现在 可 以 执行 其 他 的 任务 了 。 当 LO 操作 就 绪 时 ， 内 核 为 进程 发 送 一 个 信号 ， 然 
后 调用 在 第 1 步 中 安装 好 的 信号 处 理 例 程 。 
6. 信号 驱动 VO 提供 的 是 边缘 触发 通知 〈 见 63.1.1 节 )。 这 表示 一 旦 进程 被 通知 LO LR. 
叱 就 应 该 尽 可 能 多 地 执行 VOC( 例 如 尽 可 能 多 地 读 取 字 字 和 假设 文件 揪 述 符 是 非 阻 罕 式 的 ， 
这 表示 需要 在 循环 中 执行 IO 系统 调用 直到 失败 为 止 ， 此 时 错误 人 码 为 EAGAIN 或 
EWOULDBLOCK. 
fr Linux 2.4 版 及 更 早 的 时 候 ， 信 和 号 驱动 VO 能 应 用 于 套 接 字 、 终 端 、 伪 终端 以 及 其 他 特 
定 类 型 的 设备 上 。Linux 2.6 版 上 信号 驱动 VO 还 可 以 应 用 到 管道 和 FIFO 上 。 自 Linux 2.6.25 
版 以 来 ，inotify 文件 摘 述 符 上 也 可 以 使 用 信号 驱动 /1O 了 。 
在 下 和 面 儿 页 中 ， 我 们 先 给 出 一 个 使 用 信号 驱动 VO 的 例子 ， 然 后 详细 解释 上 述 这 些 






































历史 上 , 信号 驱动 WO 有 时 也 被 称 为 异步 WO, 这 一 点 从 相关 的 打开 文件 标志 (O_ASYNC) 
中 束 能 看 出 来 。 但 是 ， 如 今 术 语 异 步 IO 是 用 来 表示 由 POSIX AIO 规范 所 提供 的 功能 。 使 用 
POSIX AIO 时 ， 进 程 请 求 内 核 执 行 一 次 VO 操作 ， 内 核 启动 该 操作 之 后 立刻 将 控制 权 还 给 调用 
进程 ， 稍 后 当 VO 操作 完成 或 有 错误 发 生 时 ， 该 进程 会 得 到 通知 。 

O ASYNC 在 POSIX.1g 中 指定 ， 但 并 不 包含 在 SUSv3 中 ， 因 为 对 这 个 标志 所 要 求 的 行为 
规范 并 不 足 。 

其 他 一 些 UNIX 实现 ， 尤 其 是 比较 老 的 实现 中 并 没有 在 fcntt0 中 定义 O_ASYNC 常量 。 相 
反 ， 这 个 常量 被 命名 为 FASYNC， 而 glibc 将 这 个 名 字 定 义 为 O_ ASYNC 的 别名 。 


























示例 程序 

程序 清单 63-3 提供 了 一 个 使 用 信号 驱动 VO 的 简单 例子 。 该 程序 执行 前 文 描述 的 步骤 ， 在 
标准 输入 上 使 能 信号 驱动 TO， 之 后 将 终端 置 为 cbreak EI (IL 62.6.3 市 )， 这 样 每 次 输 
入 只 会 有 一 个 字符 。 之 后 程序 进入 无 限 循环 ， 所 做 的 工作 就 是 递增 变量 cnt， 同 时 等 待 输 
入 就 绪 。 当 有 输入 存在 时 ，SIGIO 信号 处 理 例 程 就 设 定 一 个 标志 gotSigio， 该 标志 由 主 程 
序 监 控 。 当 主 程序 看 到 该 标志 被 设 定 后 ， 就 读 取 所 有 存在 的 输入 字符 并 将 它们 连同 变量 
ent 的 当前 值 一 起 打印 出 来 。 如 果 输 入 中 读 取 到 了 并 字符 〈#)， 程 序 就 退出 。 
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下 面 是 当 我 们 运行 该 程序 时 会 看 到 的 输出 ， 我 们 输入 字符 x 多 次 ， 最 后 跟着 一 个 井 字 

符 〈#)。 
$ ./demo sigio 
cnt-37; read x 
cnt-100; read 
cnt-159; read 
cnt-223; read 
cnt-288; read 
cnt-333; read 


程序 清单 63-3: 在 终端 上 使 用 信号 驱动 MO 


TEX OX x X 


altio/demo sigio.c 
#include «signal.h» 
include «ctype.h» 
&include «fcntl.h» 
#include «termios.h» 
#include "tty functions.h" /* Declaration of ttySetCbreak() */ 
include "tlpi hdr.h" 


static volatile sig atomic t gotSigio = 0; 
/* Set nonzero on receipt of SIGIO */ 


static void 
sigioHandler(int sig) 


1 
gotSigio - 1; 
J 
int 
main(int argc, char *argv[]) 
1 


int flags, j, cnt; 

struct termios origTermios; 
char ch; 

struct sigaction sa; 
Boolean done; 


/* Establish handler for "I/O possible" signal */ 


sigemptyset(8sa.sa mask); 

sa.sa flags - SA RESTART; 

sa.sa handler - sigioHandler; 

if (sigaction(SIGIO, &sa, NULL) -- -1) 
errExit("sigaction"); 


/* Set owner process that is to receive "I/O possible" signal */ 


if (fcntl(STDIN FILENO, F SETOWN, getpid()) -- -1) 
errExit("fcntl(F SETOWN)"); 


/* Enable "I/O possible" signaling and make I/O nonblocking 
for file descriptor */ 


flags - fcntl(STDIN FILENO, F GETFL); 
if (fcntl(STDIN FILENO, F SETFL, flags | O ASYNC | O NONBLOCK) 三 三 -1) 
errExit("fcntl(F SETFL)"); 


/* Place terminal in cbreak mode */ 
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if (ttySetCbreak(STDIN FILENO, &origTermios) -- -1) 
errExit("ttySetCbreak"); 


for (done = FALSE, cnt = 0; !done ; cnt++) { 
for (j = 0; j < 100000000; j++) 
continue; /* Slow main loop down a little */ 


if (gotSigio) { /* Is input available? */ 


/* Read all available input until error (probably EAGAIN) 
or EOF (not actually possible in cbreak mode) or a 
hash (48) character is read */ 


while (read(STDIN FILENO, &ch, 1) > 0 && !done) { 
printf("cnt-Xd; read %c\n", cnt, ch); 
done = ch == '&'; 


} 
gotSigio = 0; 
f 
/* Restore original terminal settings */ 
if (tcsetattr(STDIN FILENO, TCSAFLUSH, &origTermios) == -1) 


errExit("tcsetattr"); 
exit(EXIT. SUCCESS); 


altio/demo sigio.c 


在 启动 信号 驱动 VO 前 安装 信号 处 理 例 程 

由 于 接收 到 SIGIO 信号 的 默认 行为 是 终止 进程 运行 ， 因 此 我 们 应 该 在 局 动 信号 驱动 VO 前 
先 为 SIGIO 信号 安装 处 理 例 程 。 如 果 我 们 在 安装 SIGIO 信号 处 理 例 程 之 前 先 启 动 了 信号 驱动 
1/O， 那 么 会 存在 一 个 时 间 间 际 ， 此 时 如 果 IO 就 绪 的 话 内 核发 送 过 来 的 SIGIO 信号 就 会 使 进 
时 终止 运行 。 

















在 其 他 一 些 UNIX 实现 上 ， 信 号 SIGIO 的 默认 行为 是 被 忽略 。 


设 定 文件 描述 符 属 主 

我 们 使 用 fentl0 来 设 定 文 件 描述 符 的 属 主 ， 方 式 如 下 。 

fcntl(fd, F SETOWN, pid); 

我 们 可 以 指定 一 个 单独 的 进程 或 者 是 进程 组 中 的 所 有 进程 在 文件 描述 符 VO 就 绪 时 收 到 
言 号 通知 。 如 果 参 数 pid 为 正 整数 ， 就 解释 为 进程 ID 号 。 如 果 参 数 pid 是 负数 ， 它 的 绝对 值 
就 指定 了 进程 组 ID 号 。 

在 老式 的 UNIX 实现 中 ， 我 们 使 用 ioctl0 的 FIOSETOWN 或 SIOCSPGRP 操作 来 实现 同 
F SETOWN 相同 的 功能 。 基 于 可 移植 性 考虑 ，Linux 也 支持 这 些 ioctl TE. 











通常 会 在 pid 中 指定 调用 进程 的 进程 ID 号 《这 样 信 号 就 会 友 送 给 打开 这 个 文件 描述 符 的 
进程 )。 但 是 ， 也 可 以 将 其 指定 为 万 一 个 进程 或 进程 组 〈 例 如， 调用 者 进程 组 )， 而 信和 号 会 发 
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XEpUT Hs Bug 20.5 下 中 所 述 的 权限 检查 ， 这 里 肥 送 进程 会 作为 完成 FE SETOWN 
操作 的 进程 。 
当 指定 的 文件 描述 符 上 可 执行 VO 时 ，fent10 的 F_GETOWN 操作 会 返回 接收 到 信号 的 进 
程 或 进程 组 ID 号 。 
id = fcntl(fd, F GETOWN); 
if (id -- -1) 
errExit("fcnt1"); 


进程 组 ID 号 以 负数 的 形式 由 该 调用 返回 。 








EZR UNIX 实现 中 ， 与 ioctl0 的 FE GETOWN 操作 相对 应 的 操作 是 FIOGETOWN 或 
SIOCGPGRP。Linux 也 支持 这 两 种 ioctl RE. 


系统 调用 约定 在 条 些 Linux 所 文 持 的 架构 上 (值得 注意 的 古 x86 染 构 ) 有 一 些 限 制 。 
这 意味 看 如 有 本 文 件 描述 符 由 一 个 进程 组 ID. 小 于 4096 的 进程 所 持 有 ， 那 么 fcntl0 的 
G GETOWN 操作 不 会 以 负数 形式 返回 这 个 ID ^7, glibc 会 错误 地 认为 这 是 一 个 系统 调用 
HIR. 。 结 果 就 是 ，fcntl0 的 包装 函数 会 返回 -1， 同 时 errno 中 会 包含 该 进程 组 ID( 正 数 形 
式 )。 这 是 因为 内 核 系 统 调用 接口 返回 负数 形式 的 errno 值 作 为 函数 返回 什 ， 以 此 来 表示 
出 现 了 错误 。 而 在 一 些 悄 况 下 ， 有 必要 将 这 样 的 结 琳 同 成 功 调用 后 返回 的 合法 的 负数 值 
区 分 开 来 。 要 做 到 区 分 ，glibc 将 系统 调用 返回 的 -1 到 -4095 之 间 的 负数 解释 为 出 现 钳 误 ， 
将 它们 的 值 ( 以 绝对 值 的 形式 ) 拷贝 到 erno 中 ， 然 后 返回 -1 作为 函数 结果 。 这 种 技术 
足以 应 对 那些 可 以 合法 返回 负数 值 的 系统 调用 服务 了 。fcntlO 的 FE_GETOWN 操作 是 唯一 
会 出 现 这 种 失败 情况 的 例子 。 这 个 限制 意味 看 使 用 进程 组 来 接收 “LO RA” fum OF 
不 常见 ) 的 应 用 程序 无 法 可 靠 地 通过 F GETOWN 来 获知 该 进程 组 是 否 拥 有 一 个 文件 描 
述 符 。 


























H glibc 2.11 版 之 后 , fentl0 包 装 函数 解决 了 进程 组 ID 号 小 于 4096 时 的 FE GETOWN 问题 。 
这 是 通过 在 用 户 空 间 使 用 FE GETOWN EX (9, 63.3.2 节 ) 操作 实现 F_ GETOWN 来 解决 的 。 
Linux 2.6.32 版 之 后 开始 支持 F GETOWN EX. 








63.3.1 何 时 发 送 “|/O 就 绪 ” 信 和 号 

现在 我 们 针对 多 种 文件 类 型 考虑 何 时 会 发 送 “LIO WA” Mo 
终端 和 伪 终 端 

对 于 终端 和 伪 终 端 ， 当 产生 新 的 输入 时 会 生成 一 个 信号 ， 即 使 之 前 的 输入 还 没有 被 读 取 
也 是 如 此 。 如 果 终 端 上 出 现 文件 结尾 的 情况 ， 此 时 也 会 发 送 “ 输 入 束 绪 ”的 信号 〈 但 伪 终 端 
dod ms 

Xp £Exmwoeguied utu uiv. HAm FERNETS AIBES. 

从 2.4.19 版 内 核 开 始 ，Linux HAA mA AmE I "d:udNLeA  Hyfu ve DATAS 
主 设 备 侧 读 取 了 输入 后 束 会 产生 这 个 信号 。 














管道 和 FIFO 
对 于 管道 或 FIFO 的 读 端 ， 信 号 会 在 下 列 情况 中 产生 。 
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e ZXSyexip ECAA RERA). 
e 省 道 的 写 剖 关闭。 
对 于 管道 或 FIFO 的 写 端 ， 信 和 号 会 在 下 列 情况 中 产生 。 
。 对 管道 的 谈 操 作 增 加 了 管道 中 的 空余 宇 间 大 小 ， 因 此 现在 可 以 写 入 PIPE BUF ANFI 
Tf APA PH AE 
e EER H] e 
Ejk F 
言 写 驱动 O 可 适用 于 UNIX 和 Internet 域 下 的 数据 报 套 接 字 。 信 号 会 在 下 列 情况 中 
产生 。 
。 一 个 输入 数据 报到 达 僚 接 凶 (即使 已 经 有 未 读 取 的 数据 报 正 等 每 读 取 )。 
e 僚 接 池上 发 生 了 寞 步 错误 。 
言 号 驱动 VO 可 适用 于 UNIX 和 Internet 域 下 的 流 式 依 技 字 。 信 号 会 在 下 列 情况 中 产生 。 
。 监听 套 接 字 上 接收 到 了 新 的 连接 。 
e TCP connectO 请 求 完 成 ， 也 就 是 TCP 连接 的 主动 端 进入 ESTABLISHED 状态 ， 如 图 
61-5 所 示 。 对 于 UNIX 域 套 接 字 ， 类 似 情 况 下 是 不 会 发 出 信号 的 。 
e 套 接 字 上 接收 到 了 狐 的 输入 〈 即 使 已 经 有 末 斌 取 的 输入 存在 )。 
e ERTA mE shutdown) XAT SiE (EXB), KAM close() 完 全 关闭 。 
e 和 食 接 字 上 输出 束 绪 《例如 套 接 学 友 送 缓冲 区 中 有 了 空间 )。 
e 和 依 接 字 上 及 生 了 有 弄 步 错误 。 






























































inotify 文件 描述 得 
当 inotify 文件 描述 符 成 为 可 读 状态 时 会 产生 一 个 信号 一 一 也 就 是 由 inotify 文件 描述 符 监 
视 的 其 中 一 个 文件 上 有 事件 发 生 时 。 


63.3.2 ”优化 信号 驱动 VO 的 使 用 


在 需要 同时 检 奏 大 量 文件 摘 述 符 《〈《 比 如 数 和 干 个 ) 的 应 用 程序 中 一 一 例如 茶 种 类 型 的 网 络 
服务 站 程序 一 一 同 select poll0 相 比 ， 信 号 驱动 VO 能 提供 显著 的 性 能 优势 。 信 号 驱动 VO 
能 达到 这 么 高 的 性 能 是 因为 内 核 可 以 “ 记 住 ”要 检 奉 的 文件 描述 符 ， 且 仅 当 IO 事件 实际 发 生 
在 这 些 文件 摘 述 符 上 时 才 会 向 程序 发 送信 号 ,结果 就 是 采用 信号 驱动 IO 的 程序 性 能 可 以 根据 
发 生 的 VO 事件 的 数量 来 扩展 ， 而 与 被 检查 的 文件 摘 述 从 的 数量 无 关 。 

要 想 全 部 利用 信号 驱动 IO 的 优点 ， 我 们 必须 执行 下 面 两 个 步骤 。 

。 通过 专属 于 Linux 的 fent) F SETSIG 操作 来 指定 一 个 实时 信号 ， 当 文件 拉 述 符 上 的 

VO 束 绕 时 ， 这 个 实时 信号 应 该 取代 SIGIO AA 

。 使 用 sigaction0 安 钱 信 号 处 理 例 程 时 ， 为 前 一 步 中 使 用 的 实时 信号 指定 SA SIGINFO 

标记 〈 见 21.4 节 )。 

fcntlO 的 F SETSIG 操作 指定 了 一 个 可 选 的 信号 ， 当 文件 描述 符 上 的 VO 束 绪 时 会 取代 
SIGIO 信和 号 被 发 送 。 

if (fcntl(fd, F SETSIG, sig) == -1) 

errExit("fcnt1"); 


F GETSIG 操作 完成 的 任务 同 F_SETSIG 相反 ， 它 取 回 当前 为 文件 摘 述 符 指 定 的 信和 号 。 
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sig = fcntl(fd, F GETSIC); 
if (sig == -1) 
errExit("fcnt1"); 
(为 了 在 头 文件 <fcntLh> 中 得 到 F SETSIG M F GETSIG 的 定义 ， 我 们 必须 定义 测试 宏 
GNU SOURCE.) 
使 用 F_SETSIG 来 改变 用 于 通知 “IO RMA” Byfa HV T RE, WRR s EST X 
件 描述 符 上 检查 大 量 的 IO 事件 ， 这 两 个 理由 都 是 必须 的 。 
e 默认 的 “LO uL 55" fi SIGIO 是 标准 的 非 排 队 信 号 之 一 。 如 果 有 多 个 VO 事件 发 
XS ff. Ny SIGIO 被 阻 蛤 了 一 一 也 许 是 因为 SIGIO 信和 号 的 处 理 例 程 已 经 被 调用 
了 一 一 除了 第 一 个 通知 外 ， 其 他 后 序 的 通知 都 会 丢失 。 如 果 我 们 通过 F_SETSIG 来 指 
定 一 个 实时 信号 作为 “LO 丈 绪 ”的 通知 信号 ， 那 么 多 个 通知 束 能 排队 处 理 。 
。 如 采信 号 处 理 例 程 是 通过 sigaction() 来 安装 ， 且 在 sa.sa_flags 字段 中 指定 了 SA_ 
SIGINFO 标志 ， 那 么 结构 体 siginfo ft 会 作为 第 二 个 参数 传递 给 信号 处 理 例 程 〈 见 
21.4 和 )。 这 个 结构 体 包 含 的 学 段 标识 出 了 在 哪个 文件 摘 述 符 上 发 生 了 事件 ， 以 及 事 
件 的 类 型 。 
注意 ， 需 要 同时 使 用 F_SETSIG 以 及 SA. SIGINFO 才能 将 一 个 合法 的 siginfo t 结构 体 传 
递 到 信和 号 处 理 例 程 中 去 。 
如 果 我 们 做 F_SETSIG 操作 时 将 参数 sig 指定 为 0， 那么 将 导致 退回 到 默认 的 行为 : 发 送 的 
言 写 仍然 是 SIGIO， 而 且 结 构 体 siginfo t 将 不 会 传递 给 信号 处 理 例 程 。 
对 于 “LO 束 绪 ”事件 ， 传 递 给 信号 处 理 例 程 的 结构 体 siginfo t 中 与 之 相关 的 字段 
Vigor 
e si signo: 引发 信号 处 理 例 程 得 到 调用 的 信号 值 。 这 个 值 同 信号 处 理 例 程 的 第 一 个 参数 
一 致 。 
e si fd: 发 后 IO 事件 的 文件 摘 述 符 。 
* Si code: 表示 发 生 事件 类 型 的 代码 ,该 字段 中 可 出 现 的 值 以 及 它们 的 摘 述 参见 表 63-7。 
e si band: 一 个 位 掩 码 。 其 中 包含 的 位 和 系统 调用 poll0 中 返回 的 revents 字段 中 的 位 相 
同 。 如 表 63-7 所 示 , si code 中 可 出 现 的 值 同 si band 中 的 位 掩 码 有 看 一 一 对 应 的 关系。 


表 63-7: 结构 体 siginfo t 中 si code 和 si band 字段 的 可 能 值 


si code si band 掩 码 值 jt 述 















































POLL IN POLLIN | POLLRDNORM 存在 输入 ; 文件 结尾 情况 
POLL OUT POLLOUT | POLLWRNORM | POLLWRBAND | 可 输出 

POLL MSG POLLIN | POLLRDNORM | POLLMSG 存在 输出 消息 《不 使 用 ) 
POLL_ERR POLLERR UO 错误 

POLL PRI POLLPRI | POLLRDNORM 存在 高 优先 级 输入 


POLL_HUP POLLHUP | POLLERR 出 现 宕 机 





在 一 个 纯 输 入 驱动 的 应 用 程序 中 ,我 们 可 以 进一步 优化 使 用 F_SETSIG。 我 们 可 以 阻塞 街 
发 出 的 “LO 束 绪 ”信号 ， 然 后 通过 sigwaitinfo() 或 sigttmedwaitO (JL 22.10 45) 来 接收 排队 中 
的 信和 号。 这些 系 统 调用 返回 的 siginfo 结构 体 所 包含 的 信息 同 传递 给 信号 处 理 例 程 的 siginfo t 
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结构 体 一 样 。 以 这 种 方式 接收 信号, 我 们 实际 是 以 同步 的 方式 在 处 理事 件 , 但 同 select() I poll() 
相 比 ， 这 种 方法 能 够 局 效 地 获知 文件 描述 符 上 发 生 的 IO 事件 。 


言 号 队列 浇 出 的 处 理 

我 们 在 22.8 市 中 已 经 知道 ， 可 以 排队 的 实时 信号 的 数量 是 有 限 的 。 如 来 达到 这 个 上 限 ， 
内 核对 于 “LO WA” 的 通知 将 恢复 为 默认 的 SIGIO 信号。 出 现 这 种 现象 表示 信和 号 队列 溢出 了 。 
当 出 现 这 种 情况 时 ， 我 们 将 失去 有 关 文 件 搬 述 人 竺 上 发 生 VO 事件 的 信息 ， 因 为 SIGIO 信号 是 不 
会 排队 的 。( 此 外 ，SIGIO 的 信和 号 处 理 例 程 不 接受 siginfo t 结构 体 参 数 ， 这 意味 看 信 坊 处理 例 
程 不 能 确定 古 哪 一 个 文件 搬 述 从 上 产生 了 信号 。) 

根据 22.8 市 中 所 述 , 我 们 可 以 通过 增加 可 排队 的 实时 信号 数量 的 限制 来 减 小 信号 队列 洲 出 的 
可 能 性 。 但 是 这 并 不 能 完全 消除 游 出 的 可 能 。 一 个 设计 民 好 的 采用 F SETSIG 来 建立 实时 信和 号 
作为 “LO 束 绕 ”通知 的 程序 必须 也 要 为 信和 写 SIGIO 安 状 处 理 例 程 。 如 打发 送 了 SIGIO 信和 号 ， 
那么 应 用 程序 可 以 移 通 过 sigwaitinfo0 将 队列 中 的 实时 信号 全 部 获取 ， 然 后 临时 切换 到 select() 
或 poll0， 通 过 它们 获取 剩余 的 发 生 VO 事件 的 文件 摘 述 符 列 表 。 


在 多 线程 程序 中 使 用 信号 驱动 |/O 


从 2.6.32 版 内 核 开始 ，Linux 提供 了 两 个 新 的 非 标 准 的 fent1l0 操 作 ， 可 用 于 设 定 接收 “VO 3t 
绪 ” 信 号 的 目标 ， 它 们 是 F_SETOWN EX 和 F_GETOWN EX. 

F SETOWN EX 操作 类 似 于 F_SETOWN, 但 除了 允许 指定 进程 或 进程 组 作为 接收 信和 号 的 
目标 外 ， 它 还 可 以 指定 一 个 线程 作为 “VO 融 绪 ”信号 的 目标 。 对 于 这 个 操作 ，fcntlO 的 第 三 
个 参数 为 指向 如 下 结构 体 的 指针 。 

struct f owner ex { 

int type; 
pid t pid; 






































结构 体 中 type 字段 定义 了 pid 的 类 型 ， 它 可 以 有 如 下 几 种 值 。 
F OWNER PGRP 

字段 pid 指定 了 作为 接收 “IO 就 绪 ” 信 号 的 进程 组 ID。 与 FEF_ SETOWN 不 同 的 是 ， 这 里 
进程 组 ID 指定 为 一 个 正 整数 。 


F OWNER PID 
字段 pid 指定 了 作为 接收 “IO 就 绪 ” 信 和 号 的 进程 ID。 


F OWNER TID 

字段 pid 指定 了 作为 接收 “IO 就 绪 ” 信 和 号 的 线程 ID 。 这 里 pid 的 值 为 clone() & getpid0) 的 
返回 值 。 

F GETOWN EX 为 F_SETOWN_EX [I3 fe TE « CEH fentl0) 的 第 三 个 参数 所 指 问 的 结构 
VF f owner ex 来 返回 之 前 由 F_SETOWN EX 操作 所 定义 的 设置 。 








为 F SETOWN EX 和 F GETOWN EX 操作 以 正 整数 来 代表 进程 组 ID ， 所 以 
F GETOWN EX 将 不 会 遇 到 之 前 在 描述 F GETOWN 操作 时 说 到 的 进程 组 ID 小 于 4096 时 会 
出 现 的 问题 。 
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63.4 epoll 编程 接口 


同 VO 多 路 复 用 和 信号 驱动 IO —f. Linux 的 epoll Cevent poll) API 可 以 检查 多 个 文件 
TEXT EB IO 融 绪 状态 。epollAPI 的 主要 优点 如 下 。 
e 当 检 查 大 量 的 文件 描述 符 时 ，epoll 的 性 能 延展 性 比 select() I poll0 蜗 很 多 。 
e epoll API 既 文 持 水 平 触 友 也 支持 边缘 触发 。 与 之 相反 ，selectO 和 pollO 只 文 持 水 平 触 
发 ， 而 信号 驱动 IO 只 支持 边缘 触发 。 
性 能 表现 上 ，epoll 同 信 号 张 动 IO 相似 。 但 是 ，epoll 有 一 些 胜 过 信号 驱动 UO 的 优点 。 
e 可 以 避免 复兴 的 信号 处 理 流程 (比如 信号 队列 洲 出 时 的 处 理 )。 
e 灵活 性 高 ， 可 以 指定 我 们 布 望 检查 的 事件 类 型 (例如 , 只 查 套 接 字 文件 描述 符 的 读 就 | 
绕 、 写 束 弹 或 者 两 者 同时 指定 )。 
epoll API 是 Linux 系统 专 有 的 ， 在 2.6 版 中 新 增 。 
epoll API 的 核心 数据 结构 称 作 epol 实例 ， 它 和 一 个 打开 的 文件 摘 述 符 相 关联 。 这 个 文件 
描述 符 不 是 用 来 做 IO 操作 的 ， 相 反 ， 它 是 内 核 数 据 结构 的 句柄 ， 这 些 内 核 数 据 结构 实现 了 两 
^ B 
e 记录 了 在 进程 中 声明 过 的 感 兴 趣 的 文件 摘 述 符 列 表 interest list. (兴趣 列表 )。 
e 维护 了 处 于 VO 就 绪 态 的 文件 描述 从 列表 一 一 ready list C25 7l). 
ready list 中 的 成 员 是 interest list 的 子 集 。 
对 于 由 epoll 检 答 的 每 一 个 文件 摘 述 符 ， 我 们 可 以 指定 一 个 位 掩 码 来 表示 我 们 感 兴 趣 的 事 
件 。 这 些 位 掩 人 码 同 poll() rfi Fi BS rd R3 ERIT] ORA e 
epoll API 由 以 下 3 个 系统 调用 组 成 。 
。 系统 调用 epoll_create() 创 建 一 个 epoll 实例 ， 返 回 代 表 访 实例 的 文件 描述 符 。 
。 系统 调用 epoll_ctl0 操 作 同 epoll 实例 相关 联 的 兴趣 列表 。 通过 epoll ctl, 我 们 可 以 增 
加 新 的 描述 符 到 列表 中 , 将 已 有 的 文件 摘 述 符 从 该 列表 中 移 除 ， 以 及 修改 代表 文件 描述 
从 上 事件 类 型 的 位 掩 人 码 。 
。 系统 调用 epoll_waitO 返 回 与 epoll 实例 相关 联 的 就 绪 列 表 中 的 成 员 。 


63.4.1 创建 epoll 实例 : epoll create() 
其 对 应 的 兴趣 列表 初始 化 为 空 。 



























































#include «sys/epoll.h» 


int epoll create(int size); 


Returns file descriptor on success, or -1 on error 








参数 size 指定 了 我 们 想 要 通过 epoll 实例 来 检查 的 文件 描述 符 个 数 .该 参数 并 个 是 一 
个 上 限 ， 而 是 告诉 内 核 应 该 如 何 为 内 部 数据 结构 划分 初始 大 小 。( 从 Linux 2.6.8 版 以 来， 
size 参数 被 忽略 不 用 ， 因 为 内 核实 现 做 了 修改 意味 着 该 参数 之 前 提供 的 信息 已 经 不 再 需 
ET.) 

作为 函数 返回 值 ，epoll_create0 返 回 了 代表 新 创建 的 (poll SEDE ITERBISTE. xt 
描述 符 在 其 他 几 个 epoll 系统 调用 中 用 来 表示 epoll 实例 。 当 这 个 文件 描述 符 不 再 需要 时 ， 应 访 
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通过 closeQo XH]. SWA epoll 实例 相关 的 文件 描述 符 都 被 天 财 时 ， 实 例 被 销毁 ， 相 关 的 
资源 都 返还 给 系统 。(〈 多 个 文件 摘 述 符 可 能 引用 到 相同 的 epoll 实例 ， 这 是 由 于 调用 了 forko 
或 者 dup0 这 样 类 似 的 函数 所 致 。) 











从 2.6.27 版 内 核 以 来 ，Linux 文 持 了 一 个 新 的 系统 调用 epoll_create10。 访 系统 调用 执行 的 
任务 同 epoll_create0 一 样 ， 但 是 去 揉 了 无 用 的 参数 size， 并 增加 了 一 个 可 用 来 修改 系统 调用 行 
为 的 flags 人 参数。 目前 只 支持 一 个 flag 标志 : EPOLL CLOEXEC， 它 使 得 内 核 在 新 的 文件 描述 
符 上 启动 了 执行 即 关闭 (close-on-exec) 标志 (FD CLOEXEC)。 出 于 同样 的 原因 ， 这 个 标志 
同 4.3.1 节 中 描述 的 open0 的 O_CLOEXEC 标志 一 样 有 用 。 


63.4.2 ”修改 epoll 的 兴趣 列表 : epoll ctl() 
系统 调用 epoll_ctl0 能 够 修改 由 文件 描述 符 epfd 所 代表 的 epoll 实例 中 的 兴趣 列表 。 





#include «sys/epoll.h» 


int epoll ctl(int epfd, int op, int fd, struct epoll event *ev); 


Returns 0 on success, or -1 on error 











参数 fd 指明 了 要 修改 兴趣 列表 中 的 哪 一 个 文件 描述 符 的 设 定 。 该 参数 可 以 是 代表 管道 、 
FIFO, fr. POSIX 消息 队列 、inotify 实例 、 终 端 、 设 备 ， 甚 至 是 另 一 个 epoll 实例 的 文件 
描述 符 《〈 例 如 ， 我 们 可 以 为 受 检查 的 描述 符 建立 起 一 种 层次 关系 )。 但 是 , 这 里 包 丰 能 作为 普 ) 
通 文 件 或 目录 的 文件 描述 符 (会 出 现 EPERM 错误 )。 

参数 op 用 来 指定 需要 执行 的 操作 ， 它 可 以 是 如 下 儿 种 值 。 


EPOLL CTL ADD 

将 描述 符 fd 添加 到 epoll 实例 epfd 中 的 兴趣 列表 中 去 。 对 于 fd 上 我 们 感 兴趣 的 事件 ， 都 
指定 在 ev 所 指 同 的 结构 体 中 ， 下 面 会 详细 介绍 。 如 果 我 们 试图 同 兴 趣 列表 中 诺 加 一 个 已 存在 
的 文件 描述 符 ，epoll_ctlO 将 出 现 EEXIST 错误 。 














EPOLL CTL MOD 
修改 描述 符 fd 上 设 定 的 事件 ， 需 要 用 到 由 ev 所 指向 的 结构 体 中 的 信息 。 如 果 我 们 试图 修 
改 个 在 兴趣 列表 中 的 文件 插 述 从 ，epoll_ct10 将 出 现 ENOENT £X. 








EPOLL CTL DEL 
将 文件 描述 符 f 纪 从 epfd 的 兴趣 列表 中 移 除 。 该 操作 忽略 参数 ev。 如 果 我 们 试图 移 除 一 个 
不 在 epfd 的 兴趣 列表 中 的 文件 描述 符 ，epoll ctl0 将 出 现 ENOENT 人 错误。 关闭 一 个 文件 描述 
符 会 自动 将 其 从 所 有 的 epoll 实例 的 兴趣 列表 中 移 除 。 
参数 ev 是 指 问 结构 体 epoll_event 的 指针 ， 结 构 体 的 定义 如 下 。 
struct epoll event { 
uint32 t events; /* epoll events (bit mask) */ 
epoll data t data; /* User data */ 
结构 体 epoll event 中 的 data 字段 的 类 型 为 : 
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typedef union epoll data { 


void *ptr; /* Pointer to user-defined data */ 
int fd; /* File descriptor */ 

uint32 t u32; /* 32-bit integer */ 

uint64 t u64; /* 64-bit integer */ 


} epoll data t; 


参数 ev 为 文件 摘 述 符 fd 所 做 的 设置 如 下 。 

。 结构 体 epoll event 中 的 events ^ Brie — AMIE, "CJRXE Y 384179 HS E I 
T$ fd ERAN BRRR S. RARE P— P H ACE BRI EH BO T6 03 £8 o 

。 data 字段 是 一 个 联合 体 ， 当 描述 符 fd 稍 后 成 为 驶 绪 态 时 , 联合 体 的 成 员 可 用 来 指定 传 
回 给 调用 进程 的 信息 。 

程序 清单 63-4 展示 了 一 个 使 用 epoll_createO0 和 epoll_ctl0 的 例子 。 


程序 清单 63-4: 使 用 epoll create) 7 epoll ctl() 








int epfd; 
struct epoll event ev; 


epfd - epoll create(5); 
if (epfd -- -1) 
errExit("epoll create"); 


ev.data.fd - fd; 

ev.events - EPOLLIN; 

if (epoll ctl(epfd, EPOLL CTL ADD, fd, ev) == -1) 
errExit("epoll ctl"); 


max user watches 上 限 


因为 每 个 注册 到 epoll 实例 上 的 文件 摘 述 和 从 需要 占用 一 小 段 不 能 被 交换 的 内 核 内 存 空间 ， 
因此 内 核 提 供 了 一 个 接口 用 来 定义 每 个 用 户 可 以 注册 到 epol 实例 上 的 文件 描述 符 总 数 。 这 个 
上 上 限 值 可 以 通过 max user watches 来 查看 和 修改 。max_user watches 是 专属 于 Linux 系统 的 
/proc/sys/fd/epoll 目录 下 的 一 个 文件 。 默 认 的 上 限 值 根据 可 用 的 系统 内 存 来 计算 得 出 (参见 
epoll(7) 的 用 户 手 册页 )。 


63.4.3 ”事件 等 待 : epoll_wait() 


系统 调用 epoll_waitO 返 回 epoll 实例 中 处 于 惑 绪 态 的 文件 描述 符 信 息 。 音 余 epol wait0 调 
用 能 返回 多 个 就 绪 态 文件 描述 符 的 信息 。 

















#include «sys/epoll.h» 


int epoll wait(int epfd, struct epoll event *eulist, int maxevents, int timeout); 








Returns number of ready file descriptors, 0 on timeout, or -1 on error 








参数 evlist 所 指 问 的 结构 体 数 组 中 返回 的 是 有 关 束 绪 态 文件 描述 符 的 信息 。( 结 构 体 
epoll event 已 经 在 上 一 节 中 摘 述 。) 数组 evlist 的 空间 由 调用 者 负责 申请 ， 所 包含 的 元 素 个 数 
在 参数 maxevents 中 指定 。 
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在 数组 evlist 中 ， 每 个 元 系 返 回 的 都 是 单个 就 绪 态 文件 描述 符 的 信息 。events 字段 返回 了 
在 该 描述 符 上 已 经 发 生 的 事件 掩 码 。Data 字段 返回 的 是 我 们 在 搬 述 人 符 上 使 用 cpoll_ct10 注 册 感 
兴趣 的 事件 时 在 ev.data 中 所 指定 的 值 。 注 意 ，data 字段 是 唯一 可 获知 同 这 个 事件 相关 的 文件 
描述 符号 的 途径 。 因 此 ， 妆 我 们 调用 epoll_ct0 将 文件 拍 述 符 诬 加 到 兴趣 列表 中 时 ， 应 该 要 么 
将 ev.data.fd 设 为 文件 描述 符号 (如 程序 清单 63-4 中 所 示 ), 要 么 将 ev.data.ptr 设 为 指 问 包 含 文 
件 描述 符号 的 结构 体 。 

参数 timeout 用 来 确定 epoll wait0 的 阻塞 行为 ， 有 如 下 儿 种 。 

。 WA timeout 等 于 -1， 调 用 将 一 二 阻塞 ， 直 到 兴趣 列表 中 的 文件 描述 符 上 有 事件 产生 ， 








或 者 直到 捕获 到 一 个 信号 为 止 。 
。 如 条 timeout 等 于 0, 执行 一 次 非 阻塞 式 的 检查 , 看 兴趣 列表 中 的 文件 描述 符 上 产生 了 
哪个 事件 。 





e 如 果 timeout 大 于 0， 调用 将 阻塞 至 多 timeout 毫秒 ， 直 到 文件 描述 符 上 有 事件 发 生 ， 
或 者 直到 捕获 到 一 个 信号 为 止 。 

调用 成 功 后 ,lepoll waitO 返 回 数 组 evlist 中 的 元 素 个 数 。 如 果 在 timeout 超时 间隔 内 没有 
任何 文件 描述 符 处 于 惑 绪 态 的 话 ， 返 回 0。 出 错时 返回 ~1， 并 在 errno "P XE rv D E t 
RIRA. 

在 多 线程 程序 中 ， 可 以 在 一 个 线程 中 使 用 epoll ctl ff ARER A n AEA HH. 
Epowvarg9 所 星 视 的 66 实例 的 兴趣 列表 惠 大 。 这 些 对 兴趣 列表 的 修改 将 立刻 得 到 处 理 ， 而 
epoll_wait() 调 用 将 返回 有 关 狐 添加 的 文件 换 述 符 的 整 绪 信息 。 


epoll 事件 


当 我 们 调用 epoll ctl) f HJ EA YE. ev.events "P RE BJ ez d& 83 DJ 7v H epoll_waitO0 返 回 的 
evlist[].events 中 的 值 在 表 63-8 PH. BRI A-AA RTR EP AXES m 
称 同 poll) FXI P B] SETA AA RHE. Ah A EPOLLET H EPOLLONESHOT, FHR 
们 会 给 出 更 详细 的 说 明 。) XR MK ECROBOSE NEA ARS IRL DSL EARNE epoll_ctO 中 指定 输入 ， 
或 通过 epoll waitO 得 到 输出 时 ,这 些 比特 位 表达 的 意思 同 对 应 的 polO 的 事件 掩 码 所 表达 的 意 
思 一 样 。 


X 63-8: epoll 中 events 字段 上 的 位 掩 码 值 


FEA 作为 epoll_ctlO 的 输入 ? 由 epoll_waitO 返 回 ? 描述 















































EPOLLIN 可 读 取 非 高 优先 级 的 数据 
EPOLLPRI 可 读 取 高 优先 级 数据 
EPOLLRDHUP 2 08 GRF Linux 
EPOLLOUT 普通 数据 可 写 

(EBONEED 采用 边缘 触发 事件 通知 
EPOLLONESHOT 在 完成 事件 通知 之 后 禁用 检查 
EPOLLERR 有 错误 发 生 

EPOLLHUP 出 现 挂 断 
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EPOLLONESHOT 标志 


默认 情况 下 ,一 旦 通过 epoll ctl)f] EPOLL CTL ADD HAK FRR E] epoll Sz 
例 的 兴趣 列表 中 后 ， 它 会 保持 激活 状态 〈 即 ， 之 后 对 epoll_wait() 的 调用 会 在 描述 符 处 于 就 绪 
态 时 通知 我 们 ) 直到 我 们 显 式 地 通过 epoll_ctl0 的 EPOLL_CTL_DEL 操作 将 其 从 列表 中 移 除 。 
如 末 我 们 硕 望 在 菏 个 特定 的 文件 描述 符 上 只 得 到 一 次 通知 ， 那 么 可 以 在 传 给 epoll ctlOTJ 
ev.events 118 4E EPOLLONESHOT (从 Linux 2.6.2 版 开始 文 持 ) 标志 。 如 果 指 定 了 这 个 标志 ， 
那么 在 下 一 个 epoll_waitO 调 用 通知 我 们 对 应 的 文件 描述 符 处 于 就 绪 态 之 后 ， 这 个 描述 符 就 会 
在 兴趣 列表 中 被 标记 为 非 激活 态 ， 之 后 的 epoll waitO 调 用 都 不 会 再 通知 我 们 有 关 这 个 描述 符 
的 状态 了 。 如 果 需 要 ， 我 们 可 以 稍 后 通过 epoll ctl0 的 EPOLL CTL MOD 操作 重新 激活 对 这 
个 文件 摘 述 符 的 检查 。( 这 种 情况 下 不 能 用 EPOLL CTL ADD 操作 ， 因 为 非 激 活 态 的 文件 摘 
述 符 仍然 还 在 epol 实例 的 兴趣 列表 中 。) 











程序 示例 


程序 清单 63-5 展示 了 应 该 如 何 使 用 epollAPI。 命 令 行 参数 表示 该 程序 期 望 得 到 一 个 或 多 个 
终端 或 者 FIFO 的 路 径 名 。 该 程序 执行 如 下 步骤 。 

e 创建 一 个 epoll KHO. 

e 打开 由 命令 行 参数 指定 的 每 个 文件 ， 以 此 作为 输入 名 ， 并 将 得 到 的 文件 描述 符 添 加 到 

epoll 实例 的 兴趣 列表 中 他。 将 需要 检查 的 事件 集合 设 定 为 EPOLLIN。 

。 执行 一 个 循环 中， 在 循环 中 调用 epoll waitG)2K 5 £t epoll 实例 的 兴趣 列表 中 的 文件 

描述 符 ， 并 处 理 每 个 调用 返回 的 事件 。 对 于 这 个 循环 ， 请 注意 以 下 几 点 。 

一 在 epoll_waitO 调 用 之 后 ,程序 检 奉 是否 返回 了 EINTR 错误 码 @。 如果 在 epoll wait() 
调用 执行 期 间 程 序 被 一 个 信号 打 断 , 之 后 又 通过 SIGCONT 信号 恢复 执行 此 时 整 
"FRE HD Av CUL, 21.5 A585)». 如 果 出 现 这 种 情况 , 程序 会 重新 调用 epoll_waitO。 

一 如 果 epoll_waitO 调 用 成 功 ， 程 序 就 再 执行 一 个 内 层 循 环 检查 evlist 中 每 个 已 就 绪 的 
TZR. XF evlist 中 的 每 个 元 素 ,程序 不 只是 检 奋 events 字段 中 的 EPOLLIN 标记 @), 
EPOLLHUP 和 EPOLLERR(G9) 标 记 也 要 检查 。 后 两 种 事件 会 在 FIFO 的 对 端 关 闭 ， 或 
GE cuzEedHSEIR IBS 如 果 返 回 的 是 EPOLLIN， 程 序 从 对 应 的 文件 描述 符 中 读 取 一 
些 输入 并 在 标准 输出 上 打印 出 来 。 否则 , URRE E EPOLLAUP 或 EPOLUUERR) 
程序 就 关闭 对 应 的 文件 描述 符 @ 并 递减 打开 文件 数 的 统计 量 (numOpenFds)。 

一 当 所 有 打开 的 文件 摘 述 符 都 被 关闭 后 ， 循 环 终止 〈 当 numOpenFds 等 于 0 时 )。 

下 面 的 shell 会 话 演 示 了 程序 清单 63-5 中 所 示 程 序 的 使 用 。 我 们 用 到 了 两 个 终端 窗口 ， 在 
其 中 一 个 窗口 上 用 该 程序 来 检查 两 个 FIFO 文件 的 输入 。( 如 44.7 节 中 描述 的 ， 程 序 打 开 的 每 
A FIFO 文件 ， 其 读 操 作 只 会 在 另 一 个 进程 打开 FIFO 文件 做 写 操作 后 才能 完成 ) 在 另外 一 个 
口上 上， 我们 运行 cat(1) 程 序 将 数据 写 到 这 些 FIFO 中 去 。 





























Terminal window 1 Terminal window 2 

$ mkfifo pq 

$ ./epoll input p q 
$ cat» p 

Opened "p" on fd 4 
Type Control-Z to suspend cat 
[1]- Stopped cat »p 
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$ cat» q 
Opened "q" on fd 5 
About to epoll wait() 
Type Control-Z to suspend the epoll. input program 


[1]- Stopped ./epoll input p q 





在 上 述 步骤 中 ， 我 们 和 暂停 了 监测 程序 ， 这 样 我 们 可 以 在 两 个 FIFO 上 产生 输入 ， 然 后 关闭 
其 中 一 个 FIFO 的 写 端 。 


qqq 
Type Control-D to terminate “cat > q” 





$ fg %1 
cat »p 
ppp 
现在 ， 我 们 将 监测 程序 带 入 前 台 恢 复 其 运行 ， 此 时 epoll_waitO 将 返回 两 个 事件 。 


$ fg 
./epoll input p q 
About to epoll wait() 
Ready: 2 
fd-4; events: EPOLLIN 
read 4 bytes: ppp 


fd-5; events: EPOLLIN EPOLLHUP 
read 4 bytes: qqq 


closing fd 5 
About to epoll wait() 


上 面 输出 结束 中 的 两 个 空 行 是 cat 程序 实例 读 取 的 换行 从 ， 写 入 FFO 中 之 后 由 监测 程序 
读 取 并 回 显 在 终端 输出 上 。 

现在 我 们 在 第 二 个 终 问 窗口 输入 Ctrl-D RAIER) PHI cat 程序 实例 ,这 将 导致 epoll_wait() 
再 次 返回 ， 这 次 只 有 一 个 事件 。 











Type Control-D to terminate “cat >p?” 
Ready: 1 
fd-4; events: EPOLLHUP 
closing fd 4 
All file descriptors closed; bye 


程序 清单 63-5: 使 用 epoll API 


一 altio/epoll input.c 
#include «sys/epoll.h» 

#include «fcntl.h» 

#include "tlpi hdr.h 


#define MAX BUF 1000 /* Maximum bytes fetched by a single read() */ 
#define MAX EVENTS 5 /* Maximum number of events to be returned from 
a single epoll wait() call */ 
int 
main(int argc, char *argv[]) 
int epfd, ready, fd, s, j, numopenFds; 


struct epoll event ev; 
struct epoll event evlist[MAX EVENTS]; 
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char buf[MAX BUF|; 


if (argc < 2 || stremp(argv[1], "--help") == 0) 
usageErr("%s file...An", argv[0]); 


epfd - epoll create(argc - 1); 
if (epfd -- -1) 
errExit("epoll create"); 


/* Open each file on command line, and add it to the "interest 


list" for the epoll instance */ 


for (j = 1; j < argc; j++) { 
fd = open(argv[j], O0 RDONLY); 
if (fd == -1) 
errExit("open"); 
printf("Opened \"%s\" on fd %d\n", argv[j], fd); 


ev.events = EPOLLIN; /* Only interested in input events */ 
ev.data.fd - fd; 
if (epoll ctl(epfd, EPOLL CTL ADD, fd, &ev) -- -1) 
errExit("'epoll ctl"); 
} 


numOpenFds = argc - 1; 
while (numOpenFds > 0) ( 
/* Fetch up to MAX EVENTS items from the ready list */ 


printf("About to epoll wait()Wn"); 
ready - epoll wait(epfd, evlist, MAX EVENTS, -1); 
if (ready -- -1) ( 
if (errno -- EINTR) 
continue; /* Restart if interrupted by signal */ 
else 
errExit("epoll wait"); 
} 
printf("Ready: %d\n", ready); 


/* Deal with returned list of events */ 


for (j20; j < ready; j++) { 
printf(" fd=%d; events: %s%s%s\n", evlist[j].data.fd, 


(evlist[j].events & EPOLLIN) ? "EPOLLIN " : "", 
(evlist[j].events & EPOLLHUP) ? "EPOLLHUP " : "", 
(evlist[j].events & EPOLLERR) ? "EPOLLERR " : ""); 


if (evlist[j].events & EPOLLIN) 1 
s - read(evlist[j].data.fd, buf, MAX BUF); 
if (s == -1) 
errExit("read"); 
printf(" read 4d bytes: %.*s\n", s, s, buf); 


) else if (evlist[j].events & (EPOLLHUP | EPOLLERR)) { 
/* If EPOLLIN and EPOLLHUP were both set, then there might 


be more than MAX BUF bytes to read. Therefore, we close 
the file descriptor only if EPOLLIN was not set. 
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We'll read further bytes after the next epoll wait(). */ 


printf(" closing fd %d\n", evlist[j].data.fd); 
O if (close(evlist[j].data.fd) == -1) 
errExit("close"); 
numOpenFds- - ; 
} 
} 
} 


printf("All file descriptors closed; byeWn"); 
exit(EXIT SUCCESS); 


altio/epoll input.c 


63.4.4 深入 探究 epoll 的 语义 


现在 我 们 来 看 看 打开 的 文件 同文 件 描述 符 以 及 epoll 之 间 交 互 的 一 些 细微 之 处 。 基 于 本 次 讨 
论 的 目的 ， 回 顾 一 下 图 5-2 中 展示 的 文件 描述 符 ， 打 开 的 文件 描述 Cile description)， 以 及 整 
个 系统 的 文件 i-node 表 之 间 的 关系 。 

当 我 们 通过 epoll_create0 创 建 一 个 epoll 实例 时 ， 内 核 在 内 存 中 创建 了 一 个 新 的 i-node 并 
打开 文件 描述 ,随后 在 调用 进程 中 为 打开 的 这 个 文件 描述 分 配 一 个 新 的 文件 描述 符 。 同 epoll 实 
例 的 兴趣 列表 相关 联 的 是 打开 的 文件 描述 ， 而 不 是 epol 文件 描述 符 。 这 将 产生 下 列 结果 。 

。 如 果 我 们 使 用 dup() (或 类 似 的 函数 ) 复制 一 个 epoll 文件 描述 符 ， 那 么 被 复制 的 描述 
符 所 指 代 的 epoll 兴趣 列表 和 就 绪 列 表 同 原始 的 epoll 文件 描述 符 相 同 。 若 要 修改 兴 
列表 ， 在 epoll_ctl0 的 参数 epfd 上 设 定 文件 描述 符 可 以 是 原始 的 也 可 以 是 复制 的 。 

。 上 一 条 观点 同样 也 适用 于 forkO 调 用 之 后 的 情况 。 此 时 子 进 程 通过 继承 复制 了 父 进程 
的 epoll 文件 描述 符 , 而 这 个 复制 的 文件 描述 符 所 指向 的 epoll 数据 结构 同 原始 的 描述 符 
相同 。 

当 我 们 执行 epoll ctl0 的 EPOLL CTL ADD 操作 时 ， 内核 在 epoll 兴趣 列表 中 添加 了 一 个 
元 素 ， 这 个 元 素 同 时 记录 了 需要 检查 的 文件 描述 符 数 量 以 及 对 应 的 打开 文件 描述 的 引用 。 
epoll wait0 调 用 的 目的 就 是 让 内 核 负 员 监 视 打开 的 文件 描述 ,这 表示 我 们 必须 对 之 前 的 观点 做 
改进 :如果 一 个 文件 描述 符 是 epoll 兴趣 列表 中 的 成 员 ， 当 关闭 它 后 会 自动 从 列表 中 移 除 。 改 
进 版 应 该 是 这 样 的 ;一旦 所 有 指向 打开 的 文件 描述 的 文件 描述 符 都 被 关闭 后 ， 这 个 打开 的 文 
件 描述 将 从 epoll 的 兴趣 列表 中 移 除 。 这 表示 如 果 我 们 通过 dup0 (或 类 似 的 函数 ) 或 者 fork0 
为 打开 的 文件 创建 了 描述 符 副本 ， 那 么 这 个 打开 的 文件 只 会 在 原始 的 描述 符 以 及 所 有 其 他 的 
副本 都 被 关闭 时 才 会 移 除 。 





























” 译 者 注 : 本 音 之 前 都 是 用 文件 描述 符 (file descriptor) 来 表示 打开 了 某 个 文件 ， 这 一 段 又 冒 出 来 个 文件 描述 
(file description)， 而 文件 摘 述 和 文件 描述 符 之 间 还 有 看 关联 。 其 实 是 这 样 的 : 文件 描述 Cile description? 表示 的 
是 一 个 打开 文件 的 上 下 文 信息 大小、 内 容 、 编 码 等 与 文件 有 关 的 信息 )， 可 以 比喻 为 一 个 抽 居 ， 这 部 分 内 容 实 
际 上 是 由 内 核 来 管理 的 。 而 用 户 空间 的 应 用 程序 如 果 要 操作 文件 怎么 办 。 束 是 通过 open0 这 样 的 系统 调用 回 内 核 
请 求 , 然后 内 核 分 配给 用 户 空间 一 个 文件 描述 符 (file descriptor)。 这 个 文件 描述 符 可 以 比喻 为 抽 居 的 把 手 (handle 
之 所 以 翻译 为 “句柄 ”， 这 就 是 原因 )， 有 了 这 个 把 手 〈 文 件 描 述 符 )， 用 户 就 可 以 操作 抽 层 (文件 描述 ) 里 的 内 
容 了 。 但 是 ， 一 个 抽 屠 可 以 有 多 个 把 手 《〈 即 文件 描述 可 以 对 应 多 个 文件 描述 符 )， 只 有 当 所 有 的 把 手 《〈 文 件 描述 
符 ) 都 关闭 了 ， 内 核 就 知道 此 时 没有 用 户 空 间 的 程序 要 用 这 个 抽 居 了 【文件 描述 )， 那 么 就 把 它 回 收 。 

文件 摘 述 实际 上 是 内 核 中 的 一 个 数据 结构 ， 而 用 户 空 间 中 的 文件 描述 符 只 不 过 是 一 个 整数 ，epoll 的 兴 
趣 列表 实际 关注 的 是 内 核 中 的 数据 结构 。 所 以 作者 在 这 里 改进 了 一 下 之 前 的 结论 ， 说 得 更 细 ， 更 准确 ， 也 符 
合 这 一 节 的 主题 “深入 探究 epoll 的 语义 ” 
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这 些 语 义 可 导 任 出 现 某 些 令 人 惊讶 的 行为 。 假 设 我 们 执行 程序 清单 63-6 中 所 示 的 代 
但 。 即 使 文件 摘 述 符 fdl 已 经 被 关 闭 了 ， 这 上 段 代 人 码 中 的 epoll_wait() 调 用 也 会 告诉 我 们 fdl 
已 就 绪 〈 换 名 话说 ，evlist[0].data.fd 的 值 等 于 fdl1)。 这 是 因为 还 有 一 个 打开 的 文件 描述 符 
fd2 存在 ， 它 所 指向 的 文件 描述 信息 仍 包 含 在 epoll 的 兴趣 列表 中 。 当 两 个 进程 持 有 对 同一 
个 打开 文件 的 文件 描述 符 副 本 时 《一 般 是 由 于 forkO 调 用 )， 也 会 出 现 相 似 的 场景 。 执 
行 epoll_waitO 操 作 的 进程 已 经 关闭 了 文件 描述 符 , 但 另 一 个 进程 仍然 持 有 打开 的 文件 描述 
从 副本 。 


程序 清单 63-6: epoll 在 文件 描述 符 副 本 下 的 语义 




















int epfd, fd1, fd2; 
struct epoll event ev; 
struct epoll event evlist[MAX EVENTS]; 


/* Omitted: code to open fd1 and create epoll file descriptor 'epfd' ... */ 


ev.data.fd - fd1 

ev.events - EPOLLIN; 

if (epoll ctl(epfd, EPOLL CTL ADD, fdi, ev) == -1) 
errExit("epoll ct1"); 


/* Suppose that 'fdi' now happens to become ready for input */ 


fd2 - dup(fd1); 
close(fd1); 
ready - epoll wait(epfd, evlist, MAX EVENTS, -1); 
if (ready == -1) 
errExit("'epoll wait"); 


63.4.5 epoll E I/O 多 路 复 用 的 性 能 对 比 


K 63-9 展示 了 当 我 们 使 用 polO、selectO 以 及 epoll 监视 0 2) N-1 的 N 个 连续 文件 描 
述 符 时 的 结果 (在 2.6.25 版 内 核 上 )。( 该 测试 设 定 为 在 每 次 监视 中 ， 只 有 一 个 随机 选择 的 
文件 描述 符 处 于 就 绪 态 。) 从 这 个 表格 中 ， 我们 发 现 随 着 被 监视 的 文件 描述 符 数量 的 上 升 ， 
poll()sll selectO 的 性 能 表现 越 来 越 差 。 与 之 相反 ， 当 NN 增长 到 很 大 的 值 时 ，epoll 的 性 能 
现 几 乎 不 会 降低 。( 当 N 值 上 升 时 ， 微 小 的 性 能 下 降 可 能 是 由 于 测试 系统 上 的 CPU cache 
达到 了 上 限 。) 


X 63-9: poll()、select() 以 及 epoll 进行 100000 次 监视 操作 所 花费 的 时 间 


被 监视 的 文件 描 poll0 所 占用 的 select) FF i HAS epoll 所 占用 的 
述 符 数量 (N) CPU 时 间 ( 秒 ) CPU 时 间 ( $5 ) CPU 时 间 ( 秒 ) 














10 0.61 0.73 0.41 
100 2.9 3.0 0.42 
1000 35 35 0.53 


10000 990 930 0.66 








基于 本 测试 的 目的 , 我 们 在 glibe 的 头 文件 中 将 FD_SETSIZE 修改 为 16384, 以 此 允许 测试 
程序 在 使 用 selectO 时 能 监视 大 量 的 文件 描述 符 。 
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在 63.2.5 Tip JA RID. T 2g 1T select poll0 在 监视 大 量 的 文件 插 述 从 时 性 能 表现 很 
25. HidEdeA VEU 8 29 1T epoll 的 性 能 表现 会 更 好 。 
。 每 次 调用 select) 和 polO 时 ， 内 核 必须 检 售 所 有 在 调用 中 指定 的 文件 描述 符 。 与 之 相 
反 ， 当 通过 epoll_ct0 指 定 了 需要 监视 的 文件 摘 述 符 时 ， 内 核 会 在 与 打开 的 文件 描述 
上 下 文 相关 联 的 列表 中 记录 该 描述 符 。 之 后 每 当 执 行 VO 操作 使 得 文件 描述 符 成 为 束 
ANIT, ARIRE epoll 摘 述 符 的 残 络 列表 中 谎 加 一 个 元 素 。( 单 个 打开 的 文件 描述 上 
下 文中 的 一 次 IO 事件 可 能 导致 与 乙 相 关 的 多 个 文件 措 述 符 成 为 殴 绪 态 。) 之 后 的 
epoll_wait() 调 用 从 束 绪 列表 中 简单 地 取出 这 些 元 素 。 
。 每 次 调用 select) EX poll0 时 ， 我 们 传递 一 个 标记 了 所 有 竺 监视 的 文件 拉 述 符 的 
数据 结构 给 内 核 ， 调 用 返回 时 ， 内 核 将 所 有 标记 为 瓯 绪 态 的 文件 摘 述 符 的 数据 
结构 再 传 回 给 我 们 。 与 之 相反 ， 在 epoll 中 我 们 使 用 epoll ctl0 在 内 核 空间 中 建 
世 一 个 数据 结构 ， 该 数据 结构 会 将 待 监 视 的 文件 描述 符 都 记录 下 来 。 一 旦 这 个 
数据 结构 建立 完成 ， 稍 后 每 次 调用 epoll wait() 时 就 不 需要 再 传递 任何 与 文件 描 
述 符 有 关 的 信息 给 内 核 了 ， 而 调用 返回 的 信息 中 上 只 包含 那些 已 经 处 于 残 绪 态 的 
描述 符 。 
除了 以 上 几 点 外 ， 对 于 select0 来 说 ， 我 们 必须 在 每 次 调用 之 前 先 初 始 化 输入 数据 。 而 无 论 
是 SelectO 还 是 poll0， 我 们 必须 对 返回 的 数据 结构 做 检查 ， 以 此 找 出 N 个 文件 摘 述 符 中 有 哪些 
是 处 于 吏 绪 态 的 。 但 是 ， 通 过 一 些 测试 得 出 的 结果 表明 ， 这 些 额 外 的 步骤 所 花费 的 时 间 同 系统 
调用 监视 N 个 文件 摘 述 符 所 花 训 的 时 间 相 比 就 显得 微不足道 了 。 表 63-9 并 没有 包含 这 些 检 答 
步骤 所 用 的 时 间 。 


粗略 来 看 ， 我 们 可 以 认为 当 N《〈 被 监视 的 文件 描述 符 数 量 ) 取 值 很 大 时 ，select0 和 poll0 的 
性 能 会 随 看 N 的 增 大 而 线性 下 降 。 这 可 以 从 表 63-9 中 N=100 和 N=1000 时 的 情况 得 到 。 而 当 
N-10000 时 ， 人 性 能 伸缩 性 实际 上 比 线性 还 要 差 。 

与 之 相反 的 是 ，epoll 的 性 能 会 根据 发 生 VO 事件 的 数量 而 扩展 《〈 呈 线性 )。 因 此 常见 的 能 
够 局 效 使 用 epoll API 的 应 用 场景 就 是 需要 同时 处 理 许多 客户 端的 服务 器 : 需要 监视 大 量 的 文 
件 描 述 符 ， 但 大 部 分 处 于 空闲 状态 ， 只 有 少数 文件 描述 符 处 于 就 红 态 。 


63.4.6 ”边缘 触发 通知 

默认 情况 下 epoll 提供 的 是 水 平 触发 通知 。 这 表示 epoll 会 告诉 我 们 何 时 能 在 文件 描述 符 
上 以 非 阻 赛 的 方式 执行 VO 操作 。 这 同 poll0 和 selectO 所 提供 的 通知 类 型 相同 。 

epoll API 还 能 以 边缘 触发 方式 进行 通知 一 一 也 就 是 说 ， 会 告诉 我 们 自从 上 一 次 调用 
epoll_waitO 以 来 文件 描述 符 上 是 否 已 经 有 VO 活动 了 (或 者 由 于 描述 符 被 打开 了 ， 如 果 之 前 没 
有 调用 的 话 )。 使 用 epoll 的 边缘 触发 通知 在 语义 上 类 似 于 信号 驱动 IO， 只 是 如 果 有 多 个 vo 
事件 发 生 的 话 ，epoll 会 将 它们 合并 成 一 次 单独 的 通知 ， 通 过 epoll wait0 返 回 ， 而 在 信号 驱动 
VO 中 则 可 能 会 产生 多 个 信号。 

要 使 用 边缘 触发 通知 ， 我 们 在 调用 epoll ctlOW] ZE ev.events FA TI E EPOLLET 































































































struct epoll event ev; 


ev.data.fd - fd 
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ev.events - EPOLLIN | EPOLLET; 

if (epoll ctl(epfd, EPOLL CTL ADD, fd, ev) -- -1) 
errExit("epoll ctl"); 

我 们 通过 一 个 例子 来 说 明 epoll 的 水 平 触发 和 边缘 触发 通知 之 间 的 区 列 。 假 设 我 们 使 用 

epoll 来 监视 一 个 套 接 字 上 的 输入 EPOLLIN)， 接 下 来 会 发 生 如 下 的 事件 。 

L 套 接 字 上 有 输入 到 来 。 

2. 我 们 调用 一 次 epoll_waitOD。 无 论 我 们 采用 的 是 水 平 触发 还 是 边缘 触发 通知 ， 访 调用 
都 会 告诉 我 们 父 接 字 已 经 处 于 残 绪 态 了 。 

3. 再 次 调用 epoll wait()。 

如 果 我 们 采用 的 是 水 平 触发 通知 ， 那 么 第 二 个 epoll_waitO 调 用 将 告诉 我 们 套 接 学 处 于 项 

绪 态 。 而 如 果 我 们 采用 边缘 触发 通知 ， 那 么 第 二 个 epoll_waitO 调 用 将 阻塞 ， 因 为 目 从 上 一 次 

调用 epoll_waitO 以 来 并 没有 新 的 输入 到 来 。 
正如 我 们 在 63.1.1 市 中 提 到 的 , 演 缘 触发 通知 通常 和 非 阻塞 的 文件 搬 述 符 结 合 使 用 

而 ， 采 用 epoll 的 边缘 触发 通知 机 制 的 程序 基本 框架 如 下 。 

l. 让 所 有 每 监视 的 文件 搬 述 符 都 成 为 非 阻 紧 的 。 
2. 通过 epoll_ctl() 构 建 epoll 的 兴趣 列表 。 
3. 通过 如 下 的 循环 处 理 IO 事件 。 
(a) 通过 epoll wait0 取 得 处 于 束 绪 态 的 插 述 符 列表。 
OER RE — A Ab T CER SII OCT TRAN T» 不断 进行 VO 处 理 下 到 相关 的 系统 调用 ( 例 
如 read()、write()、recv()、send() 或 accept()) 返回 EAGAIN 或 EWOULDBLOCK 
Ho 
当 采 用 边缘 触发 通知 时 避免 出 现 文 件 描述 符 饥 饿 现象 
假设 我 们 采用 边缘 触发 通知 监视 多 个 文件 描述 符 , 其 中 一 个 处 于 就 绪 态 的 文件 描述 符 

上 有 看 大 量 的 输入 存在 (可 能 是 一 个 不 间断 的 输入 流 )。 如 果 在 检测 到 该 文件 摘 述 从 处 于 

束 乡 态 后 ， 我 们 将 笠 试 通过 非 阻 和 里 式 的 读 操 作 将 所 有 的 输入 部 读 取 ， 那 么 此 时 就 会 有 使 其 

他 的 文件 摘 述 符 处 于 饥饿 状态 的 风险 存在 〈 即 ， 在 我 们 再 次 检查 这 些 文件 描述 符 是 人 否 处 于 

就 绪 态 并 执行 VO 操作 前 会 有 很 长 的 一 段 处 理 时 间 )。 该 问题 的 一 种 解决 方案 是 让 应 用 程序 

维护 一 个 列表 ， 列 表 中 存放 看 已 经 被 通 知 为 殴 绪 态 的 文件 描述 符 。 通 过 一 个 循环 按照 如 下 

方式 不 断 处 理 。 

l. 调用 epoll_waitO 监 视 文 件 描述 符 ， 并 将 处 于 吉 绪 态 的 描述 符 添 加 到 应 用 程序 维护 的 
列表 中 。 如 果 这 个 文件 描述 符 已 经 注册 到 应 用 程序 维护 的 列表 中 了 ， 那 么 这 次 监视 
操作 的 超时 时 间 应 该 设 为 较 小 的 值 或 者 是 0。 这 样 如 末 没 有 新 的 文件 描述 符 成 为 束 
绪 态 ， 应 用 程序 就 可 以 迅速 进行 到 下 一 步 ， 去 处 理 那 些 已 经 处 于 束 绪 态 的 文件 描述 
TFI. 

2. 在 应 用 程序 维护 的 列表 中 ， 只 在 那些 已 经 注册 为 就 绪 态 的 文件 描述 符 上 进行 一 定 限度 
的 IO 操作 (可 能 是 以 轮转 调度 (round-robin) 方式 循环 处 理 ， 而 不 是 每 次 epoll wait() 
调用 后 都 从 列表 头 开 始 处 理 )。 当 相关 的 非 阻塞 IO 系统 调用 出 现 EAGAIN 或 
EWOULDBLOCK 错误 时 ， 文 件 描述 符 束 可 以 从 应 用 程序 维护 的 列表 中 移 除 了 。 
尽管 采用 这 种 方法 需要 做 些 额 外 的 编程 工作 ， 但 是 除了 能 避免 出 现 文件 描述 符 饥 饿 现象 

外 ， 我 们 还 能 获得 其 他 益处 。 比 如 ， 我 们 可 以 在 上 述 循环 中 加 入 其 他 的 步 又 ， 比 如 处 理 定 时 
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器 以 及 用 sigwaitinfo() 〈 或 其 他 闫 似 的 机 制 ) 来 接收 信号。 

因为 信号 驱动 VO 也 是 采用 的 边缘 触发 通知 机 制 ， 因 此 也 需要 考虑 文件 摘 述 符 饥 猴 的 情 
况 。 与 之 相反 ， 在 采用 水 平 触发 通知 机 制 的 应 用 程序 中 ， 考 虑 文件 描述 符 饥 饿 的 情况 并 不 是 
必须 的 。 这 是 因为 我 们 可 以 采用 水 平 触 发 通知 在 非 阻塞 式 的 文件 描述 符 上 通过 循环 连续 地 检 
答 摘 述 符 的 吏 绪 状态 ， 然 后 在 下 一 次 检查 文件 摘 述 符 的 状态 前 在 处 于 惑 绪 态 的 措 述 符 上 做 一 
些 IO 处 理 就 可 以 了 。 


63.5 ”在 信号 和 文件 朱 述 符 上 等 街 


有 时 候 ， 进 程 既 要 在 一 组 文件 描述 符 上 等 待 IO 如 绪 ， 也 要 等 符 竺 发 送 的 信和 号。 我们 可 以 
尝试 通过 select0 来 执行 这 样 的 操作 ， 如 程序 清单 63-7 所 示 。 


程序 清单 63-7: 非 阻 塞 信 号 和 selectO) 调 用 的 错误 用 法 




















sig atomic t gotSig = 0; 


void 
handler(int sig) 
{ 

gotSig = 1; 
} 
int 


main(int argc, char *argv[]) 


struct sigaction sa; 


sa.sa sigaction - handler; 

sigemptyset(8sa.sa mask); 

sa.sa flags - 0; 

if (sigaction(SIGUSR1, &sa, NULL) -- -1) 
errExit("sigaction"); 


/* What if the signal is delivered now? */ 


ready = select(nfds, &readfds, NULL, NULL, NULL); 
if (ready > 0) { 

printf("%d file descriptors ready\n", ready); 
) else if (ready -- -1 8& errno -- EINTR) { 

if (gotSig) 

printf("Got signalin"); 

} else { 

/* Some other error */ 
} 


} 


这 段 代 码 的 问题 在 于 ， 如 果 信 号 (本 例 中 是 SIGUSR1) 到 来 的 时 机 刚好 是 在 安装 信号 处 
理 例 程 之 后 且 在 selectO 调 用 之 前 ， 那 么 select0 依 然 会 阻 故 。(〈 这 是 部 态 条 件 的 一 种 形式 。) 现 
在 我 们 来 看 看 对 于 这 个 问题 有 什么 解决 方案 。 
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从 2.6.27 IRAIZ Z Ja, Linux 提供 了 种 新 的 技术 可 同时 等 待 信号 和 文件 描述 符 状 态 5 这 
就 是 本 书 22.11 市 中 介绍 的 signalfd。 采 用 这 种 机 制 ， 我 们 可 以 通过 由 select. poll X 
epoll_wait0 所 监视 的 文件 反 述 符 ( 同 其 他 的 文件 接 述 答 一 起 ) 来 接收 信和 号。 


63.5.1 pselect() 系 统 调用 


系统 调用 pselectO 执 行 的 任务 同 select0 相 似 。 它们 语义 上 的 主要 区 别 在 于 一 个 附加 的 参 
sigmask。 该 参数 指定 了 当 调 用 被 阻塞 时 有 哪些 信号 可 以 不 被 过 滤 掉 ， 


#define XOPEN SOURCE 600 
#include «sys/select.h» 








数 








int pselect(int nfds, fd set *readfds, fd set *writefds, fd set *exceptfds, 
struct timespec */zmeout, const sigset t *sigmask); 








Returns number of ready file descriptors, 0 on timeout, or -1 on error 


更 准确 地 次 ， 假 设 我 们 这 样 调 用 pselectO: 
ready = pselect(nfds, &readfds, &writefds, &exceptfds, timeout, &sigmask); 
这 个 调用 等 同 于 以 原子 方式 执行 下 列 步 又 : 


sigset t origmask; 








sigprocmask(SIG SETMASK, &sigmask, &origmask); 
ready = select(nfds, &readfds, &writefds, &exceptfds, timeout); 
sigprocmask(SIG SETMASK, &origmask, NULL); /* Restore signal mask */ 


使 用 pselectO. 我 们 可 以 将 程序 清单 63-7 中 mainQ PA LIE — 841 PES FETTE Hf. 63-8 
中 的 代码 。 
除了 参数 sigmask 7h, selectO 4l pselectO0 还 有 如 下 区 别 。 


如 果 我 们 将 pselectO 的 sigmask 参数 指定 为 NULL， 那 么 除了 上 述 区 别 外 pselect(O 束 等 同 
T select) (BẸ pselectO 不 会 操作 进程 的 信号 掩 码 )。 

pselect() 接 口 定义 在 POSIX.1g 中 ， 现 在 已 经 加 入 到 SUSv3 规范 。 并 不 是 所 有 的 UNIX SE 
现 都 支持 这 一 接口 ，Linux 中 也 只 是 在 2.6.16 版 内 核 后 才 加 入 。 














«Wi. glibc 提供 有 一 个 pselectO0 的 库 函数 实现 ， 但 它 并 不 能 你 证 正确 调用 该 接口 所 党 要 的 
原子 性 。 这 种 原子 性 你 证 只 有 pselectO 的 内 核实 现 才能 做 到 。 


程序 清单 63-8: 使 用 pselect() 





sigset t emptyset, blockset; 
struct sigaction sa; 


sigemptyset(&blockset); 
sigaddset(&blockset, SIGUSR1); 


if (sigprocmask(SIG BLOCK, &blockset, NULL) -- -1) 
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errExit("sigprocmask"); 


sa.sa sigaction - handler; 

sigemptyset(&sa.sa mask); 

sa.sa flags - SA RESTART; 

if (sigaction(SIGUSR1, &sa, NULL) == -1) 
errExit("sigaction"); 


sigemptyset(&emptyset); 
ready - pselect(nfds, &readfds, NULL, NULL, NULL, &emptyset); 
if (ready == -1) 

errExit("pselect"); 





ppoll() 和 epoll pwait() & Zt iJ FH 





在 Linux 2.6.16 版 中 还 新 增 了 一 个 非 标准 的 系统 调用 ppoll0， 它 同 poll0 之 间 的 关系 类 似 于 


pselectO 同 select0。 同 样 的 ， 从 2.6.19 版 内 核 开 始 ，Linux 也 新 增 了 epoll pwait0， 这 是 对 epoll wait() 





的 扩展 。 对 于 这 些 狐 增 系 统 调 用 的 细 市 可 以 参见 ppoll(2) 和 epoll. pwaitO 的 用 户 手 册页 。 


63.5.2 self-pipe 1x15 








由 于 pselectO 并 没有 被 广泛 实现 , REALI HERR DURER Bo P BERGE 4 HE 


及 同时 调用 Select 时 出 现 的 综 态 条 件 5 通常 会 用 到 如 下 方法 。 


1. 
2. 
3. 





Gi £& —^ E38, mA 5 i fl AN FERE 

TE RILEKS ERAI CAFRES, E E m 0.5 0E 2X readfds 中 传 给 select()。 

AREN BERE mr RE nio REREDUEE. DXX AAE HT, ES M PEB TIR 

据 到 管道 中 。 关 于 这 个 信号 处 理 例 程 ， 有 以 下 儿 点 需要 注意 。 

一 在 第 二 步 盾 电 经 将 管道 的 写 端 设 为 了 非 阻塞 态 ， 这 是 为 了 防止 出 现 由 于 信号 到 来 的 太 
快 ， 重 复 调 用 信号 处 理 例 程 会 需 满 管道 空间 ， 结 打造 成 信号 处 理 例 程 的 write PEE PH 
故 《〈《 因 而 进程 本 号 也 就 阻塞 了 )。( 对 于 空间 已 满 的 管道 ， 写 操作 失败 并 没有 关系 ， 
为 上 一 次 写 操 作 已 经 表明 了 信号 的 传递 。) 

一 信和 号 椒 理 例 程 是 在 创建 管道 之 后 安装 的 ， 这 是 为 了 防止 在 管道 创建 前 整 发送 了 信号 从 



























































— dri c Ab PEDUREFPAEH] writeze ZAR. 因为 write0 是 异步 信号 安全 函数 之 一 ， 参 见 
e211 

在 循环 中 调用 select0, 这 样 如 果 被 信号 处 理 例 程 中 断 的 话 , selectO 还 可 以 重新 得 到 调用 。( 严 
格 来 说 在 这 种 方式 下 重新 调用 select0 并 不 是 必须 的 。 这 只 是 表示 我 们 可 以 通过 监视 readfds 
来 检查 是 否 有 信号 到 来 ， 而 不 是 通过 检查 返回 的 EINTR 错误 码 。) 

selectO 调 用 成 功 后 ， 我 们 可 以 通过 检查 代表 管道 谈 端 的 文件 描述 符 是 否 衫 置 于 readfds 中 
来 判断 信号 是 否 到 来 。 

当 信 号 到 来 时 ， 读 取 管 道中 的 所 有 字 节 。 由 于 可 能 会 有 多 个 信号 到 来 , 3] Tm 2: —4 8 
FRERE BEES read() GEMEN 3& [B] EAGAN 错误 码 。 将 管道 中 的 数据 全 部 读 取 完 
毕 后 ， 接 下 来 束 执 行 必要 的 操作 以 作为 对 发 运 的 信和 与 的 回应 。 

这 项 技术 通常 被 称 为 是 self-pipe， 程 序 清 单 63-9 中 的 代码 展示 了 这 种 技术 的 用 法 。 

同样 可 以 采用 pollO0 和 epoll_waitO 来 作为 这 种 拉 术 的 变种 。 
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程序 清单 63-9. 采用 self-pipe 技巧 


from altio/self pipe.c 
static int pfd[2]; /* File descriptors for pipe */ 


static void 
handler(int sig) 


i 
int savedErrno; /* In case we change 'errno' */ 
savedErrno - errno; 
if (write(pfd[1], "x", 1) == -1 8& errno !- EAGAIN) 
errExit("write"); 
errno - savedErrno; 
} 
int 
main(int argc, char *argv[]) 
i 


fd set readfds; 

int ready, nfds, flags; 

struct timeval timeout; 

struct timeval *pto; 

struct sigaction sa; 

char ch; 

/* ... Initialize 'timeout', 'readfds', and 'nfds' for select() */ 


if (pipe(pfd) -- -1) 
errExit("pipe"); 


FD SET(pfd[0], &readfds); /* Add read end of pipe to 'readfds' */ 
nfds = max(nfds, pfd[O] + 1); /* And adjust 'nfds' if required */ 


flags = fcntl(pfd[0], F GETFL); 
if (flags -- -1) 
errExit("fcntl-F GETFL"); 
flags |» O NONBLOCK; /* Make read end nonblocking */ 
if (fcntl(pfd[o], F SETFL, flags) == -1) 
errExit("fcntl-F SETFL"); 


flags - fcntl(pfd[1], F GETFL); 
if (flags == -1) 
errExit("fcntl-F GETFL"); 
flags |» O NONBLOCK; /* Make write end nonblocking */ 
if (fcntl(pfd[1], F SETFL, flags) == -1) 
errExit("fcntl-F SETFL"); 


sigemptyset(&sa.sa mask); 
sa.sa flags - SA RESTART; /* Restart interrupted read()s */ 
sa.sa handler - handler; 
if (sigaction(SIGINT, &sa, NULL) == -1) 
errExit("sigaction"); 


while ((ready = select(nfds, &readfds, NULL, NULL, pto)) == -1 88 
errno -- EINTR) 
continue; /* Restart if interrupted by signal */ 
if (ready == -1) /* Unexpected error */ 
errExit(" select"); 


if (FD ISSET(pfd[0], &readfds)) (  /* Handler was called */ 
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printf("A signal was caught Wn"); 


for (55) { /* Consume bytes from pipe */ 
if (xread(pfd[0], &ch, 1) == -1) { 
if (errno -- EAGAIN) 
break; /* No more bytes */ 
else 
errExit("read"); /* Some other error */ 


} 


/* Perform any actions that should be taken in response to signal */ 
j 
} 


/* Examine file descriptor sets returned by select() to see 
which other file descriptors are ready */ 


from altio/self pipe.c 


63.6 ER 


本 章 我 们 探究 了 针对 标准 IO 模型 之 外 的 其 他 几 种 可 选 的 IO 模型 。 它 们 是 : UO 多 路 复 
H CselectOM poll0)、 信 号 驱动 VO 以 及 Linux 专 有 的 epoll API。 上 所 有 这 些 机 制 都 允许 我 们 监 
视 多 个 文件 描述 符 ， 以 查看 哪个 文件 描述 符 上 可 执行 IO 操作 。 需 要 注意 的 是 ， 所 有 这 些 机 制 
并 不 实际 执行 VO 操作 。 相 反 ， 一 旦 发 现 某 个 文件 描述 符 处 于 瓯 绪 态 ， 我 们 仍然 采用 传统 的 
VO 系统 调用 来 完成 实际 的 IO 操作 。 

UO 多 路 复 用 机 制 中 的 select 和 polO 能 够 同时 监视 多 个 文件 摘 述 符 ， 以 查看 哪个 文 
件 描述 符 上 可 执行 VO 操作 。 在 这 两 个 系统 调用 中 ， 我 们 传递 一 个 待 监视 的 文件 描述 符 
列表 给 内 核 ， 之 后 内 核 返 回 一 个 修改 过 的 列表 以 表明 哪些 文件 描述 符 处 于 吏 绪 态 了 。 在 
每 二 次 调用 鞋 都 要 传递 完整 的 文件 撞 述 符 列 表 ， 并 且 在 调用 返回 后 还 要 检 碍 它们 ， 这 个 
事实 表明 当 需 要 监视 大 量 的 文件 描述 符 时 ，select0 和 pollO0 的 性 能 表现 将 变 得 很 差 。 

Hs) VO 允许 一 个 进程 在 文件 描述 符 处 于 VO 就 绪 态 时 接收 到 一 个 信和 号。 要 使 用 信和 号 
驱动 TO， 我 们 必须 为 SIGIO 信号 安装 研 个 信号 处 理 例 程 ， 设 定 接收 信号 的 属 主 进 程 ， 并 在 打 
开 文 件 时 设 定 O_ASYNC 标志 使 得 信号 可 以 生成 。 相 比 VO 多 路 复 用 ， 当 监视 大 量 的 文件 描 
述 符 时 信号 驱动 TO 有 着 显著 的 性 能 优势 。Linux 人 允许 我 们 修改 用 来 通知 的 信号 ， 而 如 果 我 们 
采用 实时 信和 号 的 话 ， 那 么 多 个 信号 通知 就 可 以 排队 处 理 。 信 和 号 处 理 例 程 可 以 使 用 siginfo t 参 
数 来 确定 产生 信和 号 的 文件 摘 述 符 以 及 发 生 事件 的 类 型 。 

同 信 号 驱动 VO 一 样 ， 当 监视 大 量 的 文件 描述 符 时 epoll 也 能 提供 高 效 的 性 能 。epoll (以 
及 信号 驱动 TO) 的 性 能 优势 源 自 内 核能 够 “ 记 住 ” 进程 正在 监视 的 文件 描述 符 列 表 这 一 事实 
(与 之 相反 的 是 ，select0 和 polO 都 必须 反复 告诉 内 核 哪些 文件 描述 符 需 要 监视 )。 相 比 于 信和 号 
驱动 TO，epoll API 还 有 些 值得 一 提 的 优点 : 我 们 可 以 避免 处 理 信号 时 的 复杂 流程 ， 而 且 可 以 
指定 需要 监视 的 VO 事件 类 型 (例如 输入 或 输出 事件 )。 

本 章 中 我 们 在 水 平 触发 通知 和 边缘 触发 通知 之 间 做 了 严格 区 分 。 在 水 平 触 发 通知 模型 下 ， 
只 要 当前 文件 描述 符 上 可 以 进行 VO 操作 ,我 们 就 能 得 到 通知 。 与 之 相反 ， 在 边缘 触 友 通知 模 
型 下 ， 只 有 目 上 一 次 监视 以 来 ， 文 件 描述 符 上 有 发 生 IO 事件 时 才 会 通知 我 们 。LO 多 路 复 用 
采用 的 是 水 平 触 发 通知 模型 ;信号 驱动 IO 基本 上 是 边缘 触发 通知 模型 ， 而 epoll 能 够 以 任意 
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— RI XCLTE GERA TG. FEK FAA) o GL RBIUR XE ACD E AAEE WO 结合 起 来 使 用 
本 章 结尾 部 分 我 们 探讨 了 一 个 经 党 会 遇 到 的 问题 。 那 就 是 如 何在 监视 多 余 文 件 描述 符 的 同时 等 
符 信 号 的 发 送 ? 对 于 这 个 问题 ， 通 党 的 解决 方案 是 采用 一 种 称 为 self-pipe 的 技巧 ， 即 信号 处 理 例 程 
写 一 个 学 有 数据 到 管道 中 ， 代 表 管 道 读 冰 的 文件 描述 符 包 含 在 被 监视 的 文件 描述 符 集 合 中 。SUSv3 
中 定义 了 pselect0， 这 是 selectO0 的 变种 ， 它 提供 了 解决 这 个 问题 的 万 一 种 方法 。 但 是 pselectO 并 没有 
包含 在 所 有 的 UNIX 实现 中 。Linux 也 提供 了 类似 《但 非 标准 ) 的 ppolO 和 epoll. pwaitO 接 口 。 


更 多 信息 
[Stevens et al., 2004] 中 介绍 了 LO 多 路 复 用 以 及 信号 驱动 UO, 尤其 强调 了 这 些 机 制 在 套 接 
字 上 的 使 用 。[Gammeo et al, 2004] 是 一 篇 比较 select()、pollO 和 epoll 之 间 性 能 表现 的 论文 。 
网 络 上 有 一 个 特别 有 趣 的 资源 , 地 址 为 http://www.kegel.com/c10k.html。 这 就 是 由 Dan Kegel 
MEREU CK 问题 ” 在 这 个 页 面 上 作者 探究 了 Web 服务 器 闯 的 开发 者 在 设计 能 够 同时 
处 理 上 万 个 客户 闯 的 系统 时 会 遇 到 的 问题 和 困难 ， 页 面 上 还 包含 了 其 他 相关 信息 的 链接 。 























63.7 练习 


63-1. 修改 程序 清单 63-2 (poll pipes.) 中 的 程序 ， 使 用 poll0 来 取代 selectO. 

63-2. 编写 一 个 echo 服务 器 (IL 60.2 节 和 60.3 节 )， 使 其 能 够 同时 处 理 TCP 和 UDP 客 
户 背 。 要 做 到 这 一 点 ， 服 务 器 靖 必 须 创 建 一 个 TCP 监听 套 接 字 和 一 个 UDP KINE 
接 字 ， 然 后 采用 本 章 中 所 摘 述 的 其 中 一 种 技术 来 同时 监视 这 两 个 依 接 字 。 

63-3. 63.5 和 中 提 到 selectO 不 能 用 来 同时 等 竺 信号 和 文件 摘 述 符 ， 并 提出 采用 信和 号 处 理 
例 程 加 管道 的 方式 来 解决 。 当 一 个 程序 需要 在 文件 摘 述 符 和 System V 的 消 县 队列 
上 上 等待 输入 时 ， 也 会 出 现 相 似 的 问题 〈 因 为 System V 消息 队列 并 不 使 用 文件 摘 述 
和 从)。 一 种 解决 方法 是 使 用 fork0 生 成 一 个 单独 的 子 进程 , 子 进 程 从 队列 中 拷贝 每 条 
消息 到 管道 中 ,并 且 也 将 由 父 进程 所 监视 的 文件 措 述 符 一 并 揽 贝 。 采 用 这 种 方法 编 
写 一 个 程序 ， 通 过 select0 来 监视 终端 和 消息 队列 上 的 输入 。 

63-4. 63.52 节 中 介绍 的 self-pipe 技巧 中 ， 最 后 一 步 表 明 程 序 应 该 首先 将 管道 中 的 所 有 数 
FRE, 之 后 再 执行 信号 处 理 的 操作 。 如 果 这 两 步 题 倒 的 话 会 出 现 什 么 问题 ? 

63-5. 修改 程序 清单 63-9 中 的 程序 Cself pipe.c)， 使 用 poll0 来 取代 select). 

63-6. 编写 一 个 程序 使 用 epoll_create0) 来 创建 一 个 epoll 实例 ， 然 后 立刻 调用 epoll wait() 
在 之 前 返回 的 文件 摘 述 符 上 等 待 。 在 这 种 情况 下 ,传递 给 epoll_waitO 的 兴趣 列表 是 
空 的 ， 此 时 会 出 现 什么 情况 ? 这 人 么 做 有 什么 用 处 ? 

63-7. 假设 我 们 有 一 个 epoll 文件 揪 述 符 ， 它 正在 监视 的 多 个 文件 描述 全 部 都 一 直人 处 于 就 
结 态 。 如 果 我 们 执行 一 系列 的 epoll waitO 调 用 ， 其 中 参数 maxevents EE Ab T 36286 2 
的 文件 描述 符 数 量 小 很 多 (例如 ，maxevents 为 1)。 在 每 次 调用 之 间 ， 我 们 并 不 在 
处 于 就 绪 态 的 文件 描述 符 上 执行 全 部 的 UO 操作 。 此 时 在 每 次 调用 中 epoll wait() 
返回 的 摘 述 符 是 什么 ?” 编 与 一 个 程序 来 确定 答案 。( 基 于 这 个 实验 的 目的 ， 在 
epoll_wait() 调 用 之 间 不 执行 任何 IO RERE T .0 为 什么 这 种 行为 会 很 有 用 ? 

63-8. 修改 程序 清单 63-3 中 的 程序 (demo_sigio.c)， 用 实时 信号 取代 SIGIO。 修 改 信号 处 

理 例 程 , 使 其 接受 一 个 siginfo t 参数 , 并 打印 出 这 个 结构 体 的 si. fd 和 si code 字段 。 
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伪 终 端 是 一 个 虚拟 设备 ， 它 提供 了 一 个 IPC 通道 。 通 道 的 一 端 是 一 个 期 望 连接 到 终端 设 
备 的 程序 。 通 道 的 为 一 端 也 是 一 个 程序 ， 这 个 程序 通过 IPC 通道 来 发 送 其 输入 并 读 取 输出 以 
此 来 驱动 面 问 终端 的 程序 。 

本 章 描 述 了 伪 终 端的 使 用 方法 ， 展 示 了 它们 是 如 何 应 用 到 程序 中 的 ， 比 如 终 站 模拟 右 、 
script(1) 程 序 以 及 像 ssh 这 样 的 提供 网 络 登录 服务 的 程序 。 

















64.1 整体 概览 


图 64-1 展示 了 伪 终 剖 能 够 解决 的 一 个 问题 : 我 们 该 如 何 使 位 于 茶 台 主机 上 的 用 户 通 过 网 络 
连接 操作 位 于 另 一 人 台 主 机 上 的 面 问 终端 的 程序 〈 比 如 vi) We? 


本 地 主机 远 端 主机 


客户 端 程序 面向 终端 的 程序 











M TCP/IP f TCP/IP 
2H 协议 协议 ， 


网 络 
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接 将 面 癌 终端 程序 的 标准 输入 、 输 出 以 及 错误 信息 连接 到 套 接 字 上 。 这 是 因为 面向 终端 程序 
期 望 连接 的 是 一 个 终 问 一 一 以 此 才能 执行 在 第 34 章 和 62 章 中 所 摘 述 的 操作 。 这 样 的 操作 包 
括 将 终端 置 为 非 规 范 模 式 ， 将 回 显 打开 或 关闭， 以 及 设 定 终端 闻 台 进程 组 。 如 果菜 个 程序 党 
试 在 一 个 套 接 字 上 执行 这 些 操 作 ， 那 么 相关 的 系统 调用 束 会 失败 。 

此 外 ， 面 癌 终端 的 程序 期 望 终 端 驱 动 程序 能 对 其 输入 和 输出 做 特定 类 型 的 处 理 。 举 个 例 
子 ， 在 规范 模式 下 ， 当 终端 驱动 程序 在 一 行 的 开始 处 发 现 文件 结尾 符 〈 通 党 是 Ctrl-D) B, 将 
导致 下 一 次 read() 调 用 不 会 返回 任何 数据 。 

最 后 ， 面 向 终端 的 程序 必须 有 一 个 控制 终端 。 这 人 允许 程序 通过 打开 /dewitty 来 获取 一 个 控 
制 终端 的 文件 描述 符 ， 并 且 也 使 得 产生 针对 该 程序 的 作业 控制 和 终端 相关 的 信号 〈 例 如 
SIGTSTP、SIGTTIN 以 及 SIGINT) 成 为 可 能 。 

通过 上 面 的 描述 ， 现 在 应 该 很 清楚 面 问 终 并 程 序 的 定义 了 ， 它 的 郊 围 非常 广泛 ， 涵 盖 了 
大 量 我 们 通常 在 交互 式 终端 会 话 中 运行 的 程序 。 

盆 终 端 主 从 设备 

伪 终 闹 提 供 了 网 络 连 接 到 面 问 终端 程序 之 间 那 鲜 失 的 一 环 。 伪 终 靖 是 一 对 互联 的 虚拟 设 
备 : 主 伪 终 山 和 从 伪 终 站， 有 时 被 共 称 为 伪 终 痕 对 。 伪 终 疹 对 提供 了 一 条 IPC 38H, KAA 
像 双 回 管 道 一 一 两 个 进程 能 分 别 打开 主 端 和 从 端 ， 并 通过 伪 终 冰 双 回 传 输 数 据 。 

关于 伪 终 端 ， 关 键 点 在 于 从 设备 表现 得 吏 像 一 个 标准 终 妆 一 样 。 所 有 可 以 施加 于 终 靖 设 
备 的 操作 同样 也 可 以 施加 于 伪 终 端 从 设备 上 。 这 里 面 有 些 操作 对 于 伪 终 端 来 说 没什么 意义 ( 例 
如 ， 设 定 终端 线 速 或 者 奇偶 校 验 )， 但 这 并 无 大 碍 ， 因 为 伪 终 端 从 设备 会 悄悄 地 忽略 它们 。 


anaE FH [/3 2 um 

图 64-2 展示 了 典型 情况 下 两 个 程序 是 如 何 利 用 伪 终 端的 。( 图 中 的 pty Z& 3 2X 9m I 
^H Hl 53Jb X. 本章 中 我 们 在 许多 图 表 和 函数 名 称 中 大 量 使 用 这 种 缩写 。) 面 癌 终端 程序 
的 标准 输入 、 输 出 以 及 错误 输出 都 连接 到 伪 终 端 从 设备 上 ， 它 也 是 程序 的 控制 终端 。 在 
伪 终 端的 另 一 侧 ， 张 动 程序 作为 用 户 的 代理 ， 提 供 对 面 回 终端 程序 的 输入 并 读 取 程序 的 
输出 。 
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64-2: 两 个 程序 通过 伪 终 端 来 通信 


通常 ， 驱动 程序 同时 读 取 输入 并 将 输出 写 入 到 为 一 个 VO 通道 中 。 它 的 行为 融 如 同一 个 中 
继 ， 在 伪 终 问 务 一 个 程序 间 双 回 传 递 数 据 。 为 了 实现 这 一 点 ， 驱 动 程序 必须 同时 监控 两 个 
Ai] ERU A. O8 Hd VO 多 路 复 用 〈select0 或 pollQo 来 实现 ， 也 可 以 采用 一 对 进程 或 线 
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程 在 两 个 方向 上 做 数据 传输 。 
一 般 情况 下 使 用 伪 终端 的 应 用 程序 会 按照 如 下 步骤 来 做 。 
. 驱动 程序 打开 伪 终 端 主 设备 。 
2. 驱动 程序 调用 fork0 来 创建 一 个 子 进程 。 子 进程 执行 如 下 的 步 又 。 
a) 调用 setsid0 来 启动 一 个 新 的 会 话 ， 使 该 子 进程 成 为 会 话 的 头领 进程 ( 见 34.3 节 )。 访 
操作 也 使 得 子 进 程 失 去 了 它 的 控制 终端 
b) 打开 同 伪 终 端 主 设备 相对 应 的 从 设备 。 由 于 子 进程 是 会 话 的 头领 进程 ， 且 没有 控制 终 
端 ， 伪 终端 从 设备 就 成 为 子 进程 的 控制 终端 了 。 
c) 调用 dup( (或 类 似 的 函数 ) 为 从 设备 复制 标准 输入 、 输 出 以 及 错误 输出 的 文件 描 
述 符 。 
d) 调用 exec0 启 动 要 连接 到 伪 终 端 从 设备 的 面向 终端 程序 。 
此 时 这 两 个 程序 就 可 以 通过 伪 终 端 进行 通信 了 。 任 何 由 驱动 程序 写 到 主 设备 的 消息 ， 都 
会 在 从 设备 这 端 作为 面向 终端 程序 的 输入 ， 任 何 由 面向 终端 的 程序 写 到 从 设备 的 消息 都 可 以 
在 主 设备 端 由 驱动 程序 读 取 。 我 们 将 在 第 64.5 节 进一步 探究 伪 终端 TO 的 细节 。 






































伪 终 咽 也 能 够 用 来 连接 任意 的 进程 对 ( 即 ， 不必 一 定 是 父子 进程 )。 所 有 要 做 的 丈 古 打 
开 伪 次 病 主 设 备 的 进程 需要 将 相关 联 的 从 设备 名 称 通知 给 态 一 个 进程 即 可 ， 可 能 是 将 名 称 
写 到 一 个 文件 上 又 或 者 是 通过 其 他 的 IPC 机 制 来 传递 。( 当 我 们 在 前 和 面 的 例子 中 调用 fork( 
时 ， 子 进程 目 动 从 父 进 程 中 继承 了 足 量 的 信息 以 此 来 狭 知 从 设备 名。) 





到 目前 为 止 ， 我 们 对 使 用 伪 终 端的 讨论 都 比较 抽象 。 图 64-3 展示 了 一 个 具体 的 例子 : 
ssh 使 用 伪 终 端的 方法 。 这 个 程序 允许 用 户 通 过 网 络 安全 地 在 远程 系统 上 运行 登录 会 话 。( 实 
际 上 该 图 结合 了 图 64-1 和 图 64-2 中 的 信息 。) 在 远 端 主机 上 ， 伪 终端 主 设备 的 驱动 程序 是 
ssh 服务 器 《〈sshd)， 连 接 到 伪 终 端 从 设备 的 面 癌 终端 的 程序 是 登录 shell. ssh 服务 器 作为 胶 
水 , 通过 连接 到 ssh 客户 站 的 套 接 字 将 伪 终 站 连接 起 来 。 一 旦 所 有 登录 方面 的 细 贡 全 部 完成 ， 
ssh 服务 占 和 客户 器 的 主要 用 途 残 古 在 本 地 主机 上 的 用 户 终 端 和 远 咽 主机 上 的 shell 之 间 双 问 
传递 字符 。 


















































REFER - 


64-3: ssh 是 如 何 使 用 伪 终 端的 


1132 Linux/UNIX 系统 编程 手册 ( 下 册 ) 
异步 社区 会 员 flyman150(2410757683 (9 qq.com) EF 尊重 版 权 


我 们 忽略 了 很 多 ssh 客户 端 和 服务 器 的 细节 。 比 如 , 这 些 程序 会 双向 加 密 穿 越 网 络 的 数 
据 。 我 们 在 远 端 主机 上 只 展示 了 一 个 单独 的 ssh 服务 器 进程 ， 但 实际 上 ssh 服务 器 是 一 个 并 
发 的 网 络 服 务 。 它 是 一 个 守护 进程 ， 创 建 一 个 被 动 的 TCP 套 接 字 来 监听 从 ssh 客户 端 发 来 
的 连接 。 对 于 每 个 连接 ，ssh 服务 器 主 进程 通过 fork 创建 子 进程 来 处 理 所 有 关于 客户 登录 方 
面 的 细 市 。( 我 们 在 图 64-3 中 将 这 个 子 进程 参照 为 ssh HRS 28.0 除了 上 文 提 到 的 关于 建立 
伪 终 端的 细节 ，ssh 服务 器 子 进程 验证 用 户 ， 在 远 端 机 上 更 新 登录 账户 日 志 《〈 如 第 40 章 所 
述 )， 然 后 执行 登陆 shell。 

















在 某 些 情况 下 ， 可 能 会 有 多 个 进程 连接 到 伪 终 端的 从 设备 端 。 我 们 的 ssh 示例 中 已 经 对 此 
做 了 图 解 。 从 设备 会 话 的 头领 进程 是 shell， 它 创建 进程 组 来 执行 由 远 端 用 户 键入 的 命令 。 所 
有 这 些 进程 都 将 伪 终 端 从 设备 作为 它们 的 控制 终端 。 同 第 规 的 终端 一 样 ， 这 些 进程 组 之 一 可 
以 作为 伪 终 问 从 设备 的 前 台 进 程 组 ， 旦 只 有 这 个 进程 组 可 以 通过 从 新 读 取 和 写 入 (如 果 比 特 
位 TOSTOP 已 经 设 定 )。 


15 2 im B] Ir FH 

除了 网 络 服务 外 ， 伪 终端 也 在 许多 其 他 应 用 中 得 到 了 利用 。 下 面包 侣 了 一 些 例子 。 

。 expect (1) 程序 使 用 伪 终 剖 来 允许 交互 式 面向 终端 程序 可 以 从 脚本 文件 中 驱动 。 

。 FAN xterm 这 样 的 终 剖 模拟 絮 利 用 伪 终 问 来 所 供 市 有 终端 窗口 的 终端 相关 功能 。 

。 screen (1) 程序 使 用 伪 终 闹 在 单个 物理 终 汕 (或 终 闹 窗口 ) 同 多 个 进程 (例如 多 个 shell 
会 话 ) 间 实 现 多 路 复 用 。 

e script (1). 程序 使 用 到 了 伪 终 端 ， 用 来 记录 在 shell 会 话 中 的 所 有 输入 和 输出 。 

e 当 问 文件 或 党 道 与 输出 时 ， 有 时 候 可 以 用 伪 终 冰 来 纸 过 由 stdio 实现 的 默认 块 缓冲 机 
制 ， 与 乙 相 对 的 是 终 站 输出 是 行 缓冲 。( 我 们 将 在 练习 64-7 中 进一步 探讨 。) 
































System V (UNIX 98) 和 BSD 伪 终 端 


BSD 和 System V ETE Y A HAI O RER URL T TED 2 A BJ VALE; BSD HS) 2 9r SE 
在 历史 上 和 是 有 名 的 ,因为 它 用 在 了 许多 基于 和 套 接 字 的 网 络 应 用 中 。 基 于 兼容 性 的 原因 ,许多 UNIX 
实现 最 终 痢 同时 文 持 两 种 伪 终 站 形式 。 

System V 的 接口 在 条 种 程度 上 比 BSD 接口 要 更 易于 使 用 ，SUSv3 Uu m TRUE T 
System V 接口 的 。( 关 于 伪 终 器 的 规范 目次 出 现 是 在 SUSv1 中 。) 由 于 历史 原因 ， 在 Linux 系 
统 上 这 种 类 型 的 伪 终 闹 通 归 指 的 是 UNIX 98 Aim, E UNIX 98 PRE (RU SUSv2 ) SUE 
m Vi EE T VT], 但 Linux 对 伪 终 端的 实现 并 不 古 如 此 。(SUSv3 并 不 要 来 伪 终 病 是 基于 
流 却 的 实现 。) 

Linux 的 早期 版 本 上 只 文 持 BSD 风格 的 伪 终 器, fH. ELA 2.2 版 内 核 之 后 ，Linux 已 经 同时 文 持 
两 种 伪 终 端 了 。 本 章 我 们 集中 于 对 UNIX 98 伪 终 器 的 讨论 。 我 们 将 在 64.8 rp] BSD 伪 
£m HJ Z5 T o 






































64.2 UNIX 98 f/jZ& im 


我 们 将 一 点 一 点 地 实现 ptyForkO 这 个 函数 ， 该 函数 完成 了 大 部 分 图 64-2. 中 所 展示 的 创建 
伪 终 问 连 接 的 任务 。 之 后 我 们 将 利用 这 个 函数 来 实现 script(1) 程 序 。 在 这 之 前 ， 我 们 来 看 看 
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UNIX 98 fim t FH e 7 FE ER ZR - 
e posix openptOFR233T7TF — T ASTE B mE Ud , 返回 稍 后 会 用 到 的 代表 该 设备 的 
文件 描述 符 。 
。 grantptO 函 数 修改 对 应 于 伪 终 疹 主 设备 的 从 设备 属 主 和 权限 。 
。 unlockptO 函 数 解锁 对 应 于 伪 终 闹 主 设备 的 从 设备 ， 这 样 束 能 打开 从 设备 了 。 
。 ptsnameO 函 效 返 加 对 应 于 伪 终 中 主 设 备 的 从 设备 名 称 。 之 后 从 设备 殉 可 以 通过 open) 
KIA Se 


64.2.1 打开 未 使 用 的 主 设备 : posix openpt() 
posix_openptO 函 数 找到 并 打开 一 个 未 使 用 的 伪 终 端 主 设备 ， 再 返回 稍 后 会 用 到 的 代表 该 
设备 的 文件 摘 述 符 。 




















#define XOPEN SOURCE 600 
#include <stdlib.h> 
#include «fcntl.h» 

int posix openpt(int flags); 


Returns file descriptor on success, or -1 on error 











参数 flags rH 0 或 以 下 多 个 常量 组 成 。 


O_RDWR 
同时 以 可 读 和 可 写 方 式 打开 设备 。 一 般 情 况 下 我 们 总 古 在 flags 中 包含 这 个 常量 。 











O NOCTTY 

使 该 终端 不 要 成 为 进程 的 控制 终端 。 在 Linux E, 无 论调 用 posix_openpt0 时 O_NOCTTY 
是 否 补 指定， 伪 终 端 主 设备 部 不 会 成 为 进程 的 控制 终端 。( 这 合乎 道理 ， 因 为 伪 终 端 主 设 
备 并 不 是 一 个 真正 的 终 兽 ， 它 只 是 终 闹 妨 一 侧 从 设备 的 连接 端 。) 但 是 ,在 和泉 些 伪 终 问 实 
现 中 ， 如 来 我 们 希望 在 打开 伪 终 端 主 设备 时 避免 进 程 获 得 控制 终 兽 ， 则 需要 将 该 第 量 
加 上 。 

Ii] open() 一 样 ，posix_openptO 使 用 最 小 的 可 用 文件 插 述 人 符 来 打开 伪 终 闹 主 设备 。 

调用 posix_openptO 也 会 在 /dev/pts 文件 夹 中 创建 对 应 的 伪 终 痹 从 设备 文件 。 当 我 们 稍 后 介 
绍 ptsname() 时 再 来 进一步 讨论 这 个 文件 。 

posix_openptO 是 在 SUSv3 中 新 增 的 函数 ， 由 POSIX 委员 会 引入 。 在 最 初 的 System V fh 
终 痕 实现 中 ， 获 取 可 用 的 伪 终 病 主 设备 是 通过 打开 伪 终 靖 主 死 际 设备 /devptmx 来 实现 的 。 打 
开 这 个 虚拟 设备 将 目 动 搜寻 并 打开 下 一 个 未 使 用 的 伪 终 闯 主 设备 ， 将 对 应 的 文件 描述 符 返 回 。 
Linux 上 也 提供 有 这 个 设备 ，posix_openptO 投 照 以 下 方式 来 实现 。 

int 

posix openpt(int flags) 

{ 























return open("/dev/ptmx", flags); 
} 


UNIX 98 ff im; SA =Œ B PR h 
因为 每 一 对 使 用 中 的 伪 终 端 都 会 占用 一 小 段 不 能 被 交换 的 内 核 内 存 空间 ， 因 此 内 核对 系 
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统 中 UNIX 98 伪 终 中 的 数量 有 一 个 限制 。 到 2.6.3. 版 内 核 之 前 ， 这 个 限制 由 内 核 配置 选项 
(CONFIG UNIX98 PTYSO 控制 。 默 认 值 为 236， 但 我 们 可 以 把 这 个 限制 修改 为 0 到 2048 之 
间 的 任意 值 。 

到 Linux 2.6.4 版 之 后 ， 内 核 选项 CONFIG_UNIX98_PTYS 被 废弃 以 文 持 更 为 灵活 的 方法 。 
相反 ， 对 伪 终 站 数量 的 限制 定义 在 特定 于 Linux 的 /proc/sys/kernel/pty/max 文件 中 。 访 文件 的 
默认 值 为 4096， 可 以 设 定 为 最 大 1048576 的 任何 值 。 还 有 一 个 相关 的 只 读 文 件 /proc/sys/kernel/ 
pty/nr， 这 个 文件 记录 当前 系统 中 有 多 少 UNIX 98 伪 终 站 正在 使 用 中 。 


64.2.2 ”修改 从 设备 属 主 和 权限 : grantpt() 


SUSv3 规定 grantptO 可 以 用 来 修改 由 文件 描述 符 mfd 所 代表 的 伪 终 中 主 设备 相关 联 的 从 
设备 的 属 主 和 权限 。 在 Linux E, WH grantptO 并 个 是 必需 的 。 但 是 在 东 蔡 实现 中 需要 用 到 


v 


grantpt()， 可 移植 性 民 好 的 程序 应 该 在 posix_openptO 之 后 调用 grantpt()。 



































#define XOPEN SOURCE 500 
#include «stdlib.h» 


int grantpt(int mfd); 


Returns 0 on success, or - 1 on error 














在 需要 grantpt() 的 系统 中 ， 该 函数 创建 一 个 子 进程 来 执行 设 定 用 户 ID 为 root 的 程序 。 这 
个 程序 通常 称 为 pt_chown， 在 伪 终 端 从 设备 上 执行 下 列 操作 。 

e 将 从 设备 的 属 主 修改 为 与 调用 进程 相同 的 有 效用 户 D. 

。 将 从 设备 的 组 修改 为 tty. 

e 修改 从 设备 的 权限 ， 使 拥有 者 有 读 和 写 权 限 ， 组 拥有 写 权 限 。 

修改 终端 组 为 tty 并 设 定 组 的 写 权 限 是 因为 wall (1) 和 write (1) 是 设 定 组 ID 程序 ， 归 
属于 tty 组 。 

在 Linux E, 伪 终 闹 从 设备 目 动 按照 以 上 方式 配置 , 这 束 是 为 什么 不 需要 调用 grantptO H Ji 
(出 于 可 移植 性 考虑 ， 仍 然 应 该 调用 )。 


因为 可 能 会 创建 子 进程 的 缘故 ，SUSv3 中 说 如 果 调 用 程序 为 SIGCHLD fi Z2 T Ab 
理 例 程 ， 则 grantptO 的 行为 是 未 定义 的 。 




















64.2.3 解锁 从 设备 : unlockpt() 

函数 unlockptO 移 除 从 设备 的 内 部 锁 ， 该 从 设备 同文 件 摘 述 符 mfd 所 代表 的 伪 终 问 主 设备 
相关 联 。 这 个 锁 机 制 的 目的 是 允许 调用 进程 在 其 他 进程 能 够 打开 这 个 伪 终 问 从 设备 之 前 执行 
必要 的 初始 化 工作 (比如 调用 grantptO )。 


#define XOPEN SOURCE 500 
#include «stdlib.h» 





int unlockpt(int mfd); 


Returns 0 on success, or -1 on error 


在 调用 unlockptO Z nij RAN JF DIS 8 P Utt S SUA ERIAN EIO. 
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64.2.4 获取 从 设备 名 称 : ptsname() 


PKZ ptsnameO 返 回 伪 终 病 从 设备 的 名 称 ， 该 从 设备 同文 件 描述 符 mfd PTT VEIT] AA mE Vc 
备 相 关联 。 





#define XOPEN SOURCE 500 
#include «stdlib.h» 


char *ptsname(int mfd); 


Returns pointer to (possibly statically allocated) string on success, 
Or NULL on error 








fr Linux 〈 以 及 大 多 数 实 现 中 ) E, ptsnameQ3k [9lJÉ Zg/dev/pts/nn. 的 字符 串 ， 这 里 的 nn 
FH DAI 2 9 AC E683. RITE M e V DEUS 

R [REIR] A c 6e A PI er FIR] EP A E Ie fe A NGHU. AEE ptsname() 的 调用 将 
48 xi BU VALER £s AR e 











GNU C RAEE F—^ n] x AJ ptsname() ptsname r(mfd, strbuf, buflen), 1H 
是 , 这 个 函数 不 是 标准 函数 , 只 在 儿 种 其 他 UNIX 实现 中 才 存在 。 必须 定义 GNU SOURCE 
测试 宏 才 能 从 <stdlib.h> 中 得 到 可 重 入 版 的 声明 。 








一 旦 通过 unlockptO 解 锁 了 从 设备 ， 我 们 束 可 以 用 传统 的 系统 调用 open KH E 





在 采用 了 STREAMS 机 制 的 System V 衍生 系统 上 , 可 能 还 需要 执行 一 些 额外 的 步骤 (将 
STREAMS 模块 加 载 到 从 设备 上 ， 之 后 再 打开 )。 关 于 如 何 执行 这 些 步 又 ， 可 以 参考 [Stevens 
& Rago, 2005] 中 的 例子 。 


64.3 打开 主 设 备 : ptyMasterOpen() 


我 们 现在 来 实现 函数 ptyMasterOpenO. 124R ZUE FH Bu ra JL "P AT ERE RR] PE ICE T 7T D 2 
in E Ve AE AA BUM PLA oe RS RATEI — A ERIT JE DSL VALZ Tf o 
e 大 多 数 程序 都 以 几乎 相同 的 方式 来 执行 这 些 步骤 ， 因 此 将 它们 封装 为 一 个 单独 的 函数 
更 加 方便 。 
e 我 们 实现 的 ptyMasterOpenO PR Zi Eye J DEP REXE T. UNIX 98 规范 的 细节 。 在 64.8 市 
中 我 们 将 采用 BSD 风格 的 伪 终 端 重新 实现 这 个 图 数 。 本 章 余 下 的 部 分 提供 的 代码 能 
够 工作 于 任意 一 种 伪 终 端 实现 中 。 




















#include "pty master open.h" 


int ptyMasterOpen(char *s/aveName, size t snLen); 


Returns file descriptor on success, or -1 on error 











PEZ. ptyMasterOpenO 打 开 一 个 未 使 用 的 伪 终 端 主 设备 ， 调 用 grantptO 并 通过 unlockptO 对 其 
解锁 ， 然 后 将 对 应 的 伪 终 靖 从 设备 名 揽 贝 到 slaveName 所 指 问 的 绥 冲 区 中 。 调 用 者 必须 通过 参 
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数 snLen 指定 缓冲 区 的 空间 大 小 。 我 们 在 程序 清单 64-1 中 给 出 了 这 个 函数 的 实现 。 





省 略 参数 slaveName 和 snLen 也 是 同样 可 行 的 ， 我 们 可 以 让 ptyMasterOpen() 的 调用 者 
直接 调用 ptsname(0 来 获取 伪 终 端 从 设备 名 称 。 但 是 ， 我 们 这 里 使 用 slaveName 和 snLen 参 
数 是 因为 BSD 风格 的 伪 终 靖 实 现 并 没有 提供 和 ptsname() 功 能 相同 的 函数 ， 而 我 们 为 BSD 
风格 的 伪 终 端 实现 的 功能 相同 的 函数 《程序 清 单 64-4) H I BSD 中 用 来 获取 从 设备 名 称 
的 技术 。 


程序 清单 64-1: ptyMasterOpen() 的 实现 


pty/pty master open.c 
define XOPEN SOURCE 600 
#include «stdlib.h» 
include «fcntl.h» 
#include "pty master open.h" /* Declares ptyMasterOpen() */ 
include "tlpi hdr.h" 


int 
ptyMasterOpen(char *slaveName, size t snLen) 


int masterFd, savedErrno; 
char *p; 


masterFd - posix openpt(O RDWR | O NOCTTY); /* Open pty master */ 
if (masterFd -- -1) 
return -1; 


if (grantpt(masterFd) == -1) { /* Grant access to slave pty */ 
savedErrno - errno; 
close(masterFd); /* Might change 'errno' */ 
errno - savedErrno; 
return -1; 


i 


if (unlockpt(masterFd) == -1) { /* Unlock slave pty */ 
savedErrno - errno; 
close(masterFd); /* Might change 'errno' */ 
errno - savedErrno; 
return -1; 


j 


p = ptsname(masterFd); /* Get slave pty name */ 
if (p -- NULL) ( 
savedErrno - errno; 


close(masterFd); /* Might change 'errno' */ 
errno - savedErrno; 
return -1; 


i 


if (strlen(p) < snLen) { 
strncpy(slaveName, p, snLen); 


} else { /* Return an error if buffer too small */ 
close(masterFd); 
errno - EOVERFLOW; 
return -1; 

} 
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j 


return masterFd; 


pty/pty master open.c 


64.4 ”将 进程 连接 到 伪 终 新 ptyFork() 


如 图 64-2 所 示 ， 现 在 我 们 准备 通过 伪 终 只 来 实现 一 个 函数 ， 完 成 所 有 在 两 个 进程 间 建 立 
连接 的 任务 。 函 数 ptyForkO 创 建 一 个 子 进 程 ， 通 过 伪 终 站 对 连接 到 父 进程 上 。 


1138 











#include “pty fork.h" 
pid t ptyFork(int *masterFd, char *slaveName, size t snLen, 
const struct termios *slavelermios, const struct winsize *slave WS); 


In parent: returns process ID of child on success, or -1 on error; 
in successfully created child: always returns 0 





ptyFork() 的 实现 见 程 序 清单 64-2。 该 函数 执行 如 下 的 步骤 。 


通过 调用 ptyMasterOpen() 〈 见 程序 清单 64-10. GO 打开 伪 终 端 主 设备 。 

WREX slaveName 不 为 NULL， 找 贝 伪 终 端 从 设备 名 到 这 个 绥 冲 区 中 忆 。【〔 如 果 

slaveName 不 为 NULL， 那 么 它 必 须 指 网 一段 长 度 全 少 为 snLen 字 市 的 缓冲 区 。) 如 

合适 的 话 ， 调 用 者 可 以 用 这 个 名 字 来 更 新 登录 账户 文件 〈 见 第 40 章 ) 。 更 新 登录 
账户 文件 对 于 那些 提供 登录 服务 的 应 用 来 说 会 很 合适 一 一 比如 ssh. rlogin 以 及 telnet. 

另 一 方面 ， 像 script(1) 这 样 的 程序 ( 见 64.6 T) 不 会 更 新 登录 账户 文件 ， 因 为 它们 并 

不 提供 登录 服务 。 

调用 fork0 来 创建 一 个 子 进程 人 3)。 

父 进程 在 完成 forkO 调 用 之 后 所 做 的 殉 是 确保 将 伪 终 端 主 设备 的 文件 描述 符 通 过 指 回 

整 型 变量 的 指针 masterFd 约 返回 给 调用 者 。 

forkO 调 用 之 后 ， 子 进程 执行 如 下 的 步骤 。 

一 调用 setsid0 创 建 一 个 新 会 话 〈 见 34.3 节 ) 全 。 子 进程 是 这 个 新 会 话 的 头领 进程 ， 
FREH EA ORAE) o 

一 XB 2S 9m 3: Vet RI UFER, DN T XEREH DEAF EE IO. 

一 TIAE S3 P CO rH T 4E E—2b PT ERR X Y Tile, 1X — 24 SUN 
终 闹 从 设备 成 为 子 进程 的 控制 终端 。 

一 如 果 定 义 了 TIOCSCTTY 宏 ， 在 伪 终 闹 从 设备 的 文件 插 述 从 上 执行 一 次 TIOCSCTTY 
ioctl() 操 作 (8)。 这 段 代 人 码 使 我 们 的 ptyFrokO 〇 函数 能 工作 在 BSD FEE, KERA E 
式 地 执行 TIOCSCTTY 操作 才能 获取 控制 终 问 ( 见 34.4 1) 。 

一 如 果 参 数 slaveTermios 不 为 NULL, 调用 tcsetattr0 来 设 定 从 设备 的 终端 属性 , 设 定 
的 什 从 该 参数 指 同 的 termios 结构 体 中 获取 (。 使 用 这 个 参数 对 菜 些 特定 的 交互 式 
程序 (例如 script(1)) 来 说 很 方便 ， 这些 程序 使 用 伪 终 端 并 需要 将 从 设备 的 属性 值 
设 定 为 同 程序 运行 的 终端 一 样 。 

一 如 末 参 数 slaveWS 不 为 军 ， 执 行 一 次 TIOCSWINSZ ioct0 操 作 来 设 定 伪 终 靖 从 设备 的 
口 大 小 , 设 定 的 值 从 该 参数 指 同 的 winsize 结构 体 中 获取 0。 执行 该 步 又 的 理由 同上 。 

一 调用 dup20 复 制 从 设备 文件 描述 符 ， 使 其 成 为 子 进程 的 标准 输入 、 和 输出 以 及 标准 
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错误 输出 。 此 时 ， 子 进程 就 可 以 加 载 执行 任意 的 程序 了 。 被 执行 的 程序 可 以 使 用 
标准 的 文件 描述 符 来 同 伪 终 痛 通 信 。 补 执行 的 程序 可 以 执行 所 有 面 问 终 问 的 种 规 
操作 ， 这 些 操作 都 可 以 在 运行 于 常规 终 闻 下 的 程序 中 执行 。 
[E] fork() 一 样 ，ptyForkO 在 父 进 程 中 返回 子 进 程 的 ID, EFE 0， 如 果 失 败 则 返 
加 -1 。 
最 终 ， 由 ptyForkO 创 建 的 子 进程 会 终止 。 如 宁 父 进程 没有 在 同一 时 刻 终 止 的 话 ， 那 么 融 
必须 等 待 子 进 程 退 出 以 避免 出 现 僵尸 进程 。 但 是 这 一 步 通常 可 以 省 略 ， 因 为 床 用 伪 终 端的 应 
用 程序 通常 部会 设计 成 父子 进程 同时 终止 退出 。 


由 BSD 衍生 而 来 的 系统 提供 了 两 个 相关 的 非 标 准 函 数 来 同 伪 终 问 打交道 。 第 一 个 是 
openpty()， 它 打开 一 个 伪 终 闹 对 ， 返 回 主 设备 和 从 设备 的 文件 描述 生 ， 以 可 选 的 方式 返回 
从 设备 名 称 。 同 样 ， 也 能 够 以 可 选 的 方式 通过 类 似 于 slaveTermios 和 slaveWS 参数 设 定 终 
站 的 属性 和 窗口 大 小 。 夯 一 个 函数 是 forkpty0， 除 了 并 没有 提供 关 似 于 snLen 参数 外 ， 和 我 
们 这 里 实现 的 ptyFork0 一 样 。 在 Linux 上 ， 这 两 个 函数 都 由 glibc 提供 ， 都 在 openpty(3) 手 
册页 中 做 了 文档 说 明 。 











程序 清单 64-2:， 实现 ptyFork() 


pty/pty fork.c 
include «fcntl.h» 
include «termios.h» 
include «sys/ioctl.h» 
include "pty master open.h" 
#include "pty fork.h" /* Declares ptyFork() */ 
include "tlpi hdr.h" 


#define MAX SNAME 1000 


pid t 
ptyFork(int *masterFd, char *slaveName, size 七 SnLen， 

const struct termios *slaveTermios, const struct winsize *slaveWS) 
{ 


int mfd, slaveFd, savedErrno; 
pid t childPid; 
char slname[MAX SNAME |; 
(D mfd - ptyMasterOpen(slname, MAX SNAME); 
if (mfd -- -1) 
return -1; 


D if (slaveName !- NULL) { /* Return slave name to caller */ 
if (strlen(slname) < snLen) { 
strncpy(slaveName, slname, snLen); 


} else { /* 'slaveName' was too small */ 
close(mfd); 
errno - EOVERFLOW; 
return -1; 

} 


} 


© childPid = fork(); 
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if (childPid == -1) ( /* fork() failed */ 


savedErrno - errno; /* close() might change 'errno' */ 
close(mfd); /* Don't leak file descriptors */ 
errno - savedErrno; 
return -1; 

j 

D if (childPid != 0) { /* Parent */ 

*masterFd = mfd; /* Only parent gets master fd */ 
return childPid; /* Like parent of fork() */ 

j 


/* Child falls through to here */ 


(5) if (setsid() == -1) /* Start a new session */ 
err exit("ptyFork:setsid"); 


© close(mfd); /* Not needed in child */ 


D slaveFd = open(slname, O RDWR); /* Becomes controlling tty */ 
if (slaveFd -- -1) 
err exit("ptyFork:open-slave"); 


(8 #ifdef TIOCSCTTY /* Acquire controlling tty on BSD */ 
if (ioctl(slaveFd, TIOCSCTTY, 0) -- -1) 
err exit("ptyFork:ioctl-TIOCSCTTY"); 


ftendif 
(9) if (slaveTermios !- NULL) /* Set slave tty attributes */ 
if (tcsetattr(slaveFd, TCSANOW, slaveTermios) -- -1) 
err exit("ptyFork:tcsetattr"); 
GO if (slaveWS !- NULL) /* Set slave tty window size */ 


if (ioctl(slaveFd, TIOCSWINSZ, slaveWS) -- -1) 
err exit("ptyFork:ioctl-TIOCSWINSZ"); 


/* Duplicate pty slave to be child's stdin, stdout, and stderr */ 


中 if (dup2(slaveFd, STDIN FILENO) !- STDIN FILENO) 
err exit("ptyFork:dup2-STDIN FILENO"); 
if (dup2(slaveFd, STDOUT FILENO) !- STDOUT FILENO) 
err exit("ptyFork:dup2-STDOUT FILENO"); 
if (dup2(slaveFd, STDERR FILENO) !- STDERR FILENO) 
err exit("ptyFork:dup2-STDERR FILENO"); 


if (slaveFd » STDERR FILENO) /* Safety check */ 
close(slaveFd); /* No longer need this fd */ 
return 0; /* Like child of fork() */ 


pty/pty fork.c 


64.5 [Wm MO 


—Ó8] pA 2 3g [i] — 1 XU IRV ET XAR HIE» FE TREES A SUA 2 3 Ut E] CS FII E PA c 6 VE 
为 输入 出 现 ， 而 任何 写 入 到 从 设备 端的 数据 也 会 在 主 设备 痢 作 为 输入 出 现 。 
伪 终 病 对 同 双 问 宣 过 之 间 的 区 列 在 于 伪 终 咽 的 从 设备 咒 表 现 得 束 像 一 个 终 蜗 设备 一 样 。 
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JY t e P AER AN ES] 73. NARI — ^] 6288 DE 8 rh £m TAURI See D ALANI Jg 3X — FE. Eb, WRR 
们 写 入 一 个 Ctrl-C FE OBGETGEIBHENDO 到 伪 终 端 主 设备 上 ， 则 从 设备 端 将 为 其 前 台 进 
程 组 产生 一 个 SIGINT 信号 。 如 同一 个 第 规 的 终端 一 样 ， 当 伪 终 并 从 设备 工作 于 规范 模式 下 时 
默认 情况 ) ， 输 入 是 按 行 来 缓冲 的 。 换 句 话 说 ， 只 有 妆 我 们 问 伪 终端 主 设备 与 入 一 个 换行 付 
时 ， 回 从 设备 疾 读 取 和 输入 的 程序 才 会 看 到 一 行 输入 。 

同 管道 一 样 ， 伪 终端 的 缓冲 能 力也 是 有 限 的 。 如 果 我 们 将 极限 耗 尽 ， 那 么 未 来 的 写 操 作 
部 会 阻塞 ， 直 到 伪 终 问 另 一 端的 进程 读 取 了 一 些 字 节 后 才能 再 次 写 入 。 




















在 Linux 上 ， 伪 终端 的 双 回 缓冲 能 力 大 约 为 4kB。 


如 果 我 们 关闭 所 有 代表 伪 终 问 主 设备 的 文件 描述 符 ， 那 么 : 
e 如 果 从 设备 有 一 个 控制 进程 ， 会 发 送 SIGHUP 信号 到 那个 进程 ( 见 34.6 节 ) ; 
e [n] A e UT) read0 将 返回 文件 结尾 EOF (0) ; 
e 写 入 到 从 设备 端的 write() 操 作 会 失败 ， 错 误 码 为 EIJO。【〔 在 其 他 一 些 UNIX 实现 中 ， 
这 种 情况 下 writeO 失 败 的 错误 人 码 为 ENXIO。) 
如 果 我 们 关闭 所 有 代表 伪 终 端 从 设备 的 文件 描述 符 ， 那 么 : 
e 和 问 主 设备 端 读 取 的 read0 操 作 会 失败 ， 错 误 码 为 BIO 在 其 他 一 些 UNIX 实现 中 ， 此 
时 read0 会 返回 文件 结尾 EOF) ; 
e 写 入 到 主 设备 端的 write() 操 作 会 成 功 , 除非 从 设备 的 输入 队列 已 满 , 这 种 情况 下 write() 
会 咀 寨 。 如 果 随 后 重新 打开 从 设备 ， 这 些 写 入 的 字 节 都 可 以 被 读 取 。 
对 于 最 后 一 种 情况 ， 不 同 的 UNIX 实现 之 间 差 异 很 大 。 在 某 些 UNIX 实现 中 ，writeO) 会 
和 失败， 伴随 的 错误 但 为 EIO。 在 其 他 一 些 实现 中 write() 却 会 成 功 , 但 是 输出 的 学 节 会 被 丢弃 
( 即 ， 如 果 重 新 打开 从 设备 端的 话 这 些 字 节 也 不 能 被 读 取 ) 。 一 般 来 说 ， 这 些 不 同 之 处 并 不 
会 产生 什么 问题 。 通 党 情况 下 ， 位 于 主 设 备 端的 进程 通过 read0 是 否 返回 文件 结尾 或 者 失败 
来 检测 从 设备 端 是 否 已 经 关闭 。 此 时 ， 进 程 将 不 再 对 主 设备 做 进一步 的 写 操作 。 




















信和 包 模 式 

信和 包 模 式 是 当 伪 终端 从 设备 上 与 软 流 控 相 关 的 事件 发 生 时 ， 自 动 通知 给 运行 在 伪 终 端 主 
设备 上 进程 的 机 制 。 这 些 事 件 包括 : 

e 刷新 输入 或 输出 队列 ; 

e 停止 或 开启 终端 输出 (Ctrl-S/Ctrl-Q); 

e 开启 或 关闭 流 控 。 

信和 包 模 式 能 帮助 处 理 提 供 网 络 登录 服务 的 伪 终 问 应 用 (例如 Telnet 4I rlogin) 。 

信和 包 模 式 可 以 通过 对 代表 伪 终 病 主 设备 的 文件 摘 述 符 上 执行 TIOCPKT ioctl0 来 开局 。 


int arg; 





arg - 1; /* 1 -- enable; 0 -- disable */ 
if (ioctl(mfd, TIOCPKT, &arg) == -1) 
errExit("ioctl"); 

ZA TAARN. MAA mE UL IUE AR RIT RESJERRTEBAS AE 
EER, Xo Ate EAE BUE. SAJRIBIETECOB. KIRE E 5 NIME Ee m H 
^N EYES. 

"ATLTET f OVES EAS RENE, select) tin E Ux $e m Eam oU OA 
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参数 exceptfds) ， 而 poll0 会 在 revents 域 中 返回 POLLPRI。 CselectO 8l pollO 的 说 明 请 参见 第 
63 4, ) 

信和 包 模 式 在 SUSv3 规范 中 并 不 是 标准 模式 ， 其 中 的 细节 在 不 同 的 UNIX 实现 中 有 所 区 别 。 
更 多 关于 Linx 下 的 信和 包 模 式 , 包括 用 来 通知 状态 改变 的 比特 掩 人 码 值 ， 可 以 在 tty_ioctl(4) 的 手册 
页 中 找到 。 





64.6 ”实现 script(1) 程 序 


现在 我 们 准备 来 实现 一 个 简化 版 的 标准 script(1) 程 序 。 该 程序 开启 一 个 新 的 shell 会 话 ， 
从 该 会 话 中 记录 所 有 的 输入 和 输出 到 文件 中 。 本 书 中 展示 的 大 部 分 shell 会 话 都 是 用 script 程 
序 来 记录 的 。 

芷 普通 的 登录 会 话 中 ，shell 是 直接 连接 到 用 户 的 终端 上 的 。 当 我 们 运行 script 程序 时 ， 它 
将 自己 置 于 用 户 的 终端 和 shell 之 间 ， 然 后 使 用 一 对 伪 终 端 在 自己 和 shell 之 间 创 建 通 信 信 道 
( 见 图 64-4) 。shell 连接 到 伪 终 端 从 设备 上 。script 进程 连接 到 伪 终 端 主 设备 端 。script 进程 对 用 
户 表现 为 一 个 代理 ， 接 收 键入 到 终端 的 输入 然后 写 到 伪 终 端 主 设备 上 ， 从 伪 终 端 主 设备 读 取 


和 输出， 再 号 入 到 用 户 的 终 站 上 。 
typescript 
(脚本 文件 ) 


















































用 户 空 间 


内 核 空 间 


如 果 启 用 了 回 显 ， 则 从 设备 的 
输入 会 拷贝 到 终端 输出 队列 






64-4: script 程序 

此 外 ，script 程序 会 生成 一 个 输出 文件 (默认 名 为 typeseripD ， 访 文件 包含 所 有 输出 到 伪 
终 痕 主 设备 的 字 节 。 这 样 就 达到 了 不 仅 记 录 了 由 shell 会 话 产生 的 输出 ， 而 且 还 包含 了 用 户 提 
供 的 输入 的 效 末 。 输 入 也 被 记录 了 ， 这 是 因为 同音 规 的 终 哨 设备 一 样 ， 内 核 通过 将 输入 找 贝 
到 终端 输出 队列 来 回 显 输入 字符 ( 见 图 64-1) 。 但 是 ， 当 关闭 终端 回 显 功能 后 ， 比 如 读 取 密 码 
的 程序 ， 伪 终 疹 从 设备 的 输入 就 不 会 揽 贝 到 从 设备 输出 队列 中 ， 因 而 也 就 不 会 找 贝 到 script FE 
序 的 输出 文件 中 。 

我 们 实现 的 script 程序 请 参见 程序 清单 64-3。 该 程序 执行 以 下 步骤 。 

。 获取 程序 运行 下 的 终端 属性 和 窗口 大 小 中 。 这 些 数 据 将 传递 给 接 下 来 的 ptyFrokO 函 
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7, AR RAE HC ES E A D 2 S P, Vct e EOS INELIT JS ETE. e 

。 调用 我 们 的 ptyForkO 函 数 〈 见 程序 清单 64-2) 来 创建 子 进程 ， 通 过 伪 终 端 对 连接 到 父 
进程 十。 

e ptyFork() 调 用 之 后 ， 子 进程 执行 一 个 shell). KF shell 的 选择 是 由 SHELL 环境 变量 
KERO., WR SHELL 环境 变量 没有 设 定 或 其 值 是 空 字 符 串 ， 那 么 子 进 程 将 执行 
/bin/sh 。 

。 ptyForkO 调 用 之 后 ， 父 进程 执行 如 下 的 步骤 。 

一 打开 script 输出 文件 如 果 提 供 有 命令 行 参 数 , 使 用 命令 行 参数 作为 输出 文件 名 ， 
否则 使 用 默认 的 typescript 作为 文件 名 。 

一 将 终端 设 为 原始 模式 《通过 ttySetRaw0 〇 函数 来 设 定 ， 见 程序 清 蛙 62-3) ， 这 样 所 
有 的 输入 字符 都 会 直接 传递 给 script JEF, MARRA mK ETEO. HEF, 
script 程序 的 输出 字符 也 不 会 被 终端 驱动 程序 修改 。 


























处 于 原始 模式 下 的 终端 并 不 意味 着 原始 的 、 未 经 过 解释 的 控制 字符 会 传递 给 shell， 或 
者 伪 终 端 从 设备 的 其 他 任何 前 台 进 程 组 ， 也 不 代表 该 进程 组 的 输出 会 以 原始 方式 传递 给 用 
成 的 终 响 。 相 反 ， 是 在 从 设备 中 对 终 剖 特殊 字符 做 解释 (除非 该 从 设备 也 被 显 式 地 设置 为 
原始 模式 )。 通 过 将 用 户 终 端 设 为 原始 模式 ， 我 们 可 以 避免 对 输入 输出 字符 做 两 轮 解释 。 











一 调用 atexit0 安 朔 一 个 退出 处 理 例 程 ， 当 程序 终止 退出 时 将 终端 重 置 为 原来 的 
模式 CO。 

一 通过 一 个 循环 在 终端 和 伪 终 端 主 设备 间 双 向 传送 数据 所 。 在 每 一 轮 循环 和 欠 代 中 ， 首 
先 使 用 select() C91 63.2.1 TO KAMA mA mE e ERAO. MRA mA 
WA MERER BSAA 3-8 PaO. E, WRAAE UC 
有 输入 的 话 ， 程 序 就 读 取 一 些 输 入 并 与 入 到 终端 以 及 输出 文件 中 。 循 环 持 续 执 行 直 
到 过 到 文件 结尾 或 者 检测 到 在 被 监视 的 文件 摘 述 人 行 上 出 现 错误 时 ， 御 环 终 上 上 。 


程序 清单 64-3. script(1) 的 简单 实现 





pty/script.c 


include «sys/stat.h» 

include «fcntl.h» 

#include «libgen.h» 

include «termios.h» 

include «sys/select.h» 

#include "pty fork.h" /* Declaration of ptyFork() */ 
#include "tty functions.h" /* Declaration of ttySetRaw() */ 
include "tlpi hdr.h" 


#define BUF SIZE 256 
#define MAX SNAME 1000 


struct termios ttyOrig; 


static void /* Reset terminal mode on program exit */ 
ttyReset(void) 
{ 


if (tcsetattr(STDIN FILENO, TCSANOW, &ttyOrig) == -1) 
errExit("tcsetattr"); 
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int 
main(int argc, char *argv[]) 
{ 
char slaveName[MAX SNAME ] ; 
char *shell; 
int masterFd, scriptFd; 
struct winsize ws; 
fd set inFds; 
char buf[BUF SIZE]; 
ssize t numRead; 
pid t childPid; 


(D if (tcgetattr(STDIN FILENO, &ttyOrig) == -1) 
errExit("tcgetattr"); 
if (ioctl(STDIN FILENO, TIOCGWINSZ, &ws) « O) 
errExit("ioctl-TIOCGWINSZ"); 


© childPid = ptyFork(&masterFd, slaveName, MAX SNAME, &ttyOrig, &ws); 
if (childPid == -1) 
errExit("ptyFork"); 


if (childPid == 0) { /* Child: execute a shell on pty slave */ 
© shell = getenv("SHELL"); 
if (shell == NULL || *shell == '\o') 
shell = "/bin/sh"; 


© execlp(shell, shell, (char *) NULL); 
errExit("execlp"); /* If we get here, something went wrong */ 


j 


/* Parent: relay data between terminal and pty master */ 


(5) scriptFd = open((argc > 1) ? argv[1] : "typescript", 
O WRONLY | O CREAT | O TRUNC, 
S IRUSR | S IWUSR | S IRGRP | S IWGRP | 
S IROTH | S IWOTH); 
if (scriptFd == -1) 
errExit("open typescript"); 


© ttySetRaw(STDIN FILENO, &ttyOrig); 


D if (atexit(ttyReset) != 0) 
errExit("atexit"); 


© for (5;) ( 
FD ZERO(&inFds); 
FD SET(STDIN FILENO, &inFds); 
FD SET(masterFd, &inFds); 


(9) if (select(masterFd + 1, &inFds, NULL, NULL, NULL) -- -1) 
errExit("select"); 


四 if (FD ISSET(STDIN FILENO, &inFds)) ( /* stdin --» pty */ 
numRead - read(STDIN FILENO, buf, BUF SIZE); 
if (numRead <= 0) 
exit(EXIT SUCCESS); 


if (write(masterFd, buf, numRead) !- numRead) 
fatal("partial/failed write (masterFd)"); 
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(t if (FD ISSET(masterFd, &inFds)) ( /* pty --» stdout«file */ 
numRead - read(masterFd, buf, BUF SIZE); 
if (numRead «- 0) 
exit(EXIT SUCCESS); 


if (write(STDOUT FILENO, buf, numRead) !- numRead) 
fatal("partial/failed write (STDOUT FILENO)"); 

if (write(scriptFd, buf, numRead) !- numRead) 
fatal("'partial/failed write (scriptFd)"); 


pty/script.c 


在 下 面 的 shell 会 话 中 ,我 们 逐步 说 明 如 何 使 用 程序 清单 64-3 PRITET. Hz, 我 们 显示 
出 xterm 所 使 用 的 伪 终 问 名 称 ， 登 录 shell 丈 运 行 于 其 之 上 ， 以 及 登录 shell 的 进程 ID Fo IX 
些 信 息 稍 后 会 很 有 帮助 。 

$ tty 

/dev/pts/1 


$ echo $$ 
7979 


然后 局 动 script 程序 , 该 程序 也 会 局 动 一 个 子 shell 进程 。 再 一 次 的 , 我 们 显示 出 承载 shell 
X5 1111) 3m 4^ P LJ. shell 的 进程 ID ^. 





$ ./script 

$ tty 

/ dev/pts/24 Pseudoterminal slave opened by script 
$ echo $$ 

29825 PID of subshell process started by script 





现在 我 们 使 用 ps(1) 命 令 来 显示 有 关 两 个 shell 以 及 script 进程 间 的 相关 信息 ， 最 后 关闭 由 
script 程序 启动 的 shell. 


$ ps -p 7979 -p 29825 -C script -o "pid ppid sid tty cmd" 
PID PPID  SID IT CMD 
7979 7972 7979 pts/1 /bin/bash 
29824 7979 7979 pts/1 ./script 
29825 29824 29825 pts/24 /bin/bash 
$ exit 
ps(1) 的 输出 显示 了 登录 shell, script 进程 以 及 由 script 局 动 的 子 shell 之 间 的 父子 进 
程 关 系 。 
此 时 我 们 已 经 返回 到 了 登录 shell 中 。 打 开 typescript 文件 ， 其 中 记录 了 所 有 script 程序 运 
行 时 产生 的 输入 和 输出 。 
$ cat typescript 
$ tty 
/dev/pts/24 
$ echo $$ 
29825 
$ ps -p 7979 -p 29825 -C script -o "pid ppid sid tty cmd" 
PID PPID  SID IT CMD 
7979 7972 7979 pts/1 /bin/bash 
29824 7979 7979 pts/1 ./script 
29825 29824 29825 pts/24 /bin/bash 
$ exit 
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64.7 £u [e EA A O AUS 


伪 终 端 主 从 设备 共享 终端 属性 Ctermios) 和 窗口 大 小 (winsize) 结构 。( 这 两 个 结构 体 在 

第 62 APPAR) 这 表示 运行 在 伪 终 端 主 设备 上 的 程序 可 以 通过 在 主 设备 文件 描述 符 上 调 

用 tcsetattr0 和 ioctl0 来 修改 从 设备 端的 属性 和 窗口 大 小 。 

一 个 修改 终端 属性 会 带 来 好 处 的 例子 就 是 script 程序 。 假 设 我 们 在 一 个 终端 模拟 器 窗 

口中 运行 script 程序 ， 然 后 修改 窗口 的 大 小 。 在 这 种 情况 下 ， 终 痕 模 拟 器 程序 将 通知 内 核 

相应 的 终端 设备 窗口 大 小 发 生 了 改变 , 但 这 个 改变 不 会 影响 到 内 核对 伪 终 端 从 设备 的 记录 

CILE] 64-4)。 结 果 束 是 运行 在 伪 终 端 从 设备 上 的 面向 屏幕 的 程序 〈 比 如 vi) 输出 将 出 现 乱 

码 ， 因 为 它们 所 理解 的 窗口 大 小 与 实际 的 终端 窗口 大 小 不 一 致 。 我 们 可 以 按 如 下 步骤 来 解 

决 这 个 问题 。 

1. 在 script 父 进程 中 安装 一 个 SIGWINCH 信和 号 处 理 例 程 ， 这 样 当 终 痪 窗口 友 生 变化 时 可 以 
由 此 信号 得 到 通知 。 

2. 当 script 父 进程 收 到 SIGWINCH 信号 时 ， 使 用 TIOCGWINSZ ioctl0 操 作为 终 问 窗口 相关 
联 的 标准 输入 获取 一 个 winsize 结构 体 。 然 后 利用 这 个 结构 体 在 TIOCSWINSZ ioctl0 操 作 
中 设 定 伪 终 端 主 设备 的 窗口 大 小 。 

3. 如 果 新 的 伪 终 端 窗口 大 小 与 上 昌 的 不 同 ， 那 么 内 核 会 产生 SIGWINCH 信和 号 给 伪 终 端 从 设备 
的 前 全 进程 组 。vi 这 样 的 屏 硕 处 理 程序 可 捕获 这 个 信号 并 执行 一 个 TTOCGWINSZ ioctl() 
操作 来 更 新 它们 的 终端 窗口 大 小 。 

我 们 在 62.9 节 详 细 介 绍 了 有 关 终 端 窗口 大 小 和 TIOCGWSINZE 以 及 TIOCSWINSZ ioctl() 
操作 的 细节 。 









































64.8 BSD 风格 的 伪 终 端 


本 章 大 部 分 内 容 都 集中 于 讨论 UNIX 98 伪 终 端 ， 因 为 这 是 在 SUSv3 标准 中 规定 的 伪 终 端 
风格 ， 因 而 所 有 新 的 程序 都 应 该 遵守 。 但 是 有 时 候 我 们 还 是 会 在 老 的 程序 中 ， 或 者 当 我 们 从 
其 他 UNIX 实现 向 Linux 移植 程序 时 会 遇 到 BSD 风格 的 伪 终 端 。 因 此 现在 我 们 就 来 探讨 一 下 
BSD 4f? *m IF] HT 。 


Linux 已 经 不 再 使 用 BSD 风格 的 伪 终 站 了 。 从 Linux2.6.4 版 以 来 ，BSD KERIA mE 
为 可 选 的 内 核 组 件 可 以 通过 CONFIG LEGACY PTYS 在 内 核 配 置 选项 中 设 定 。 


BSD [/j2&5 [8] UNIX98 伪 终 痕 的 区 别 仅仅 只 在 如 何 找到 并 打开 伪 终 端 主 从 设备 的 细 直 上。 
一 旦 主 从 设备 都 已 经 打开 ， 操 作 BSD 伪 终 靖 的 方式 同 UNIX98 伪 终 新 一 样 。 

在 UNIX98 伪 终 闹 中 ,我 们 获取 未 使 用 的 伪 终 总 主 设备 是 通过 调用 posix_openpt()， 
该 函数 会 打开 /dev/ptmx 一 一 伪 终 问 主 设备 的 克 隆 。 我 们 可 以 通过 ptsname() 获 取 相 应 的 
伪 终 端 从 设备 名 称 。 与 之 相反 ，BSD 伪 终 端的 主 从 设备 已 经 在 /dev 下 预先 创建 好 了 。 
每 个 主 设备 的 名 称 按照 /dev/ptyxy 的 形式 呈现 ， 这 里 xx 会 由 [p-za-e] 范 围 内 的 16 个 字符 
KE, m y rH[0-9a-f]is E A BJ 16 个 字符 来 殖 换 。 与 特定 的 伪 终 问 主 设备 相对 应 的 从 
设备 名 形式 为 /dev/ttyxt。 因 此 ， 举 个 例子 ，/dev/ptyp0 和 /dev/ttyp0 就 组 成 了 一 对 BSD 
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Vut B D 2 9m o 


不 同 的 UNIX 实现 对 于 BSD 风格 的 伪 终 端 ， 所 提供 的 数量 和 名 字 都 有 所 不 同 。 在 有 些 
实现 中 默认 提供 32 对。 大 多 数 实现 中 至 少 会 提供 32 对 名 称 形式 为 /dev/ptyfpq][0-9a-f] 的 BSD 
伪 终 端 。 


要 找 出 未 使 用 的 伪 终 站 对 ， 我 们 通过 一 个 循环 来 葵 试 打开 每 一 个 主 变 备 ， 直 到 能 够 成 功 
打开 其 中 一 个 为 止 。 当 执行 这 个 循环 时 ， 调 用 openO 时 可 能 会 过 到 两 个 销 误 。 
。 如 来 给 定 的 主 设备 名 不 存在 ，open0 〇 调用 将 失败 ， 错 误 码 为 ENOENT。 通 第 这 表示 我 
们 已 经 届 历 了 系统 中 整个 主 设备 名 的 组 合 ， 但 是 找 不 到 一 个 空 下 的 设备 〈 即 ， 在 上 述 
列 出 的 设备 名 范围 内 找 不 到 指定 的 名 称 ) 。 
。 如 末 主 设备 正在 使 用 中 ，openO 调 用 也 会 失败 ， 此 时 错误 人 码 为 EIO。 我 们 可 以 忽略 这 
NM AT P7 e 





























在 HP-UX 11 系统 中 ， 当 壬 试 打开 一 个 正在 使 用 中 的 BSD HA 9m 3: Ve d$ |, open ^K 
的 错误 人 码 为 EBUSY 。 








一 旦 找到 了 可 用 的 主 设备 ， 我 们 就 可 以 获取 对 应 的 从 设备 名 称 。 这 只 要 用 tty 来 替换 主 设 
备 名 中 的 pty 残 可 以 了 。 之 后 我 们 就 可 以 通过 open0 〇 来 打开 从 设备 了 。 








对 于 BSD 伪 终 闹 ， 这 里 并 没有 等 价 于 grantptO 的 函数 来 修改 从 设备 的 属 主 和 权限 。 如 
末 我 们 需要 修改 的 话 ， 那 么 就 必须 显 式 地 调用 chownO《〈 只 有 特权 级 程序 才 可 以 这 么 做 ) 和 
chmodO。 或 者 写 一 个 设 定 用 户 ID KEF ORR pt_chown 一 样 ) 来 为 一 个 非特 权 级 程序 执 
行 这 样 的 任务 。 








程序 清单 64-4 给 出 了 ptyMasterOpen0) 的 为 一 种 实现 ， 这 里 使 用 的 是 BSD 风格 的 伪 终 端 。 
如 果 要 让 我 们 的 script 程序 〈 见 64.6 15) 能 工作 在 BSD 伪 终 靖 上 的 话 ， 所 有 要 做 的 就 是 用 这 
MEIR ZZ BU ptyMasterOpen()。 


程序 清单 64-4. 使 用 BSD 伪 终 端的 ptyMasterOpen() KIE 


pty/pty master open bsd.c 
include «fcntl.h» 
#include "pty master open.h" /* Declares ptyMasterOpen() */ 
include "tlpi hdr.h" 


#define PTYM PREFIX "/dev/pty" 

#define PTYS PREFIX "/dev/tty" 

#define PTY PREFIX LEN (sizeof(PTYM PREFIX) - 1) 
#define PTY NAME LEN (PTY PREFIX LEN + sizeof("XY")) 


#define X RANGE "parstuvwxyzabcde" 
#define Y RANGE "0123456789abcdef" 
int 


ptyMasterOpen(char *slaveName, size t snLen) 
int masterFd, n; 


char *x, *y; 
char masterName[PTY NAME LEN]; 
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if (PTY NAME LEN > snLen) { 
errno - EOVERFLOW; 
return -1; 


memset(masterName, O, PTY NAME LEN); 
strncpy(masterName, PTYM PREFIX, PTY PREFIX LEN); 


for (x = X RANGE; *x != 'N0'; xe) 1 
masterName[PTY PREFIX LEN] = *x; 


for (y = Y RANGE; *y != '\0'; ye) { 
masterName[PTY PREFIX LEN + 1] = *y; 


masterFd = open(masterName, O RDWR); 


if (masterFd == -1) { 
if (errno -- ENOENT) /* No such file */ 


return -1; /* Probably no more pty devices */ 
else /* Other error (e.g., pty busy) */ 
continue; 
} else { /* Return slave name corresponding to master */ 


n = snprintf(slaveName, snLen, "%s%c%c", PTYS PREFIX, *x, *y); 
if (n >= snLen) 1 
errno - EOVERFLOW; 


return -1; 
) else if (n == -1) { 
return -1; 
J 
return masterFd; 
} 
} 
} 
return -1; /* Tried all ptys without success */ 


pty/pty master open bsd.c 


64.9 ”总结 


伪 终 端 对 是 由 一 对 互联 的 伪 终 端 主 设备 和 从 设备 组 成 的 。 连 接 在 一 起 后 ， 这 两 个 设备 提 
供 了 一 个 双 辐 的 IPC 通道 。 伪 终端 的 好 处 在 于 ， 我 们 可 以 将 一 个 面 癌 终端 的 程序 连接 到 从 设 
备 问 ， 它 可 以 通过 打开 了 主 设备 的 程序 来 驱动 。 伪 终端 从 设备 表现 得 就 像 一 个 常规 的 终 闹 一 
样 。 所 有 可 以 施加 于 香 规 终端 上 的 操作 都 可 以 施加 于 从 设备 上 上， 而且 从 主 设备 到 从 设备 传递 
的 输入 ， 其 解释 的 方式 同 键 副 输入 到 常规 终端 的 方式 一 样 。 

伪 终 尊 的 一 种 常见 用 途 是 提供 网 络 登 录 服 务 的 应 用 。 但 是 ， 伪 终 闹 也 可 以 用 在 许多 其 他 
的 程序 中 ， 比 如 终端 模拟 器 以 及 o 

— — m API. Linux 对 这 两 种 API 都 提供 文 持 ， 但 是 
System V WA m API 成 为 了 SUSv3 规范 中 标准 。 
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64.10 


64-1. 


64-2. 


64-3. 


64-4. 


64-5. 


64-6. 


64-7. 


练习 


运行 程序 清单 64-3 中 的 程序 ， 当 用 户 键 入 文件 结尾 符 〈 通 常 是 Ctrl-D) 时 ，script 

程序 的 父子 进程 按照 什么 顺序 退出 ? 为 什么 ? 

对 程序 清单 64-3 〈scriptc) 中 的 程序 做 如 下 修改 。 

a) 标准 的 script(1) 程 序 会 在 输出 文件 的 开始 和 结尾 加 上 用 来 显示 程序 局 动 和 结束 时 
间 的 行 。 请 加 上 这 个 功能 。 

b) 如 64.7 节 所 述 ， 增 加 能 够 处 理 终端 窗口 大 小 改变 的 代码 。 你 会 发 现 程 友 清 单 62-5 
(demo SIGWINCH.c) 的 程序 很 适合 来 测试 这 个 功能 。 

修改 程序 清单 64-3 Cscript.c) 中 的 程序 ， 将 select0 蔡 换 为 一 对 进程 。 其 中 一 个 处 

理 从 终 冰 到 伪 终 中 主 设备 的 数据 传 竹 ， 夯 一 个 处 理 相 反方 同上 的 数据 传输 。 

修改 程序 清单 64-3 (scripte) 中 的 程序 ， 为 其 增加 一 个 记录 时 间 戳 的 功能 。 每 次 访 

程序 癌 typescript 文件 写 入 字符 串 时 ， 它 还 应 该 写 一 个 时 间 惟 字符 串 到 第 二 个 文件 

中 【比方 说 typescripttimed) 。 瑟 入 到 第 二 个 文件 中 的 字符 串 应 满足 如 下 形式 。 

«timestamp» «space» «string» «newline» 

timestamp 应 该 以 文本 形式 记录 下 从 script 程序 局 动 以 来 经 历 过 的 坚 秒 数 。 将 时 间 惟 

以 文本 形式 记录 的 好 处 是 其 结果 容易 阅读 。 在 string 中 ， 真 正 的 换行 从 需要 进行 转 

义 。 一 种 可 能 的 方式 是 将 一 个 换行 从 记录 为 2 个 字符 的 序列 一 一 nm， 上 友和 斜 线 记 为 \。 

再 写 一 个 程序 script replay.c， 访 程序 恋 取 时 间 惟 文件 并 在 标准 输出 上 显示 其 内 容 ， 

要 求 显示 的 进度 同 当初 写 入 时 的 进度 相同 。 将 这 两 个 程序 结合 起 来 承 提供 了 一 个 简 

单 的 记录 并 回放 shell 会 话 的 日 志 功 能 。 

实现 客户 站 与 服务 器 程序 ， 提 供 简 单 的 类 似 telnet 风格 的 远程 登录 功能 。 服 务 器 站 

要 设计 成 能 处 理 并 发 连接 ( 见 60.1 W) 。 图 64-3 展示 了 为 每 个 客户 端 建立 登录 服 

务 的 步 又 。 图 中 没有 显示 的 是 服务 器 病 父 进程 ,该 进程 处 理 从 客户 妆 发 送 来 的 套 接 

字 连 接 ， 并 创建 服务 需 问 子 进程 来 处 理 每 个 连接 。 注 意 ， 所 有 用 来 认证 用 户 以 及 局 

动 登录 shell 的 工作 都 可 以 在 每 个 服务 器 山子 进程 中 通过 调用 ptyForkO 进 而 在 孙子 

进程 中 执行 login(1) 程 序 来 完成 。 

为 上 面 的 练习 程序 增加 代码 , 使 其 能 够 在 登录 会 话 开 始 和 结束 时 更 独 登 录 账户 文件 

( 见 第 40 章 ) 。 

假设 我 们 执行 了 一 个 长 时 间 运 行 的 程序 ， 该 程 序 绥 慢 地 产生 输出 ， 并 将 输出 重 定 问 

到 一 个 文件 或 党 道上， 比如 : 

$ longrunner | grep str 

上 面 的 例子 有 个 问题 就 是 ， 默 认 情况 下 stdio 只 会 在 标准 输入 缓冲 被 填 满 后 才 会 刷新 

到 标准 输出 。 这 就 意味 着 上 面 的 longrunner 程序 的 输出 将 以 突 发 方式 显示 ， 且 输出 

之 间 有 较 长 的 时 间 间 隅 。 规 避 该 问题 的 一 种 方法 是 写 一 个 程序 按照 如 下 的 步骤 

处 理 。 

a) 创建 一 个 伪 终 病 。 

bo 将 标准 文件 描述 符 连 接 到 伪 终 端 从 设备 上 ， 执 行 命令 行 参数 中 指定 的 程序 。 

c) 从 伪 终 剖 主 设备 问讯 取 输 出 ， 并 立刻 写 入 到 标准 输出 上 STDOUT FILENO, 
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文件 描述 符 1) . EEF, AAEGmpek IU NJT COE ABUS SA dix e D. AFERA 
4T REEF SL RE DDURUAN T o 
这 样 的 程序 我 们 可 以 称 之 为 unbuffer， 可 以 像 这 样 使 用 : 
$ ./unbuffer longrunner | grep str 
实现 unbuffer 程序 。《〈 这 个 程序 的 代码 大 部 分 都 和 程序 清单 64-3 中 的 相似 。) 
64-8， 编 号 一 个 程序 实现 一 种 脚本 语言 ， 它 可 以 在 非 交 互 式 模式 下 驱动 vi. HET vi 需要 
运行 在 终端 上 ， 因 此 该 程序 要 用 到 伪 终 端 。 
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附录 
跟踪 系统 调用 














strace 命令 允许 我 们 跟踪 程序 执行 的 系统 调用 。 这 个 功能 对 调试 程序 ， 或 者 只 是 简单 查看 
程序 正在 做 些 什么 都 是 非常 有 帮助 的 。strace 最 简单 的 用 法 如 下 。 

$ strace command arg... 

这 将 以 给 定 的 命令 行 参数 来 运行 该 命令 ， 产 生 程序 所 执行 的 系统 调用 跟踪 。 默 认 情 况 下 ， 
strace 会 将 输出 写 入 到 stderr 中 ， 但 我 们 可 以 通过 -o filename 的 选项 来 修改 这 个 行为 。 

以 下 是 strace 产生 的 输出 的 例子 〈 取 上 自命 令 strace date 的 输出 )。 


execve("/bin/date", ["date"], [/* 114 vars */]) = 0 
access("/etc/ld.so.preload", R OK) = -1 ENOENT (No such file or directory) 
open("/etc/ld.so.cache", O RDONLY) - 3 

fstat64(3, (st mode-S IFREG|O644, st size-111059, ...]) = 0 

mmap2(NULL, 111059, PROT READ, MAP PRIVATE, 3, 0) = Oxb7f38000 








close(3) = 0 
open("/lib/libc.so.6", O RDONLY) = 3 

fstat64(3, (st mode-S IFREG[O755, st size-1491141, ...]) = 0 
close(3) = 0 

write(1, "Mon Jan 17 12:14:24 CET 2011WMn", 29) = 29 

exit group(0) zum 


每 个 系统 调用 都 以 一 个 函数 调用 的 形式 显示 出 来 ， 输 入 和 输出 参数 都 在 括号 中 给 出 。 从 
以 上 示例 来 看 ， 参 数 是 以 符号 形式 打印 出 来 的 。 
e 位 扒 码 以 相应 的 符号 常量 来 代表 。 
。 学 符 串 以 文本 形式 打印 出 来 (长 度 上 限 为 32 个 字符 , 但 -s strsize 选项 可 用 来 更 改 这 个 
ERR). 
。 结构 体 字 段 是 单独 显示 的 (默认 情况 下 , 只 有 大 型 结构 体 的 子 集 缩 写 才 会 被 显示 出 来 ， 
但 是 -v 选项 可 用 来 显示 整个 结构 体 )。 
在 被 跟 踩 调用 的 右 括号 后 ，strace 打印 出 一 个 每 于 号 (=)， 紧 跟 看 的 是 该 系统 调用 的 返回 
值 。 如 果 系 统 调用 失败 了 ， 也 会 显示 出 erno 错误 码 的 符号 表示 。 因 此 ,在 上 面 的 access0 调 用 中 ， 
我 们 看 到 对 应 的 错误 码 ENOENT 被 打印 了 出 来 。 
就 算 只 是 一 个 简单 的 程序 ，strace 产生 的 输出 也 很 长 ， 因为 这 其 中 包含 了 C 运行 时 库 局 动 
代码 以 及 加 载 共 享 库 时 所 执行 的 系统 调用 。 对 于 一 个 复杂 的 程序 来 说 ，strace 的 输出 可 以 相当 
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的 长 。 基 于 这 些 原 因 ， 有 时 候 对 strace 的 输出 有 选择 性 地 做 些 过 小 会 非常 有 用 。 一 种 方法 是 利 
用 grep, SEXE: 
$ strace date 2581 | grep open 
男 一 种 方法 是 使 用 -e 选项 来 选择 需要 跟踪 的 事件 。 比 如 ， 我 们 可 以 用 如 下 的 命令 来 跟踪 
open() 和 和 closeO 系 统 调用 : 
$ strace -e trace=open,close date 
无 论 使 用 上 述 哪 一 种 技术 ， 在 某 些 情况 下 我 们 需要 注意 的 是 : 系统 调用 的 真实 名 称 同 它 
对 应 的 glibc (ES CER PCT). EW, SEEI 26 章 中 我 们 把 所 有 的 waitO-type 函数 都 
认为 是 系统 调用 ， 但 其 实 它们 中 的 大 多 数 〈wait0、waitpidO 以 及 wait30) 都 是 包装 函数 ， 用 
来 调用 内 核 的 wait40 系 统 调用 例 程 。strace 显示 的 是 后 者 的 名 称 ， 因 此 我 们 在 -e trace= 选 项 中 
指定 的 名 称 必须 是 后 者 。 同 样 的 ， 所 有 的 exec ERZE CI, 27.2 T) 都 会 调用 execve0 系 统 调用 。 
通常 , 我 们 可 以 通过 查看 strace 的 输出 对 这 类 名 称 的 转换 做 猜测 (或 者 通过 但 看 strace -c 产生 
的 输出 ， 下 面 会 摘 述 到 )。 但 是 如 果 猿 错 了 ， 我 们 束 害 要 在 glibc 的 源码 中 检查 ， 看 看 在 包 状 
函数 内 做 了 些 什么 转换 。 
strace(1) 用 户 手 册页 列 出 了 strace 的 一 些 其 他 选项 ， 如 下 所 示 。 
e -p pid 选项 通过 指定 进程 的 ID 与 来 跟 躁 一 个 已 存在 的 进程 。 非 特权 级 用 户 被 局限 
于 只 能 跟踪 它们 自己 ， 以 及 那些 没有 执行 设 定 用 户 ID 或 设 定 组 ID 操作 的 程序 
CHL 9.3 $). 
e -Cc 选项 可 以 使 strace 打印 出 程序 所 执行 的 所 有 系统 调用 的 概要 。 对 于 每 个 系统 调用 ， 概 
要 信息 包括 总 的 调用 次 数 ， 调 用 失败 的 次 数 ， 以 及 执行 这 些 调用 所 人 花费 的 总 时 间 。 
o -f 选项 可 以 使 该 进程 的 子 进程 也 能 得 到 跟踪 。 如 果 我 们 将 跟 踩 的 输出 发 送 给 一 个 文件 
(-o filename)， 那 么 可 选 的 - 企 选项 能 使 每 个 进程 将 日 己 的 跟踪 输出 写 到 名 称 形式 为 
filename.PID 的 文件 中 。 
strace 命令 是 Linux 下 专 有 的 ， 但 大 多 数 UNIX 实现 都 提供 了 它们 各 自 的 等 价 物 〈 例 如 ， 
Solaris 上 的 truss， 以 及 BSD 上 的 ktrace)。 



























































lace 命令 所 执行 的 任务 同 strace 类 似 ， 但 它 是 针对 库 函 数 调用 的 。 请 参阅 ltrace(D) 用 
户 手册 页 以 获得 更 多 细节 。 
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一 个 典型 的 UNIX 命令 行 有 看 如 下 的 形式 。 





command | options ] arguments 








选项 的 形 却 为 连 字 符 〈-) 案 跟 看 一 个 唯一 的 字符 用 来 标识 该 选项 ， 以 及 一 个 针对 该 选项 
的 可 选 参 数 。 市 有 一 个 参数 的 选项 能 够 以 可 选 的 方式 在 参数 和 选项 之 间 用 空格 分 开 。 多 个 选 
项 可 以 在 一 个 单独 的 连 字 符 后 归 组 在 一 起 ， 而 组 中 最 后 一 个 选项 可 能 会 市 有 一 个 参数 。 根 据 
这 些 规则， 下 和 面 这 些 命 令 部 是 等 同 的 。 

$ grep - -i -f patterns *.c 

$ grep -lif patterns *.c 

$ grep -lifpatterns *.c 

在 上 而 这 些 命令 中 ，-l 和 -i 选项 没有 参数 ， 而 -f 选 项 将 子 付 串 pattern 当做 它 的 参数 。 

因为 许多 程序 (包括 本 书 中 的 一 些 示 例 程序 ) 都 需要 按照 上 述 格式 来 解析 选项 ， 相 关 的 
机 制 被 封 汉 在 了 一 个 标准 库 函 数 中 ， 这 束 古 getopt()。 




















#include «unistd.h» 


extern int optind, opterr, optopt; 
extern char *optarg; 


int getopt(int argc, char *const argv[], const char *opísiring); 


See main text for description of return value 











FA Zt getopt() 解 析 给 定 在 参数 argc 和 argv 中 的 命令 行 参数 集合 ,这 两 个 参数 通常 是 从 main() 
水 数 的 参数 列表 中 获取 。 参 数 optstring 指定 了 函数 getoptO 应 该 寻找 的 命令 行 选项 集合 ， 该 参 
数 由 一 组 字符 组 成 ， 每 个 字符 标识 一 个 选项 。SUSv3 中 规定 了 getoptO 至 少 应 该 接受 62 个 字 
从 [a-zA-Z0-9] 作 为 选项 。 除 了 :、?、 和 -这 几 个 对 getopt0 来 说 有 看 特殊 意义 的 学 符 外 ， 大 多 数 
实现 还 允许 其 他 的 字符 也 作为 选项 出 现 。 每 个 选项 字符 后 可 以 跟 一 个 肯 号 字符 C, RRIA 
选项 市 有 一 个 参数 。 




















1153 


异步 社区 会 员 flyman150(2410757683 (9 qq.com) EF 尊重 版 权 





我 们 通过 连续 调用 getoptO 来 解析 命令 行 。 每 次 调用 都 会 返回 下 一 个 未 处 理 选 项 的 信息 。 
如 果 找 到 了 选项 ， 那 么 代表 该 选项 的 字符 束 作 为 函数 结果 返回 。 如 果 到 达 了 选项 列表 的 结尾 ， 
getoptO 束 返回 -1。 如 末 选 项 市 有 参数 ，getopt0 束 把 全 局 变量 optarg 设 为 指 癌 这 个 参数 。 

注意 getoptO 的 函数 返回 值 类 型 为 mt。 我 们 必须 注意 不 能 把 getoptO 的 返回 值 赋值 给 char 
类 型 的 变量 ， 因 为 当 工 作 在 char 型 变量 是 无 符号 整数 的 系统 上 时 ，char 型 变量 同 -1 之 间 的 比 
较 操 作 束 不 会 成 功 。 























如 末 选 项 不 市 参数 ， 那 么 glibc 的 getoptO0 实 现 《〈《 同 大 多 数 实现 一 样 ) 会 将 optarg 设 为 
NULL。 但 是 ，SUSv3 并 没有 对 这 种 行为 做 出 规定 。 因 此 基于 可 移植 性 的 考虑 ， 应 用 程序 不 
能 依赖 这 种 行为 〈 通 第 也 不 需要 )。 

SUSv3 中 规定 了 一 个 相关 的 函数 〈 且 glibc 也 实现 了 ) getsubopt(). 12 AAC] DARET EH 
] 个 或 多 个 有 喜 号 相 分 隔 的 字符 串 所 组 成 的 参数 列表 ， 每 个 参数 的 形式 为 name[=value]。 请 参 
| getsubopt(3) 用 户 手 册页 以 获得 更 多 细节 。 


每 次 调用 getoptO 时 ， 全 局 变量 optind 都 得 到 更 新 ， 其 中 包含 着 参数 列表 argv 中 未 处 理 的 
下 一 个 元 聚 的 索引 。( 当 把 多 个 选项 归 组 到 一 个 单独 的 单词 中 时 ，getoptO 内 部 会 做 一 些 记录 工 
作 ， 以 此 跟 踩 该 单词 ， 找 出 下 一 个 竺 处 理 的 部 分 。) 在 首次 调用 getopt0 之 前 ， 变 量 optind 会 
目 动 设 为 1。 在 如 下 两 种 情况 中 我 们 可 能 会 用 到 这 个 变量 。 

。 WR getopt() 返 回 了 -1， 表 示 目 前 没有 更 多 的 选项 可 解析 了 ， 晶 optind 的 值 比 arge 要 

小 ， 那 么 argv[optind] 就 表示 命令 行 中 下 一 个 非 选 项 单词 。 
e 如 条 我 们 处 理 多 个 命令 行 同 量 或 者 重新 扫 摘 相同 的 命令 行 ， 那 么 我 们 必须 手动 将 
optind 重新 设 为 1。 

在 下 列 情况 中 ，getoptO0 疯 数 会 返回 -1， 表 示 已 到 达 选 项 列表 的 结尾 。 

e 由 argc 加 上 argy 所 代表 的 列表 已 到 达 络 尾 〈 即 argv[optind] 为 NULL). 

e argy 中 下 一 个 未 处 理 的 单字 不 是 以 选项 分 隔 人 符 打 头 的 〈 即 ，argv[optindj[0] 不 是 连 字符 )。 

e argy 中 下 一 个 未 处 理 的 单字 只 由 一 个 单独 的 连 字 符 组 成 〈 即 ，argv[optind] 为 - )。 

有 些 命令 可 以 理解 这 种 参数 , 该 单字 本 身 代 表 了 特殊 的 意义 , 见 5.11 节 中 的 描述 。 
e argv 中 下 一 个 未 处 理 的 单字 由 两 个 连 宇 符 〈--) 组 成 。 在 这 种 情况 下 ，getoptO 会 悄悄 
地 读 取 这 两 个 连 邹 从， 并 将 optind 调整 为 指 问 双 连 字符 之 后 的 下 一 个 音字。 允 算 命令 
行 中 的 下 一 个 单字 《在 双 连 字符 之 后 ) 看 起 来 像 一 个 选项 〈《 即 ， 以 一 个 连 字 人 符 开头 )， 
这 种 语法 也 能 让 用 户 指出 命令 的 选项 结尾 。 比 如 ， 如 果 我 们 想 利 用 grep 在 文件 中 查找 
字符 串 -k， 那 么 我 们 可 以 写成 grep -- -k myfile. 
当 getopt() 在 处 理 选项 列表 时 ， 可 能 会 出 现 风 种 错 译 。 一 种 错误 是 当 直 到 菏 个 没有 指定 在 
optstring 中 的 选项 时 会 出 现 。 为 一 种 错误 是 当 某 个 选项 需要 一 个 参数 ,而 参数 却 未 提供 时 会 出 
现 〈 即 ， 选 项 出 现在 命令 行 的 结尾 )。 有 天 getoptO 是 如 何 处 理 并 上 报 这 些 错误 的 规则 如 下 。 
e 默认 情况 下 ，getoptO 在 标准 错误 输出 上 打印 出 一 条 恰当 的 错误 消息 ， 并 将 字符 ?作为 
国 数 返回 的 结 来。 在 这 种 情况 下 ， 全 局 变量 optopt 返回 出 现 错误 的 选项 字符 〈 即 ， 未 
能 识别 出 来 的 或 缺少 参数 的 那个 选项 )。 

。 全 局 变量 opterr 可 用 来 禁止 显示 由 getopt0 打 印 出 的 错误 消息 。 默认 情况 下 , 这 个 变量 
被 设 为 1。 如 果 我 们 将 它 设 为 0， 那么 getoptO 将 不 再 打印 错误 消息 ， 而 是 表现 的 如 同 
上 一 条 所 摘 述 的 那样 。 程 序 可 以 通过 检 碍 函数 返回 值 是 否 为 ?字符 来 判断 是 否 出 错 ， 
并 打印 出 用 户 日 定义 的 错误 消 居 。 
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e 上 此外， 还 有 一 种 方法 可 以 用 来 禁止 显示 错误 消息 。 可 以 在 参数 optstring 中 将 第 一 个 字 
符 指 定 为 冒号 (这么 做 会 重 载 将 opterr 设 为 0 的 效果 )。 在 这 种 情况 下 ， 错 误 上 报 的 规 
则 同 将 opterr 设 为 0 时 一 样 ， 只 是 此 时 缺失 参数 的 选项 会 通过 函数 返回 :来 报告 。 如 末 
需要 的 话 ， 我 们 可 以 根据 不 同 的 返回 值 来 区 分 这 两 关 错 误 《〈 未 识别 的 选项 ， 以 及 缺失 
参数 的 选项 )。 

上 述 这 些 可 选 的 错误 报告 机 制 总 结 在 了 表 B-1 中 。 


表 B-1: getopt() 错 误 上 报 的 几 种 行为 














会 显示 寺 未 识别 的 选项 针对 缺少 参数 
sie ABT getoptO 会 显示 针对 未 识 另 少 参 
E RERA 错误 消息 吗 ? 产生 的 返回 值 产生 的 返回 值 
默认 Copterr == 1) 9 

? 


opterr —— 
在 optstring 中 将 第 一 个 


Du Ih 


TRN: 





程序 示例 


程序 清单 B-1 中 的 程序 说 明了 应 该 如 何 使 用 getopt0 来 解析 这 有 两 个 选项 的 命令 行 : 不 市 参 
数 的 -<x 选项 ， 以 及 需要 一 个 参数 的 -p 选项 。 这 个 程序 通过 在 参数 optstring 中 将 : 设 为 第 一 个 字 
符 从 而 禁止 显示 错误 消息 。 

为 了 让 我 们 能 观察 getoptO 的 操作 ， 我 们 在 代码 中 包含 了 一 些 printtO 调 用 来 打印 出 每 次 
getoptO 调 用 返回 的 信息 。 解 析 完 成 后 ， 程 序 会 打印 出 一 些 关 于 指定 选项 的 概要 信息 。 如 果 命 
令 行 上 还 有 非 选 项 的 单字 ， 程 序 也 会 将 它们 显示 出 来 。 下 面 的 shell 会 话 展示 了 当 我 们 以 不 同 
的 命令 行 参 数 运行 该 程序 时 显示 的 结果 。 




















$ ./t getopt -x -p hello world 

opt -120 (x); optind = 2 

opt -112 (p); optind = 4 

-X was specified (count-1) 

-p was specified with the value "hello" 
First nonoption argument is "world" at argv[4] 
$ ./t getopt -p 

opt = 58 (:); optind = 2; optopt -112 (p) 
Missing argument (-p) 

Usage: ./t getopt [-p arg] [-x] 

$ ./t getopt -a 

opt = 63 (?); optind = 2; optopt = 97 (a) 
Unrecognized option (-a) 

Usage: ./t getopt [-p arg] [-x] 

$ ./t getopt -p str -- -x 

opt -112 (p); optind - 3 

-p was specified with the value "str" 
First nonoption argument is "-x" at argv[4] 
$ ./t getopt -p -x 

opt -112 (p); optind - 3 

-p was specified with the value "-x" 





EX Ema — 1 PIT ,— FER- 被 解释 为 -p 选项 的 参数 了 了， 而 不 是 单独 作为 选项 。 
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程序 清单 B-1: 使 用 getopt) 


getopt/t getopt.c 


include «ctype.h» 
include "tlpi hdr.h" 


itdefine printable(ch) (isprint((unsigned char) ch) ? ch : '#') 


static void /* Print "usage" message and exit */ 
usageError(char *progName, char *msg, int opt) 
1 


if (msg !- NULL && opt !- 0) 
fprintf(stderr, "Xs (-%c)\n", msg, printable(opt)); 
fprintf(stderr, "Usage: Xs [-p arg] [-x]W", progName); 
exit(EXIT FAILURE); 
} 
int 
main(int argc, char *argv[]) 


int opt, xfnd; 
char *pstr; 


xfnd = 0; 
pstr - NULL; 


while ((opt = getopt(argc, argv, ":p:x")) != -1) { 
printf("opt =%3d (4c); optind = Xd", opt, printable(opt), optind); 
if (opt == '?' || opt == ':') 
printf("; optopt -X3d (Xc)", optopt, printable(optopt)); 
printf("An"); 


switch (opt) 1 


case 'p': pstr - optarg; break; 
case 'x': xfnd++; break; 
case ':': usageError(argv[0], "Missing argument", optopt); 


case '?': usageError(argv[0], "Unrecognized option", optopt); 
default: fatal("Unexpected case in switch()"); 
} 

} 


if (xfnd !- 0) 
printf("-x was specified (count=%d)\n", xfnd); 
if (pstr != NULL) 
printf("-p was specified with the value \"%s\"\n", pstr); 
if (optind « argc) 
printf("First nonoption argument is \"%s\" at argv[%d]\n", 
argv[optind], optind); 
exit(EXIT SUCCESS); 


getopt/t getopt.c 


特定 于 GNU 的 行为 


默认 情况 下 , glibc 版 的 getopt0 实 现 还 有 一 个 非 标准 的 功能 : 允许 选项 和 非 选 项 混在 一 起 。 
因此 ， 比 如 说 下 和 面 这 丙 种 写法 就 是 相同 的 。 
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$ ls -1 file 

$ ls file -1 

处 理 第 二 种 形式 的 命令 行 时 ，getoptO 会 将 argy 中 的 内 容重 排列 ， 这 样 所 有 的 选项 会 排列 
到 数组 的 开始 处 ,而 所 有 的 非 选 项 会 排列 到 数组 的 尾 端 。( 如 果 argy 中 包含 有 一 个 元 素 指向 --， 
那么 只 有 位 于 -- 前 面 的 元 素 会 参与 排列 ， 并 被 解释 为 选项 。) 换 名 话说， 前 面 给 出 的 getopt() 
的 函数 原型 中 ， 参 数 argv 前 的 const 声明 实际 上 在 glibe 中 并 没有 得 到 遵守 。 

对 argv 的 内 容 进 行 重 排列 ， 这 在 SUSv3 (或 者 SUSv4) 中 是 不 允许 的 。 我 们 可 以 强 
制 getoptO 提 供与 标准 一 致 的 行为 〈《 即 ， 遵 守 前 面 提 到 的 判断 选项 列表 是 否 到 达 结 尾 的 规 
则 7， 把 环境 变量 POSIXLY CORRECT 议 为 任意 值 惑 能 做 到 这 上 点。 这 可 以 通过 下 面 两 种 方 
法 来 实现 。 

e 在 程序 中 ， 我 们 可 以 调用 putenv0 或 setenv()。 这 么 做 的 优点 是 不 需要 用 户 做 任何 事 。 

缺点 是 需要 修改 程序 的 源 代码 ， 而 且 只 能 修改 那 一 个 程序 的 行为 。 

e 我 们 可 以 在 执行 程序 前 ， 在 shell 中 定义 条 件 变 量 。 

$ export POSIXLY CORRECT-y 

这 种 方法 的 优点 是 可 以 影响 所 有 使 用 到 getopt0 的 程序 。 但 是 ， 它 也 有 一 些 缺 点 。 
POSIXLY CORRECT 会 导致 很 多 Linux 下 的 工具 行为 发 生 改变 。 此 外 ， 设 定 这 个 环境 变量 需 
要 用 户 显 式 进 行 操作 (很 可 能 在 shell 启动 文件 中 设 定 这 个 变量 )。 

另 一 种 防止 getoptO 重 排列 命令 行 参数 的 方法 是 在 参数 optstring 中 在 第 一 个 字符 前 增加 一 
个 加 号 (+)。( 如 果 我 们 也 希望 像 前 面 描述 过 的 那样 禁 由 getoptO 打 印 错误 消 和 县 ， 那么 optstring 
的 前 两 个 字符 就 应 该 是 +:， 顺 序 不 能 改变 。) 由 于 会 用 到 putenvOsll setenv()， 这 种 方法 的 缺点 
在 于 需要 修改 程序 代码 。 请 参阅 getopt(3) 用 户 手 册页 以 获得 更 多 细节 。 


参数 进行 重 排列 的 规范 。 


我 们 需要 注意 glibc 版 的 getoptO 对 参数 进行 重 排 列 的 行为 是 如 何 影 啊 到 shell 脚本 的 编写 
的 。( 这 会 对 将 shell 脚本 从 其 他 系统 移植 到 Linux 上 的 开发 者 产生 影响 。) 假 设 我 们 有 一 个 shell 
脚本 ， 能 对 目录 下 所 有 的 文件 执行 操作 : 

chmod 644 * 

如 有 果 这 些 文件 名 中 有 一 个 是 以 连 字 符 开 头 的 ， 那 么 glibc 版 的 getoptO 的 重 排列 行为 会 导 
致 将 这 个 文件 名 解释 成 命令 chmod 的 一 个 选项 。 在 其 他 的 UNIX 实现 中 是 不 会 出 现 这 个 问题 
的 ， 因 为 第 一 个 出 现 的 非 选项 《644) 如 能 确 你 getopt0 不 会 在 剩 下 的 命令 行 中 继续 寻找 选项 
了 .。 对 于 大 部 分 的 命令 , (如 果 我 们 不 设 定 POSIXLY_CORRECT) 要 处 理 这 种 需要 运行 在 Linux 
上 的 shell 脚本 ,方法 是 在 第 一 个 非 选 项 参数 前 加 上 --。 因 此 ， 我 们 应 该 将 上 和 面 的 脚本 重 写 为 : 

chmod -- 644 * 

在 这 个 特殊 的 例子 中 ， 因 为 涉及 到 文件 名 的 生成 ， 我 们 可 以 改写 为 : 

chmod 644 ./* 

尽管 在 上 面 的 例子 中 我 们 用 到 了 文件 名 模式 匹配 《globbing)， 类 似 的 情况 也 可 以 出 现在 
其 他 的 shell 处 理 中 例如 ,命令 蔡 换 和 参数 扩展 )， 此 时 也 可 以 用 相似 的 方法 ， 采 用 -- 将 选项 
和 参数 分 隅 开 来 处 理 。 
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GNU C 函数 库 对 getopt0) 提 供 了 一 些 扩 展 ， 需 要 我 们 简单 注意 以 下 儿 扩 。 


SUSv3 规范 允许 只 市 有 强制 性 参数 的 选项 。 在 GNU 版 的 getopt0 中 , 我们 可 以 在 选项 
字符 后 放置 两 个 冒 写 ， 以 此 表示 这 个 参数 是 可 选 的 。 对 于 这 样 的 选项 ， 其 参数 必须 出 
现在 同 选项 一 起 的 单字 中 《 即 ， 在 选项 和 参数 乙 间 不 能 有 空格 )。 如 末 参 数 不 存 在 ， 

那么 getoptO 返 回 后 ，optarg 会 被 设 为 NULL。 

许多 GNU 命令 都 允许 出 现 长 选项 语法 。 长 选项 以 两 个 连 字 人 符 开 始 ， 选 项 本 身 用 一 个 
单字 来 标识 ， 而 不 是 用 单个 字符 来 表示 。 如 下 面 的 例子 : 

$ gcc --version 

glibc 中 的 函数 getopt longO 可 以 用 来 解析 这 样 的 选项 。 

GNU C AZURE TS DEDE Y ENRI BAIN n] ERO BJ. API 用 来 解析 命令 行 , 称 为 argp。 
这 个 API 在 glibc 的 手册 中 有 描述 。 
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附录 
对 NULL 指针 做 转型 





考虑 如 下 对 变 参 型 函数 execl0 的 调用 : 

execl("ls", "Is", "-1", (char *) NULL); 

变 参 型 函数 是 指 可 接收 的 参数 数量 可 变 ， 或 者 参数 类 型 可 变 的 函数 。 

是 否 需 要 像 上 面 这 样 对 NULL 做 转型 ， 常 常会 引起 一 些 混乱 。 通 常 我 们 可 以 不 做 转型 ， 
但 C 标准 却 要 求 我 们 这 么 做 。 不 做 转型 的 话 ， 会 导致 应 用 程序 在 某 些 系统 上 骨 演 。 

一 般 来 说 ，NULL 被 定义 为 0 或 者 (void *)0. CC 标准 允许 其 他 的 定义 方式 ， 但 实质 上 都 
等 同 于 这 两 种 定义 的 其 中 之 一 。) 需要 做 转型 的 主要 原因 在 于 NULL 可 以 被 定义 为 0， 因 此 这 
是 我 们 前 先 需 要 考虑 的 情况 。 

在 将 源码 交 给 编译 器 处 理 之 前 , C 预 处 理 器 会 先 将 NULL 替换 为 0。C 标准 规定 常数 0 可 以 用 在 
任何 需要 用 到 指针 的 上 下 文中 ， 而 编译 器 会 确保 将 这 个 值 看 做 是 一 个 NULL 指针 。 大 多 数 情况 下 这 
都 不 会 有 问题 ， 而 且 我 们 也 没 必要 去 担心 转型 的 问题 。 比 如 ， 我 们 可 以 像 这 样 编 写 代 码 : 


int *p; 




















p-0 /* Assign null pointer to 'p' */ 
p = NULL; /* Same as 'p = 0 */ 


Fri f CET RU E LE. DN Si P Be PERLE FI A DU s 8 22 — T RET 
并 且 可 以 将 0 转换 为 一 个 null 指针 。 

同样 的 , 对 于 指定 了 定 长 参数 列表 的 函数 原型 ,我 们 可 以 将 指针 参数 指定 为 0 或 者 NULL, 
以 此 表明 应 该 给 这 个 函数 传递 一 个 null 指针 。 

sigaction(SIGINT, &sa, 0); 

sigaction(SIGINT, &sa, NULL); /* Equivalent to the preceding */ 























如 果 我 们 将 null 指针 传递 给 一 个 老式 的 、 没 有 函数 原型 的 C 函数 ， 那 么 不 官 参数 是 否 
属于 变 长 参数 列表 的 一 部 分 ， 所 有 这 里 需要 转型 为 0 的 参数 ，NULL 同样 也 能 适用 。 








因为 在 上 述 例子 中 都 不 需要 转型 ， 有 人 可 能 会 得 出 永远 都 不 怖 要 做 转型 的 结论 。 但 这 是 
ARo HERA execl0 这 样 的 变 参 函数 中 ， 将 null 指针 指定 为 可 变 参 数 之 一 时 ， 不 需要 做 
转型 操作 了 。 要 认识 到 为 什么 这 么 做 是 必需 的 ， 我 们 需要 知道 以 下 儿 操 。 
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。 C 标准 并 不 要 求 null 指针 实际 上 以 党 整数 0 来 代表 。( 理 论 上 , null 指针 可 以 以 任意 的 
位 序列 来 表示 ， 只 要 不 代表 合法 指针 就 可 以 了 。〉 其 至 标准 中 也 没有 要 求 一 个 null 指 
针 所 品 的 空间 大 小 和 种 整数 0 一样。 标准 中 规定 的 是 当 在 需要 一 个 指针 的 上 下 文中 发 
现 了 常数 0， 那 么 0 应 该 被 解释 为 一 个 null 指针 。 

因此 ， 下 面 的 写法 是 错误 的 。 


execl(prog, arg, 0); 
execl(prog, arg, NULL); 


这 种 写法 是 错误 的 ， 因 为 编译 器 会 将 常 整 数 0 传递 给 execl0， 而 这 里 无 法 保证 0 和 nul 指 
针 是 等 同 的 。 

在 实践 中 我 们 党 不 做 转型 ， 因 为 在 许多 C 实现 中 例如 Linux/x86-32)， 委 整数 Gnt) 0 
和 null 指针 是 等 同 的 。 但是， 还 有 一 些 实现 中 它们 却 并 非 如 此 。 比 如 ，null 指针 所 占 的 空间 大 
小 比 常 整数 0 要 大 ， 因 而 在 上 和 面 的 例子 中 ，execlO0 很 可 能 会 在 整数 0 的 附近 接收 到 一 些 随机 的 
比特 位 ， 从 而 使 得 这 个 结果 被 解释 为 一 个 随机 的 指针 《〈 非 null)。 当 把 程序 移植 到 这 种 实现 的 
环境 中 时 ， 急 略 转 型 就 会 导 人 至 程序 骨 尝 。( 在 一 些 上 述 提 到 的 实现 中 ，NULL 被 定义 为 长 整 型 
wE OL. HF long 和 void * 有 看 相同 的 大 小 , 某 些 采 用 了 上 述 第 二 种 调用 方式 的 程序 就 不 会 出 
首 了 。) 因 此， 我 们 应 该 将 上 述 execl0 调 用 重 写 为 以 下 形式 。 


execl(prog, arg, (char *) 0); 
execl(prog, arg, (char *) NULL); 


一 般 来 说 ， 我 们 需要 将 上 面 最 后 一 个 调用 中 的 NULL 做 转型 ， 就 算是 在 NULL 定义 为 (void 0 
的 实现 环境 中 也 是 如 此 。 这 是 因为 ， 尽 管 C 标准 要 求 不 同类 型 的 null 指针 在 比较 等 同性 时 结 
果 应 该 为 真 , 但 并 不 要 求 不 同类 型 的 指针 有 着 同样 的 内 部 表示 (尽管 在 大 部 分 实现 中 都 是 如 
Ho. 而且 如 前 所 述 ， 在 一 个 可 变 参 函数 中 ， 编 译 器 不 能 将 (void *)0 转型 为 合适 类 型 的 null 
TR 

C 标准 对 于 不 同类 型 的 指针 不 需要 有 着 相同 的 内 部 表示 这 一 规则 有 一 个 例外 : char * 弄 


SEAI void * 型 指针 要 求 有 着 相同 的 内 部 表示 。 这 意味 者 在 execl0 的 例子 中 ， 将 (char *)0 
BN (void *)0 是 不 会 有 问题 的 。 但 是 一 般 情 况 下 还 是 需要 做 转型 处 理 的 。 
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附录 
内 核 配 置 





Linux 内 核 的 很 多 特性 是 可 以 通过 组 件 来 配置 的 。 在 编译 内 核 之 前 可 以 禁用 或 启用 这 些 组 
件 ， 或 者 在 很 多 情况 下 也 可 以 局 用 成 可 加 载 的 内 核 模块 。 禁 用 不 需要 的 组 件 的 一 个 原因 是 可 
以 减 小 内 核 二 进 制 文件 的 大 小 ， 从 而 节省 内 存 。 将 一 个 组 件 启用 成 可 加 载 的 模块 意味 着 只 有 
在 运行 时 需要 用 到 该 组 件 时 才 会 将 其 加 载 到 内 存 中 。 这 种 做 法 也 能 够 节省 内 存 。 

内 核 配 置 是 通过 在 内 核 源 代码 树 的 根 目 录 下 执行 一 些 不 同 的 make 命令 来 完成 的 ， 如 
make menuconfig 提供 了 一 个 易 用 性 较 差 的 配置 菜单 ， 而 make xconfig 则 提供 了 一 个 易 用 性 较 
好 的 图 形 配 置 末 单 。 这 些 命令 会 在 内 核 源 代码 树 的 根 目录 下 产生 一 个 .config 文件 ， 在 内 核 编 
译 阶段 会 用 到 这 个 文件 。 这 个 文件 包含 了 所 有 配置 选项 的 设置 。 

每 一 个 被 司 用 的 选项 值 在 .config 文件 中 占用 一 行 ， 其 形式 如 下 。 

CONFIG NAME=value 

如 果 一 个 选项 没有 被 设置 ， 那 么 文件 中 会 包含 形 如 下 面 这 样 的 一 行 。 

# CONFIG NAME is not set 

在 .config 文件 中 以 # 写 打头 的 行 古 注释 。 

在 本 书 中 介绍 内 核 选项 时 并 没有 精确 地 摘 述 在 menuconfig 或 xconfig 荣 单 的 哪个 地 方 可 以 
找到 这 些 选项 。 之 所 以 这 样 做 有 几 个 原因 。 

e 通过 浏览 染 单 层级 通 铝 可 以 很 直观 地 确定 选项 所 处 的 位 置 。 

e 配置 选项 所 处 的 位 置 会 随 着 时 间 的 流逝 而 改变 ， 怠 像 不 同 版 本 的 内 核 会 对 菜单 层级 进 

行 重 构 一 样 。 

e 当 无 法 在 来 单 层级 中 找到 某 一 个 特定 的 选项 时 , 还 可 以 使 用 make menuconfig 和 make 
xconfig 提供 的 搜索 工具 。 如 可 以 通过 搜索 字符 串 CONFIG INOTIFY 来 找 出 配置 
inotify API 支持 的 选项 。 

用 于 构建 当前 运行 的 内 核 的 配置 选项 可 以 通过 /proc/config.gz 虚拟 文件 查看 ， 该 文件 是 一 

个 压缩 文件 ， 其 内 容 与 用 于 构建 内 核 的 .config 文件 中 的 内 容 是 一 样 的。 使 用 zcat(1) 可 以 查看 
这 个 文件 ， 使 用 zgrep(1) 则 可 以 搜索 这 个 文件 中 的 内 容 。 
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附录 
更 多 信息 源 





除了 本 书 提供 的 材料 之 外 ， AR Linux 系统 程序 设计 的 信息 源 还 有 很 多 。 本 附录 对 其 中 一 


些 进行 了 简介 。 


手册 


通过 man 命令 可 以 访问 手册 。( 命 令 man man 描述 了 如 何 使 用 man 来 读 取 手 册 。) 手册 被 





划分 成 了 用 数字 标记 的 小 节 ， 这 些小 市 将 信息 分 成 如 下 儿 类 。 


pu Ue MV Jem. cM em 


程序 和 shell 命令 : 由 用 户 在 shell 提示 符 中 执行 的 命令 。 

系统 调用 : Linux 系统 调用 。 

EKZ: 标准 CERA ARIRE RJE RZ). 

特殊 文件 : 特殊 文件 ， 如 设备 文件 。 

文件 格式 : 诸如 系统 密码 (etc/passwd) 和 组 Cetc/group) 文件 的 格式 。 

游戏 : 游戏 。 

概述 、 规 则 、 协 议 以 及 其 他 : 各 种 主题 的 概述 、 以 及 有 关 网 络 协议 和 socket 程序 设计 的 各 
种 页 面 。 

系统 管理 命令 : 主要 由 超级 用 户 使 用 的 命令 。 

在 一 些 情况 下 ， 不 同 小 结 中 的 手册 页 面 的 名 学 是 一 样 的 。 如 chmod 命令 位 于 手册 页 的 第 

















一 小 节 ， 而 chmodO 系 统 调 用 则 位 于 手册 页 的 第 二 小 节 。 为 区 分 名 字 相 同 的 手册 页 需要 在 名 字 
后 和 面 的 括 写 中 加 上 小 刷 编 写 一 一 如 chmod(1) 和 chmod(2)。 要 显示 具体 某 一 个 小 节 的 手册 页 则 可 
以 在 man 命令 中 插入 小 万 编写 。 
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$ man 2 chmod 
系统 调用 和 库 函 数 的 手册 页 被 分 成 了 儿 个 部 分 ， 通常 包 括 下 列 几 个 。 
e Mr 图 数 的 名 衬 ， 随 市 一 行 描述 。 下 面 的 命令 可 以 用 来 获取 那 一 行 描述 中 包含 指定 
字符 串 的 所 有 手册 页 列表 : 
$ man -k string 
这 在 无 法 记 住 或 不 知道 到 上 抵 要 会 找 哪个 手册 页 时 是 有 用 的 。 
e KA: 函数 的 C 原型 ， 它 标识 了 函数 的 参数 的 类 型 和 顺序 以 及 函数 的 返回 
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多 数 情 况 下 ， 在 函数 原型 前 面 会 由 一 个 头 文 件 列 表 。 这 些 头 文件 定义 了 函数 所 使 用 的 
宏和 C 类 型 以 及 函数 原型 本 号 ,使 用 这 个 函数 的 程序 应 该 包含 这 些 头 文件 。 

。 描述 : 描述 函数 的 功能 。 

。 BEME: 对 函数 返回 值 的 搬 述 ， 包 括 函 数 如 何 通 知 调用 者 发 生 了 一 个 错误 。 

。 HR: 友 生 错误 时 可 能 返回 的 erno 值 列表 。 

o 符合 : 描述 了 这 个 函数 符合 哪些 UNIX 标准 。 这 样 束 能 够 了 解 到 这 个 在 其 他 UNIX 实 
现 上 的 移植 性 如 何 ， 同 时 也 标识 出 了 这 个 函数 中 特定 于 Linux 的 方面 。 

e Bug: 描述 了 函数 无 法 正 弟 工作 或 无 法 按照 预期 工作 的 地 方 。 








尽管 随后 的 一 些 商 用 UNIX 实现 倾 铝 于 采用 更 适合 市 场 的 较为 委婉 的 说 法 ， 但 UNIX 
手册 页 在 早期 将 一 个 bug 就 称 为 bug. Linux 延续 了 这 种 传统 。 有 时 候 这 些 “bug” 是 哲学 
意义 上 的 ， 它 们 只 是 描述 了 哪些 方面 有 竺 优化 或 对 有 关 特 殊 或 非 预期 的 〈 但 在 其 他 场景 下 
可 能 是 预期 鸭 ) 行为 发 出 警告 。 

。 注释 : 其 他 有 天 这 个 函数 的 注释 。 

。 参见 : 摘 述 相关 函数 和 命令 的 手册 页 列表 。 

摘 述 内 核 和 glibc API 的 在 线 手册 页 位 于 http:Wwww.kernel.org/doc/man-pages/。 





GNU info 文档 


GNU 项 目 没有 使 用 传统 的 手册 页 格式 ， 相 反 ， 它 使 用 了 info 文档 来 记录 其 大 多 数 软 件 的 
文档 ，info 文档 是 能 够 使 用 info 命令 浏览 的 一 种 超 链 接 文 档 。 使 用 命令 info info 能 够 获取 如 
何 使 用 info 的 入 门 指 南 。 

尽管 在 很 多 情况 下 手册 页 中 的 信息 与 对 应 的 info 文档 中 的 信息 是 一 样 的， 但 有 些 时 候 C 
库 的 info 文档 包含 了 额外 的 在 手册 页 中 无 法 找到 的 信息 ， 反 之 尔 然 。 


AEFIA info 文档 包含 的 信息 可 能 是 相同 的 ， 但 它们 仍然 同时 存在 ， 其 原因 与 其 
习惯 稍微 有 点 关系 ,GNU 项 目 倾向 于 使 用 info 用 户 界 面 , 因此 通过 info 来 提供 所 有 的 文档 。 
但 UNIX 系统 的 用 户 和 程序 员 使 用 手册 页 已 经 有 很 长 的 历史 了 《并 且 在 很 多 情况 下 倾向 于 
使 用 手册 页 )。 手 册页 往往 也 比 info 文档 包含 更 多 历史 信息 (如 有 关 行 为 在 版 本 之 间 的 变更 
的 信息 )。 





























GNU C 库 (glibc) 手册 


GNU C 库 包 含 了 一 个 摘 述 如 何 使 用 库 中 的 大 多 数 函 数 的 手册 。 这 个 手册 位 于 http:// 
www.gnu.org/。 同时, 在 大 多 数 发 行 版 中 也 提供 了 HTML 格式 和 info 格式 (通过 命令 info libe) 
的 手册 。 
书籍 

本 书 最 后 列 出 了 大 量 参考 书籍 ， 其 中 一 些 特 别 值得 说 一 下 。 

参考 书籍 列表 中 的 前 面 儿 本 是 由 W. Richard Stevens 5H. “Advanced Programming in the 
UNIX Environment" ([Stevens, 1992]) 详 细 摘 述 了 UNIX 系统 程序 设计 ， 它 所 关注 的 是 POSIX. 


System V 以 及 BSD。 最 新 的 修订 工作 是 由 Stephen Rago 完成 的 ，[Stevens & Rago, 2005] 更 新 了 
对 现代 标准 和 实现 的 朱 述 ， 并 增加 了 对 线程 的 摘 述 和 有 关 网 络 程序 设计 的 一 个 章节 。 这 本 书 很 
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好 地 从 另外 一 个 视角 介绍 了 本 书 所 涉及 的 很 多 种 主题 。 两 卷 “UNIX Network Programming” 
([Stevens et al., 2004], [Stevens, 1999] ) 极其 详细 地 摘 述 了 网 络 程序 设计 和 UNIX 系统 上 的 进程 
间 通 信 。 


[Stevens et al，2004] 是 Bill Fenner 和 Andrew Rudoff 在 上 一 版 的 “UNIX Network 
Programming” 第 1 Æ[Stevens, 1998] 的 基础 上 修订 而 来 的 。 尽 管 这 个 修订 上 夏 介 绍 了 几 个 新 领 
域 , 但 在 大 多 数 需要 参考 [Stevens et al., 2004] 的 情况 下 都 可 以 在 [Stevens, 1998] 找 到 同样 的 材 
Tl, KARAI ENERE ANTH] 


“ Advanced UNIX Programming" ([Rochkind, 1985) VASA VE] UNIX (System V) 程序 设 
计 进 行 了 介绍 。 这 本 书 现在 已 经 进行 了 更 独 和 扩展 并 出 到 第 二 版 了 {Rochkind, 2004]. 

“ Programming with POSIX Threads" ([Butenhof, 1996]) 详 尽 地 描述 了 POSIX 线程 API。 

“Linux and the Unix Philosophy" ([Gancarz, 2003]) 对 Linux 和 UNIX 系统 上 应 用 程序 的 设 
计 哲 学 进行 了 简介 。 

介绍 如 何 阅 读 和 修改 Linux 内 和 源 代 人 码 的 书籍 有 很 多 , 包括 “Linux Kernel Development”([Love,， 
2010]) 和 “Understanding the Linux Kernel" ([Bovet & Cesati, 2005]). 

对 于 UNIX 内 核 的 更 一 般 的 背景 来 讲 ,“The Design of the UNIX Operating System" ([Bach, 
1980]) 仍 然 是 一 本 非常 值得 一 读 的 书 , 其 中 还 包含 了 与 Linux 有 关 的 材料 UNIX Internals: The 
New Frontiers" ([Vahalia, 1996]) 则 对 更 现代 的 UNIX 实现 的 内 核 内 和希 进行 了 介绍 。 

对 于 编写 Linux 设备 驱动 来 讲 ， 最 根本 的 参考 书籍 是 “Linux Device Drivers" ([Corbet et al., 
2005]. 

"Operating Systems: Design and Implementation" ([Tanenbaum & Woodhull, 2006])fi H] 
Minix 描述 了 操作 系统 实现 。( 人 参见 http://www.minix3.org/. ) 



































既 有 应 用 程序 的 源 代 码 


阅读 既 有 应 用 程序 的 源 代 码 通常 能 够 较 好 地 理解 如 何 使 用 特定 的 系统 调用 和 库 函 数 。 在 
使 用 RPM 包 管 理 需 的 Linux 发 行 版 中 可 以 像 下 面 这 样 找 出 包含 菜 个 特定 程序 (如 1s) 的 包 。 


$ which ls Find pathname of ls program 
/ bàn/1ls 
$ rpm -qf /bin/ls Find out which package created the pathname /bin/ls 


coreutils-5.0.75 

对 应 的 源 代 码 包 的 名 字 与 上 面 的 类 似 , 但 后 级 是 .src.rpm。 ERITA E A E WT VA 
找到 这 个 包 或 者 在 发 行者 的 网 站 上 也 可 以 下 载 到 这 个 包 。 一旦 获取 了 包 之 后 可 以 使 
用 rpm 命令 安 准 ， 然 后 束 可 以 研究 源 代 人 码 了 ， 它 通常 位 于 /usr/src 下 的 菜 个 日 录 中 。 

在 使 用 Debian 包 管 理 间 有 的 系统 上 会 找 源 代码 的 过 程 是 类 似 的。 使 用 下 和 面 的 命令 可 以 确定 
创建 了 一 个 路 径 名 的 包 《〈 本 例 中 是 ls 程序 )。 


$ dpkg -S /bin/ls 
coreutils: /bin/ls 

















Linux 文档 项 目 

Linux 文档 项 目 (http:Wwww.tdp.oreg/) 生产 Linux 上 免费 可 用 的 文档 ， 包 括 系统 管理 和 程 
序 设计 主题 方面 的 HOWTO 指南 和 FAQ (常见 问题 及 答案 )。 这 个 站 点 还 提供 了 有 关 各 种 主题 
的 估量 电 隆 书 。 
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GNU 项 目 
GNU mH (http:/www.gnu.org/) 提供 了 海量 的 软件 源 代码 及 相关 文档 。 





新 闻 组 
Usenet 新 闻 组 通常 是 查找 特定 的 程序 设计 问题 的 答案 的 较 佳 场所 。 下 面 几 个 新 闻 组 特别 














e comp.unix.prosrammer 解决 常规 的 UNIX 程序 设计 问题 。 

e comp.os.linux.development.apps 解决 与 Linux 上 应 用 程序 开发 相关 的 问题 。 

e comp.os.linux.development.system 是 Linux 系统 开发 新 闻 组 , 它 关 注 的 是 修改 内 核 以 及 
开发 设备 驱动 和 可 加 载 模块 方面 的 问题 。 

* comp.programming.threads 讨论 与 线程 、 特 别 是 POSIX 线程 程序 设计 相关 的 问题 。 

e comp.protocols.tcp-ip 讨论 TCP/IP 联网 协议 套件 。 

很 多 Usenet 新 闻 组 的 FAQ 可 以 在 http:Wwww.faqs.org/ 处 找到 。 




















在 辣 新 闻 组 提交 问题 时 先 奋 看 一 下 访 组 的 FAQ (通常 在 一 个 组 中 经 党 被 提 及 的 问题 ) 
于 尝试 在 网 上 搜索 出 该 问题 的 解决 方案 。http://groups.google.com/ 网 站 为 搜索 较 早 发 表 的 
Usenet 文章 提供 了 一 个 基于 浏览 此 的 界面 。 











Linux 内 核 邮 件 列表 


Linux 内 核 邮件 列表 (LKML) 是 Linux 内 核 开 发 人 员 主 要 的 广播 通信 媒介 。 它 提供 了 内 
核 开 发 的 现状 ， 并且 也 是 一 个 提交 内 核 bug 报告 和 补丁 的 论坛 。(LKML 不 是 一 个 提出 系统 程 
序 设 计 问 题 的 论坛 。) 要 订阅 LKML 需要 向 majordomo@vger.kernel.orsg 发 送 一 封 消息 正文 为 下 
面 这 行文 学 的 电子 邮件 。 

subscribe linux-kernel 

有 关 列 表 服 务 堪 的 工作 方式 方面 的 信息 可 以 通过 回 同 一 个 地 址 发 送 一 份 消 息 正 文 为 单词 
“help” 的 邮件 来 完成 。 

要 问 LKML 发 送 一 条 消息 需要 使 用 地 址 linux-kernel 9 vger.kernel.org; FAQ 和 指 问 这 个 邮 
件 列 表 的 一 些 可 搜索 的 归档 的 链接 可 以 在 http:/www.kernel.org/ 上 找到 。 











网 站 

下 面 的 网 站 值得 特别 关注。 

e  http//www.kernel.org/, The Linux Kernel Archives， 包 含 了 过 去 以 及 现在 的 所 有 版 本 的 
Linux 内 核 的 源 代码 。 

e http://www.lwn.net/, Linux Weekly News， 提 供 了 有 关 各 种 Linux 相关 的 主题 方面 的 
日 和 每 周 专栏 。 每 周 的 内 核 开 发 专栏 会 对 LKML 中 发 生 的 事情 进行 总 结 。 

e http://www.kernelnewbies.org/, Linux Kernel Newbies， 是 那些 想 要 学 习 和 修改 Linux 
内 核 的 程序 员 的 起 点 。 

e  http;//Ixr.linux.no/linux/, Linux Cross-reference， 提 供 了 通过 浏览 器 访问 各 个 版 本 的 
Linux 内 核 的 源 代码 的 方式 。 源 文件 中 的 每 个 标识 和 从 都 是 加 上 超 链 接 的 ， 这 样 束 能 够 
很 容易 地 找 出 其 定义 和 使 用 该 标识 符 的 地 方 。 
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内 核 源 代码 

如 果 前 面 列 出 的 信息 源 都 无 法 回答 所 涉及 到 的 问题 或 者 想 要 确认 文档 记录 的 信息 是 否 正 
确 ， 那 么 可 以 阅读 内 核 源 代码 。 尽 管 部 分 源 代 人 码 可 能 难以 理解 ,但 阅读 Linux 内 核 源 代码 中 一 
个 具体 的 系统 调用 (或 GNU C 库 源 代码 中 一 个 具体 的 库 函 数 ) 的 代码 通常 是 找到 一 个 问题 的 
答案 的 最 快 方式 。 

如 果 已 经 将 Linux 内 核 源 代码 安装 在 了 系统 上 ， 那 么 通常 可 以 在 /usr/src/linux 目录 中 找到 
它 。 表 E-1 对 这 个 目录 中 的 一 些 子 目录 进行 了 总 结 。 


X E-1: Linux 源 代 码 树 中 的 子 目录 
H 录 内 











"a 


Documentation 内 核 的 各 个 方面 的 文档 











arch 特定 于 架构 的 代码 ， 组 织 成 了 子 目录 一 一 如 alpha. arm. ia64. sparc 以 及 x86 

drivers 设备 驱动 的 代码 

fs 特定 于 文件 系统 的 代码 ， 组 织 成 了 子 目 录 一 一 如 btrfs、ext4、proc (/proc 文件 
系统 ) 以 及 vfat 

include 内 核 代 码 所 需 的 头 文件 

init 内 核 的 初始 化 代码 

ipc System V IPC 和 POSIX 消息 队列 的 代码 

kernel 与 进程 、 程 序 执行 、 内 核 模块 、 信 和 号、 时 间 以 及 定时 器 相关 的 代码 

1ib 内 核 的 各 个 部 分 用 到 的 常规 函数 

mm 内 存 管理 代码 

net 联网 代码 CTCP/IP. UNIX 和 Internet domain socket) 

scripts 配置 和 构建 内 核 的 脚本 
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第 5 章 


5-3. 


5-4. 


5-6. 





附录 
部 分 习题 解答 








随 本 书 一 同 发 布 的 源 代码 fileio/atomic_append.c 文件 提供 了 一 种 答案 ， 此 处 是 程序 


运行 结果 的 例子 之 一 : 

$ ls -1 f1 f2 

-YW------- 1 mtk users 2000000 Jan 9 11:14 f1 
-YW------- 1 mtk users 1999962 Jan 9 11:14 f2 





因为 lseek0 和 write() 的 组 合 操 作 不 具有 原子 性 , BrEUEEFEHS] 7 SPARE NSA A 
一 实例 写 入 的 字 节 。 最 终 ， 包 所 包括 的 字 节 数 少 于 2MB. 

可 以 将 对 dup0 的 调用 改 号 为 : 

fd = fcntl(oldfd, F DUPFD, 0); 


对 dup20 的 调用 可 以 改写 为 : 
if (oldfd == newfd) { /* oldfd == newfd is a special case */ 
if (fcntl(oldfd, F GETFL) == -1) ( /* Is oldfd valid? */ 
errno - EBADF; 
fd = -1; 
} else { 
fd - oldfd; 





} 
} else { 
close(newfd); 
fd = fcntl(oldfd, F DUPFD, newfd); 


} 

首先 要 意识 到 这 一 点 : 由 于 fd2 是 对 fdl 的 复制 , 它们 都 共享 了 一 个 打开 文件 摘 述 ， 

因此 也 共 圣 了 同一 文件 偏 移 量 。 然 而 ， 因 为 fd3 是 通过 单独 的 open0 调 用 而 创建 的 ， 

所 以 它 共 有 单独 的 文件 俩 移 量 。 

e 第 一 次 writeO 调 用 后 ， 文 件 内 容 为 Hello,。 

e 由 于 fd2 与 fd 共 孚 一 个 文件 俩 移 量 , 所 以 第 二 次 write0 调 用 会 退 加 到 已 有 文本 
的 后 面 ， 生 成 Hello, world. 

。 jlseekO 调 用 将 fd1 和 fd2 共 圣 的 文件 偏 移 量 调整 到 文件 起 点 ， 因 此 第 三 次 write) 
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第 6 章 
6-1. 


6-2. 
6-3. 
第 8 章 
8-1. 


第 9 章 
9-1. 
9-2. 





调用 和 履 亲 了 部 分 已 有 文本 ， 产 生 了 HELLO, world. 





。 fd3 的 文件 仿 移 量 到 目前 为 止 一 二 未 变 , 指 癌 文 件 的 起 点 ,因此 , 最 后 一 次 write( 


调用 将 文件 内 容 改 为 Gidday world。 
运行 随 本 书 发 布 源码 中 的 fileio/multi descriptors.e 程序 ， 并 观察 输出 结果 。 











因为 未 对 数组 mbuf 进行 初始 化 ， 所 以 它 属 于 未 初始 化 数据 段 。 因 此 ， 存 放 该 变量 
无 需 磁 航空 间 。 相 反 ， 会 在 加 载 程序 时 为 其 分 配 存储 空间 〈 并 初始 化 为 0)。 
随 本 书 发 布 的 源 文件 proc/bad longjmp.c 提供 了 使 用 longimpOAP 2308 v (07 — . 

随 本 书 发 布 的 源 文件 proc/ setenv.c. 提供 了 setenvO0 和 unsetenvO 的 实现 范例 。 














二 次 对 getpwuid 0 的 调用 在 printf() RR 25 E) tH ^6 PT B FJ E 2. 8U— — I 2J getpwuid () 
调用 返回 的 pw name 存放 于 静态 分 配 的 缓冲 区 中 一 一 第 二 次 调用 将 履 震 第 一 次 调 
用 返回 的 结果 。 











思考 以 下 情况 的 同时 ， 请 记 住 ， 对 有 效用 户 ID 的 修改 总 是 会 修改 文件 系统 用 户 ID. 
严格 说 来 ， 进 程 的 有 效用 户 ID 为 非 0 什 ， 进 程 就 属于 一 个 无 特权 进程 。 然 而 ， 无 
特权 进程 可 以 使 用 setuid()、setreuid()、 seteuid0 或 者 setresuidO 调 用 将 进程 有 效用 
P ID 设置 为 与 其 实际 用 户 ID 或 保存 set-user-ID 相同 。 因此, 该 进程 能 够 使 用 此 类 
调用 之 一 来 重新 获得 特权 。 

以 下 代码 显示 了 每 个 系统 调用 的 步 又 。 








e = geteuid(); /* Save initial value of effective user ID */ 
setuid(getuid()); /* Suspend privileges */ 
setuid(e); /* Resume privileges */ 


/* Can't permanently drop the set-user-ID identity with setuid() */ 


seteuid(getuid()); /* Suspend privileges */ 
seteuid(e); /* Resume privileges */ 
/* Can't permanently drop the set-user-ID identity with seteuid() */ 


setreuid(-1, getuid()); /* Temporarily drop privileges */ 
setreuid(-1, e); /* Resume privileges */ 
setreuid(getuid(), getuid()); /* Permanently drop privileges */ 
setresuid(-1, getuid(), -1); /* Temporarily drop privileges */ 
setresuid(-1, e, -1); /* Resume privileges */ 


setresuid(getuid(), getuid(), getuid()); /* Permanently drop privileges */ 


9-5. 除去 setuid() 的 异常 情况 之 外 ， 管 案 与 前 一 练习 相同 ， 除 了 要 将 变量 。 B Oo. WF 
setuid()， 以 下 操作 是 成 并 的 。 


第 10 E 
10-1. 
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/* (a) Can't suspend and resume privileges with setuid() */ 


setuid(getuid()); /* (b) Permanently drop privileges */ 
最 大 的 32 IIT S MEL 4294967295 , 将 该 数 除 以 每 秒 100 KWSE, 则 相当 于 497 
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$125 
12-1. 


第 1395 
13-3. 


13-4. 


第 155 
15-2. 


15-4. 


15-5. 


18-2. 


18-4. 
18-7. 
18-9. 





天 多 一 点 。 将 该 数 除 以 100 万 (CLOCKS PER SEC)， 则 相当 于 71 分 35 fh. 





随 本 书 一 同 发 布 的 源 文件 sysinfo/procfs user exe.c 提供 了 一 种 解决 方案 。 


语句 的 顺序 确保 了 将 写 入 stdio 绥 冲 区 的 数据 刷新 到 磁盘 上 。 全 ushO 调 用 将 印 指 问 
的 stdio 绥 冲 区 内 容 刷 独到 内 核 缓冲 区 局 速 缓存 中 。 随 后 赋 给 fyncO 调 用 的 参数 是 fp 
的 层 的 文件 摘 述 人 待 。 因 此 ， 调 用 将 此 文件 插 述 答 所 指 辣 的 〈 刚 填充 的 ) 内核 绥 部 区 
刷新 到 了 磁盘 。 

当 标 准 输出 发 往 终 病 时 ， 属 于 行 缓冲 ， 所 以 printf0) 调 用 的 输出 立刻 显示 ， 并 尾随 
writeO 调 用 的 输出 。 当 标准 输出 发 送 到 磁盘 文件 时 ， 则 属于 块 缓冲 。 因 此 ，PprinttO 
的 输出 将 存放 在 stdio 绥 冲 区 中 ， 仅 当 程 序 退出 时 才 进 行 刷新 《〈《 即 在 writeO 函数 调 
用 后 )〈 包 含 练习 代码 的 完整 程序 可 参考 与 本 书 一 同 发 布 的 源 文件 
filebuff/mix23 linebuff.c )。 
































statO 系 统 调用 不 会 改变 任何 文件 时 间 戳 , 因为 其 所 作 所 为 仅仅 是 从 文件 i-node 中 获 
取信 息 〈 并 且 并 没有 最 后 i-node 访问 时 间 锥 的 概念 )。 

GNU C 函数 库 提 供 了 以 euidaccessO 命 名 的 一 个 图 数 ， 请 参考 图 数 库 源 文件 sysdeps/ 
posix/euidaccess.c. 

为 了 实现 这 一 点 ， 必 须 二 次 调用 umask), A Pr. 


mode t currUmask; 





currUmask - umask(0); /* Retrieve current umask, set umask to O */ 
umask(currUmask); /* Restore umask to previous value */ 


但 是 请 注意 ， 由 于 线程 共享 了 进程 的 umask 设置 ， 所 以 该 方案 不 是 线程 安全 的 。 
随 本 书 一 同 发 布 的 源 文 件 files/chiflag.e 提供 了 一 种 解决 方案 。 

















使 用 ls -命令 可 以 看 到 : 可 执行 文件 在 每 次 编 详 后 都 具有 不 同 的 i-node 编号 。 这 
是 因为 编译 上 右 移 除了 (解除 链接 ) 任何 与 目标 可 执行 文件 同名 的 文件 ， 然 后 再 创建 
一 个 同名 的 狐 文 件 。 解 除 对 可 执行 文件 的 链接 是 允许 的 ,虽然 其 名 称 补 即刻 移 除 了 ， 
但 是 文件 本 号 仍然 会 保持 存在 ， 直 全 执行 它 的 进程 终止 。 

myfile 文件 创建 于 子 目录 test 中 。symlinkO 调 用 在 父 目录 中 创建 了 一 个 相对 链接 。 尽管 
有 链接 文件 ， 但 是 因为 对 链接 的 解释 是 相对 于 链接 文件 的 位 置 而 言 的 ， 所 以 这 是 一 
个 巧 空 链接 。 因 此 ， 链 接 指 癌 父 目录 中 一 个 不 存在 的 文件 。 结 末 ，chmod0 调 用 失败 ， 
错误 号 为 ENOENT (“没有 这 样 的 文件 或 者 目录 ”)。( 包 含 练习 代码 的 完整 程序 可 
参考 与 本 书 一 同 发 布 的 源 文 件 dirs_links/bad_symlink.c。) 

随 本 书 一 同 发 布 的 源 文件 dirs links/list files readdir r.c 提供 了 一 种 解决 方案 。 

随 本 书 一 同 发 布 的 源 文件 dirs links/file type stats.c 提供 了 一 种 解决 方案 

使 用 fchdir0) 调 用 更 为 高 效 。 如 果 在 循环 中 反复 执行 操作 ， 那 么 当 调 用 fchdirO 时 ， 
可 以 在 运行 循环 前 调用 一 次 open0; 而 当 调 用 chdir0 时 ， 可 以 将 getewd() 调 用 置 于 
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循环 乙 外 。 随 后 可 以 比较 重复 调用 fehdir(fd) 和 chdir(buf)Z HRE . 调用 chdir() 
之 所 以 代价 高 晶 ， 有 两 点 原因 : 传递 buf 参数 到 内 核 需 要 在 用 户 空 间 和 内 核 空 间 之 
间 进 行 大 数据 量 传输 ， 每 次 调用 时 必须 将 buf 中 的 路 径 名 解析 到 相应 目录 的 inode 
上 。( 内 核对 目录 条 目 信 息 的 融 速 绥 存 减少 了 第 二 个 原因 的 开销 ， 但 总 有 些 工 作 是 
省 不 了 的 。) 
































随 本 书 一 同 发 布 的 源 文件 signals/ignore pending sig.c 提供 了 一 种 解决 方案 。 
随 本 书 一 同 发 布 的 源 文件 signals/siginterrupt.c 提供 了 一 种 解决 方案 。 








与 大 多 数 UNIX 实现 一 样 ，Linux 在 实时 信号 之 前 传递 标准 信号 〈SUSv3 并 不 要 求 如 
此 )。 这 是 合理 的 ， 因 为 有 些 标准 信号 所 指示 的 临界 状态 《〈 例 如 ， 便 件 异 钊 ) 需要 
程序 尽快 处 理 。 

将 sigsuspend0 外 加 信和 号 处 理 器 的 方法 用 sigwaitinfoO £f, 这 将 带 来 25% 到 40% 的 速 
度 提升 。( 确 切 数 据 随 内 核 版 本 不 同 而 略 有 不 同 。) 








随 本 书 一 同 发 布 的 源 文 件 timers/t clock nanosleep.c 提供 了 一 种 使 用 了 clock 
nanosleepO 的 改进 程序 。 
随 本 书 一 同 发 布 的 源 文件 timers/ptmr null evp.c 提供 了 一 种 解决 方案 。 





首次 fork() 调 用 创建 了 一 个 新 的 子 进程 ,然后 父 、 子 进程 继续 执行 第 二 个 forkO 调 用 ， 
这 样 每 个 进程 又 创建 了 一 个 子 进 程 ， 总 共有 4 个 进程 。 所 有 这 4 个 进程 继续 执行 下 
一 个 forkO 调 用 ， 每 个 进程 又 分 别 创 建 了 一 个 子 进 程 ， 最 终 ， 一 共 创 建 了 7 个 新 
进程 。 
随 本 书 一 同 发 布 的 源 文 件 procexec/vfork fd test.c 提供 了 一 种 解决 方案 。 
如 果 调 用 fork(), 然后 令 其 子 进程 调用 raise, 问 自 己 发 送 诸 如 SIGABRT 之 类 的 信 
写 , 那么 将 产生 一 个 核心 转 储 文 件 , 该 文件 将 密切 反映 forkO 调 用 时 父 进程 的 状态 。 
gdb gcore 命令 为 程序 执行 类 似 任务 ， 且 不 需要 修改 源码 。 
在 父 进 程 中 添加 一 个 逆向 的 kil0 调 用 。 
if (kill(childpid, SIGUSR1) == -1) 

errExit("kill") 
在 子 进程 中 添加 一 个 逆 问 的 sigsuspend() JA] H - 


sigsuspend(&origMask); /* Unblock SIGUSR1, wait for signal */ 














假设 采用 了 二 进 制 补 码 结构 ， 将 所 有 比特 位 置 1 来 表示 -1， 父 进程 将 得 到 退出 码 
255。( 最 低 八 个 有 效 比 特 位 全 为 1, 这 束 古 当 父 进程 调用 wait DR BIETER A RO 
(在 程序 中 调用 exit C710. 是 一 种 程序 员 癌 犯 的 错误 ， 主 要 是 因为 将 程序 的 返回 但 
-1 与 通 季 用 于 表明 系统 调用 失败 的 返回 码 -!1 混 消 了 起 来 。) 
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随 本 书 一 同 发 布 的 产 文 件 procexec/orphan.c 提供 了 一 种 解决 方案 。 





execvp() 函 数 痛 和 完 不 能 执行 dirl 目录 中 的 文件 xyz， 因 为 该 目录 的 执行 权限 遭 蔡 。 
因此 会 继续 搜索 目录 dir2， 并 成 功 执行 文件 xyz。 

随 本 书 一 同 发 布 的 源 文 件 procexec/execlp.c 提供 了 一 种 解决 方案 。 

脚本 指定 cat 程序 作为 其 解释 器 。cat 程序 对 文件 的 “解释 ”就 是 打印 文件 内 容 ， 在 
局 用 -n 行 编写) 选项 的 情况 下 《了 驶 像 输入 命令 cat -n ourscript 一 样 )。 因 此 将 看 到 
如 下 输出 。 


1 #!/bin/cat -n 
2 Hello world 


连续 两 次 fork0 将 产生 三 个 进程 ， 形 成 父 进程 、 子 进程 和 孙 进 程 的 关系 。 创 建 孙 
进程 后 ， 子 进程 将 立即 退出 ， 然 后 由 父 进程 的 waitpidO0 调 用 获得 。 因 为 成 为 孤儿 
进程 , 所 以 孙 进 程 为 init 进程 (进程 ID 为 1) 所 收养 。 程序 不 需要 执行 第 二 次 wait() 
调用 ， 因 为 当 孙 进程 终止 时 ，init 进程 自动 完成 僵尸 进程 的 收集 工作 。 使 用 这 一 
代码 序列 可 能 存在 这 种 用 途 : 如 果 需 要 创建 子 进 程 ， 而 稍 后 又 无 法 等 待 它 ， 那 么 
使 用 这 一 代码 序列 可 以 保证 不 会 产生 僵尸 进程 。 此 类 需求 的 例子 之 一 是 : 父 进程 
执行 了 一 些 程序 , 又 无 法 保证 对 其 执行 wait (而 且 也 不 想 将 SIGCHLD 的 信号 处 置 
置 为 SIG_IGN， 因 为 对 于 exec0O 之 后 遭 忽视 的 SIGCHLD 的 信号 处 置 ，SUSv3 并 
未 规范 。) 

传递 给 printf0) 调 用 的 字符 串 没 有 包括 一 个 换行 从， 因此 ， 在 调用 execlpO zz nij tia 4^ 
会 刷新 输出 。execlpO 调 用 会 履 盖 程序 已 存在 的 数据 段 〈 还 有 扒 和 栈 )， 其 中 就 包括 
stdio 绥 冲 区 ， 因 此 未 刷新 的 输出 束 会 丢失 。 

传递 SIGCHLD 信和 号 给 父 进程 。 如 果 SIGCHLD 处 理 器 疯 数 试图 调用 waitD， 那 么 
调用 将 返回 错误 (错误 号 为 ECHILD)， 表 示 没 有 可 返回 状态 的 子 进程 。( 这 里 假设 
父 进程 没有 其 他 这 到 终止 的 子 进程 。 如 果 有 ， 那 么 wait(0) 调 用 将 阻塞 ， 或 者 如 果 使 
用 了 WNOHANG 标志 来 调用 waitpid0， 那 么 waitpid0 将 返回 0) 如 果 程 序 在 调用 
system) AJ SIGCHLD 信号 建立 了 一 个 处 理 喜 函数 ， 那 么 这 种 情况 驶 完全 有 可 
能 出 现 。 






























































可 能 会 有 两 种 结果 (都 获得 了 SUSv3 的 文 持 ): 线程 死 锁 ， 当 试图 加 入 上 自己 时 
XE SIEHE, mE US pthread join0 失 败 ， 返 回 错误 为 EDEADLK。 在 Linux H, 
会 发 生 后 一 种 行为 。 在 ud 中 给 定 一 个 线程 ID， 可 使 用 如 下 代码 来 阻止 这 种 不 
in efr 
if (!pthread equal(tid, pthread self())) 

pthread join(tid, NULL); 
EREZIE, threadFunc()PR Zt 4 E E ZEE B BC XETTTRTE, ARNELA 
预测 。 
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随 本 书 一 同 发 布 的 源 文件 threads/one_time_init.c 提供 了 一 种 解决 方案 。 








SIGCHLD 信和 号 征 面 问 进程 的 ,产生 于 子 进程 终止 时 。 可 以 将 其 传递 给 未 阻 故 该 信和 号 
的 任何 线程 《不 必 非 要 是 发 起 forkO 调 用 的 那 条 线程 )。 








假设 程序 是 一 个 shell 管道 的 一 部 分 。 

$ ./ourprog | grep 'some string' 

这 里 存在 的 问题 是 grep 与 ourprog 同属 一 个 进程 组 ,因此 killpgO 调 用 也 会 终止 grep 
进程 。 这 种 行为 可 能 并 不 是 期 望 的 行为 ,并且 可 能 会 误导 用 户 。 这 个 问题 的 解决 方 
KEH setpgidO 人 确保 子 进程 会 被 放置 在 目 己 的 新 组 中 《第 一 个 子 进 程 的 进程 ID 
可 以 用 作 组 的 进程 组 ID), 然后 向 该 进程 组 发 送信 与。 这 样 束 没有 必要 让 父 进 程 不 
啊 应 这 个 信号 了 。 

如 条 在 再 次 产生 SIGTSTP 信和 号 之 前 该 信号 和 极 解 除了 阻塞 ， 那 么 融 存 在 一 小 段 时 间 
O (Æ sigprocmaskO 调 用 和 raise0 之 间 )， 在 这 段 期 间 内 如 果 用 户 输入 了 第 二 个 
挂 起 字符 《Control-Z)， 那 么 吕 会 出 现 进程 还 处 于 处 理 器 中 时 被 停止 的 情况 ， 其 结 
是 需要 使 用 两 个 SIGCONT 信号 才能 够 恢复 该 进程 。 
































在 本 书 随 市 的 源 代 人 码 的 procpri/demo_sched fifo.c 文件 中 提供 了 一 个 解决 方案 。 


在 本 书 随 带 的 源 代 人 码 的 procres/rusage_wait.c 文件 中 提供 了 一 个 解决 方案 。 
在 本 书 随 市 的 源 代 人 码 的 procres 子 目 录 下 的 rusage.c 和 print rusage.c 文件 中 提供 了 
一 个 解决 方案 。 











在 本 书 随 带 的 源 代码 的 daemons/t_syslog.c 文件 中 提供 了 一 个 解决 方案 。 


当 一 个 文件 被 一 个 非特 权 用 户 修 改 之 后 , 内核 会 清除 文件 上 的 set-user-ID 权限 位 。 
类似 地 ， 如 果 局 用 了 组 执行 权限 的 话 也 会 清除 setgroup-ID 权限 位 。( 正 如 55.4 
贡 中 所 细 述 的 那样 , 在 局 用 set-group-ID 位 的 同时 蔡 用 组 执行 位 对 set-group-ID 程 
序 没 有 任何 影响 ， 相 反 ， 筷 用 于 局 用 强制 式 加 锁 ， 并 且 正 因为 这 个 原因 ， 对 此 类 
文件 的 修改 不 会 禁用 set-group-ID 位 。) 清除 这 些 位 能 够 保证 计算 程序 文件 可 被 任 
意 用 户 写 入 也 无 法 修改 这 个 文件 ， 并 且 仍 然 体 留 其 回执 行 这 个 文件 的 用 己 赋 子 特 
权 的 能 力 。 特 权 CCAP. FSETIDO. 进程 能 够 修改 一 个 文件 而 无 需 内 核 清 除 这 些 权 
限 位 。 


























在 本 书 随 带 的 源 代码 的 pipes/change_case.c 文件 中 提供 了 一 个 解决 方案 。 
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它 创建 了 一 个 苋 搜 条 件 。 假 设 在 服务 占 看 到 文件 结束 的 时 刻 与 它 天 闭 文件 读 取 插 述 
符 时 刻 之 间 ， 一 个 客户 端 打开 了 这 个 FIFO 以 便 写 入 (这 将 会 立即 成 功 而 不 会 发 生 阻 
答 )， 然 后 在 服务 砷 关闭 了 读 取 插 述 符 之 后 辣 该 FIFO 写 入 数据 。 此 刻 ， 客 户 端 会 收 到 
一 个 SIGPIPE 信和 号 ,因为 没有 进程 打开 该 FIFO 来 读 取 数 据 。 或 者 客户 站 在 服务 硕 头 
闭 读 取 描述 符 之 前 可 能 能 够 打开 这 个 FIFO 并 向 其 写 入 数据 。 在 这 种 情况 下 ， 客 户 端 
的 数据 可 能 会 丢失 ， 并 且 它 不 会 接收 到 来 日 服务 占 的 啊 应 。 作 为 一 个 深入 练习 ， 读 
者 可 以 尝试 醒 拟 这 种 行为 ， 即 按照 建议 修改 服务 亏 并 创建 一 个 特殊 的 客户 中， 访客 
户 凯 重复 不 断 地 打开 服务 融 的 FIFO， 问 服务 豆 发 送 一 条 消息 ， 天 闭 服 务 问 的 FIFO, 
以 及 读 取 服务 右 的 啊 应 如 来 存在 的 话 )。 

一 个 可 能 的 解决 方案 像 23.3 节 中 描述 的 那样 使 用 alarmgO 为 客户 中 的 FIFO 上 的 
openO 调 用 设置 一 个 定时 姻 。 这 个 解决 方案 的 一 个 缺点 是 服务 器 仍然 会 延 妈 超时 时 
间 间 隅 。 为 一 个 可 能 的 解决 方 条 是 使 用 O_NONBLOCK 标记 打开 客户 痕 FIFO。 如 
朱 这 个 操作 失败 了 ，, 那么 服务 融 可 以 认为 客户 器 的 行为 卉 种。 后 一 种 解决 方案 还 需 
要 修改 徊 己 站 使 其 硝 你 在 回 服 务 右 发 送 请 求 乙 前 打开 目 己 的 FIFO (也 使 用 
O NONBLOCK 标记 )。 为 方便 起 见 ， 客 户 剖 接 看 应 该 关闭 FIFO 文件 描述 符 的 
O NONBLOCK 标记 ， 这 样 后 续 的 readO 调 用 束 会 阻 星 。 最 后 ， 也 可 以 为 这 个 应 用 
程序 采用 并 发 服务 器 解决 方案 ， 其 中 主 服 务 吉 进程 创建 子 进程 来 癌 各 个 客户 端 发 
送 啊 应 消 恩 。( 对 于 这 个 简单 的 应 用 程序 来 讲 ， 这 种 解决 方 条 所 消耗 的 资源 是 比 
较 大 的 。) 

服务 器 没有 处 理 的 情况 仍然 存在 。 如 它 并 没有 处 理 序号 溢出 或 行为 不 轨 的 客户 
亲 请 求 大 量 序号 以 制造 洲 出 的 情况 。 这 个 服务 器 也 没有 人 处理 客 户 端 请 求 负 的 序 
号 长 度 的 情况 。 此 外 ， 恶 意 的 客户 疹 可 以 创建 目 己 的 回复 FIFO， 然 后 打开 这 个 
FIFP 来 读 取 和 写 入 ， 并 在 癌 服 务 器 发 送 请 求 乙 前 填充 数据 ， 但 当 其 党 试 写 入 回 
复 时 就 会 发 生 阻 塞 。 作 为 一 个 深入 练习 ， 读 者 可 以 尝试 设计 一 些 人 策略 来 处 理 这 
些 情 况 。 

在 44.8 市 中 还 指出 了 程序 清单 44-77 中 给 出 的 服务 器 存在 的 吃 一 个 限制 : 如 果 一 个 客户 
站 发 送 了 一 条 包 合 错误 的 字 区 数 的 消息 ， 那 么 服务 堪 在 谈 取 所 有 后 续 的 客户 站 消息 时 
驶 会 发 生 错 乱 。 解 决 这 个 问题 的 一 个 简单 方法 是 不 使 用 固定 长 度 的 消息 ， 转 而 使 用 分 
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在 本 书 随 带 的 源 代码 的 svipc/t ftok.c 文件 中 提供 了 一 个 解决 方案 。 


值 0 是 一 个 有 效 的 消息 队列 标识 符 ， 但 0 无 法 用 作 消息 类 型 。 





在 本 书 随 帝 的 源 代 人 码 的 svsem/event flags.c 文件 中 提供 了 一 个 解决 方案 。 

一 个 预 留 操作 可 以 实现 成 从 FIFO 中 读 取 一 个 字 市 。 与 之 相反 的 是 ， 一 个 释放 操作 
可 以 实现 成 同 这 个 FIFO 与 入 一 个 字 节 。 一 个 条 件 预 留 操作 可 以 实现 成 从 FIFO 中 非 
阻塞 地 读 取 一 个 字 节 。 
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因为 在 for 循环 中 递增 步骤 中 对 shmp->cnt 值 的 访问 没有 受到 信号 量 的 保护 ， 因 此 在 
写 者 下 一 次 更 新 这 个 值 与 读者 获取 这 个 值 之 间 存 在 一 个 苋 争 条 件 。 
在 本 书 随 市 的 源 代码 的 svshm/svshm mon.c 文件 中 提供 了 一 个 解决 方案 。 














在 本 书 随 市 的 源 代 但 的 mmap/mmcopy.c 文 作 中 提供 了 一 个 解决 方案 。 





在 本 书 随 帝 的 源 代 人 码 的 vmem/madvise dontneed.c 文件 中 提供 了 一 个 解决 方案 。 


在 本 书 随 带 的 源 代 码 的 pmsg/mq notify sigwaitinfo.c 文件 中 提供 了 一 个 解决 
将 buffer 变 成 全 局 是 不 安全 的 。 一 旦 在 threadFuncO 中 重新 局 用 了 消息 通知 ， 
那么 就 可 能 出 现在 threadFuncO 执 行 期 间 产 生 第 二 个 通知 的 情况 。 这 第 二 个 通 
知 会 启动 第 二 个 线程 来 执行 thredFuncO, ， 与 此 同时 第 一 个 线程 也 在 执 
^T thread Func()。 这 两 个 线程 会 使 用 同一 个 全 局 的 buffer， 从 而 导致 不 可 预知 
的 结果 。 注意 这 种 行为 是 依赖 于 实现 的 。SUSv3 允许 一 个 实现 顺序 地 向 同一 个 
进程 分 发 通知 ， 但 它 也 允许 向 并 发 执行 的 不 同 线程 分 发 通知 ，Linux 就 是 这 样 
做 的 。 











在 本 书 随 市 的 源 代 人 码 的 psem/psem timedwait.c 文件 中 提供 了 一 个 解决 方案 。 


Linux 上 的 flock() 上 其 有 下 列 特点 。 

a) 一 系列 共享 锁 可 以 使 等 竺 放置 一 把 互 斥 锁 的 进程 饿 死 。 

b) 没有 规则 确定 哪个 进程 会 得 到 锁 。 本 质 上 来 讲 ， 锁 会 被 分 配给 下 一 个 被 调度 的 进 
程 。 如果 该 进程 恰好 获取 了 一 把 共享 锁 , 那么 所 有 其 他 请 求 共 圣 锁 的 进程 的 请 求 也 将 
同时 得 到 满足 。 

flockO 系 统 调用 没 回 检测 死 锁 。 这 一 点 适用 于 大 多 数 flockO 实 现 ， 但 使 用 fentl() 3c 
现 fockO 的 除外 。 

在 除 早期 (1.2 以 及 以 前 ) 之 外 的 Linux 内 核 中 存在 两 种 独立 运行 的 加 锁 机 制 ， 并 
HAANES EIS 














在 Linux 上 ，sendto0 调 用 会 失败 并 返回 EPERM 错误 。 在 其 他 一 些 UNIX 系统 上 会 
产生 一 个 不 同 的 错误 。 一 些 UNIX 实现 并 不 要 求 这 一 限制 ， 而 是 会 让 一 个 已 连接 的 
UNIX domain 数据 报 socket 从 其 友 送 者 处 接收 一 个 数据 报 , 而 不 是 从 其 对 等 处 接收 
一 个 数据 报 。 
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在 本 书 随 带 的 源 代 码 的 sockets F HKH read line buf.h 和 read line bufc 文 件 中 提 
供 了 一 个 解决 方案 。 

在 本 书 随 帝 的 源 代 人 码 的 sockets 子 日 录 的 is seqnum v2 sv.c. is seqnum v2 cl.c 以 
及 is_seqnum v2.h 文件 中 提供 了 一 个 解决 方案 。 

在 本 书 随 带 的 源 代码 的 sockets 子 目 录 的 unix sockets.h、 unix sockets.cus xfr v2.h、 
us xfr v2 sv.c 以 及 us xfr v2 cle 文件 中 提供 了 一 个 解决 方案 。 

在 Internet domain 中 ， 来 目 非 对 等 socket 的 数据 报 会 被 静默 地 丢 奔 。 

















在 本 书 随 带 的 源 代码 的 sockets/is echo v2 sv.c 文件 中 提供 了 一 个 解决 方案 。 





由 于 一 个 TOP socket 的 发 送 和 接收 缓冲 器 的 大 小 都 是 有 限 的 , 因此 如 果 客 户 端 发 送 
了 大 量 的 数据 ， 那 么 它 可 能 会 填 满 这 些 缓冲 器 ， 此 时 后 续 的 write0 束 会 (永久 地 ) 
阻塞 客户 端 直到 和 它 读 取 了 服务 器 的 响应 为 止 。 

在 本 书 随 带 的 源 代码 的 sockets/sendfile.c 文件 中 提供 了 一 个 解决 方案 。 





当 在 不 引用 终端 的 文件 摘 述 符 上 应 用 tcgetattr0 时 会 失败 。 
在 本 书 随 带 的 源 代码 的 tty/ttyname.c 文件 中 提供 了 一 个 解决 方案 。 





在 本 书 随 市 的 源 代 人 码 的 altio/seleet mq.c 文件 中 提供 了 一 个 解决 方案 。 

会 产生 一 个 范 争 条 件 。 假 设 按 友 发生 了 下 列 事件 : Ca) 在 select(O 通 知 程序 目 
己 的 管道 中 有 数据 之 后 ， 它 执行 了 合适 的 动作 来 啊 应 这 个 信号 ; (b) 另 一 个 
言 号 到 达 了 ， 并 且 该 信号 处 理 吉 加 目 己 的 管道 中 写 入 了 一 个 字 节 并 返回 ; Ce) 
主 程序 谈 取 了 管道 中 的 全 部 数据 。 其 结果 是 程序 会 错过 在 步骤 (b) 中 发 出 的 
信和 号。 

epoll_wait() 调 用 会 阻 罕 ， 即 使 当 所 关注 的 列表 为 空 时 。 这 在 多 线程 程序 中 是 比较 有 
用 的 ， 其 中 一 个 线程 可 能 会 癌 epoll 所 关注 的 列表 中 添加 一 个 描述 符 ， 而 另 一 个 线 
程 则 阻塞 在 一 个 epoll waitO 调 用 中 。 

后 续 的 epoll_waitO 调 用 会 损 历 列表 中 已 驶 绪 的 文件 描述 符 。 这 种 做 法 是 有 好 处 的 ， 
它 避 免 出 现 文件 搞 述 符 饿 死 的 情况 ， 因 为 当 epoll_waitO 总 是 〈 假 设 ) 返回 数值 最 小 
的 驶 绪 文 件 摘 述 符 并 且 该 文件 摘 述 符 总 是 有 一 些 可 用 输入 的 话 残 可 能 会 发 生 这 种 
情况 。 




















Hc. T shell 进程 终止 ， 然 后 是 script 父 进程 终止 。 由 于 终端 是 运行 于 raw 模式 下 
的 ， 因 此 终端 驱动 器 不 会 对 Control-D 字符 进行 解释 ， 它 会 将 其 作为 一 个 字面 字符 
传递 给 script 父 进程 ， 而 该 进程 会 将 该 字符 写 入 到 伪 终 端 主 设备 中 。 伪 终端 从 设备 运 
行 于 canonical 模式 下 ， 因 此 这 个 Control-D 字符 会 被 当成 文件 结束 处 理 ， 这 将 会 导 
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致 子 shell 进程 的 下 一 个 read0 调 用 返回 0， 从 而 导致 shell 2€ iE. shell 的 终止 会 天 
闭 唯 一 一 个 引用 看 伪 终 端 从 设备 的 文件 描述 符 ， 其 结果 是 父 script 进程 的 下 一 个 
read() 调 用 会 返回 EIO 错误 (在 其 他 一 些 UNIX 实现 上 可 能 是 文件 结束 )， 然 后 这 个 
进程 会 终止 。 

64-7. 在 本 书 随 带 的 源 代 人 码 的 pty/unbuffer.c 文件 中 提供 了 一 个 解决 方案 。 
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m 异步 社区 
人 民 邮 电 出 版 社 


| | www.epubit.com.cn 





异步 社区 的 来 历 
异步 社区 (www.epubit.com.cn) 是 人 民 邮 电 
出 版 社 旗 下 IT 专业 图 书 旗舰 社区 ， 于 2015 年 8 
月 上 线 运营 。 
异步 社区 依托 于 人 民 邮 电 出 版 社 20 余年 的 
IT 专业 优质 出 版 资源 和 编辑 策划 团队 ， 打 造 传 
统 出 版 与 电子 出 版 和 自 出 版 结合 、 纸 质 书 与 电 - eee 
子 书 结合 、 传 统 印刷 与 POD 按 需 印刷 结合 的 出 “| omms mmama ee mm 全 
版 平台 ， 提 供 最 新 技术 资讯 ， 为 作者 和 读者 打 ——— 


造 交 流 和 互动 的 平台 
A NS NIA 
135€ pL AJHTT re 
Pythoni ARERR 。 机 器 学 习 项 目 开发 交战  PUDSPQhoMaSAC mnes S Rihard Blum eoe 
手 


l e 
与 实战 (第 2 版 ) 考 python (第 2 版 ) Bresnahan 布 邓 斯 纳 宇 (作者 ) P5388 
马 立 新 ( 译 者 ) 





近期 活动 + 更 多 





异步 社区 成 立 一 周年 大 型 赠 书 活动 开局 ! 

异步 社区 的 来 历 异步 社区 是 人 民 骤 电 出 版 社 旗下 
mE, 业 图 书证 般 社 区， 于 2015 年 8 ALSE 
熙 异步 社区 依托 于 人 民 闻 电 出 版 社 2053: 年 的 IT 


2016 iWebi$ & 65358746718 , J29HTMLSIS 














社区 里 都 有 什么 ? 


ALBRE 

我 们 出 版 的 图 书 涵盖 主流 IT 技术 ， 在 编程 语言 、Web 技术 、 数 据 科 学 等 领域 有 众多 经 典 畅销 图 书 。 
社区 现 已 上 线 图 书 1000 余 种 ， 电 子 书 400 多 种 ， 部 分 新 书 实现 纸 书 、 电 子 书 同步 出 版 。 我 们 还 会 定期 
友 布 新 书 书 讯 。 





社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 案例 或 程序 源 代码 。 
另外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 只 要 注册 成 为 社区 用 户 束 可 以 免费 下 载 。 


SPREA) 
RZEBIFRFACAAHIK, KAKE] ARRA; 可 以 阅读 不 断 更 新 的 技术 文章 ， 
听 作 译 者 和 编辑 畅 聊 好 书 背 后 有 趣 的 故事 ， 还 可 以 参与 社区 的 作者 访谈 栏目 ， 同 您 关注 的 作者 提出 采访 


eH. 


灵活 优惠 的 购书 


您 可 以 方便 地 下 单 购 买 纸 质 图 书 或 电子 图 书 ， 纸 质 图 书 直 接 从 人 民 邮 电 出 版 社 书库 有 友 贷 ， 电 子 书 提 
供 多 种 阅读 格式 。 

对 于 重 磅 新 书 ， 社 区 提供 预 售 和 新 书童 友 服务 ， 用 户 可 以 第 一 时 间 买 到 心仪 的 新 书 。 

用 户 帐 户 中 的 积分 可 以 用 于 购书 优惠 。100 积分 =1 元 ， 购 买 图 书 时 ， 在 。 0. GA 里 填 
入 可 使 用 的 积分 数值 ， 即 可 扣 减 相应 金额 。 
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TF ou DL g 
购买 本 书 的 读者 专 享 异步 社区 购书 优惠 券 。 


使 用 万 法 : 注册 成 为 社区 用 户 ， 在 下 单 购 书 时 输入 “57AWG 
用 优惠 码 ”， 即 可 享受 电子 书 8 折 优 惠 〈 本 优惠 券 只 可 使 用 一 次 )。 


然后 点 击 “ 使 


e 





纸 电 图 书 组 合 购 头 


社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购 
买方 式 , 价格 优惠 , 一 次 购买 , 多 种 阅读 选择 。 


软 技能 : 代码 之 外 的 生存 指南 
[Š] Z. 森 梅 兹 ( John Z. Sonmez ) (作者 ) 王 小 刚 | ( 译 者 ) — 杨 海 玲 (EORR) 
G 6 9. OK 
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这 是 一 本 真正 从 “人 ”【 而 非 技术 也 非 管理 ) 的 角度 关注 软件 开发 人 员 自 身 发 展 的 书 。 书 中 论述 的 
内 容 既 涉及 生活 习惯 ， 又 包括 思维 方式 ， 凸 显 技术 中 “人 ”的 因素 ,全面 讲解 软件 行业 从 业 人 员 所 
需 知 道 的 所 有 “ 软 技能 ”.。 

本 书 聚焦 于 软件 开发 人 员 生 活 的 方方面面 ， 从 揭秘 面试 的 流程 到 精耕细作 出 一 份 杀 手 级 简历 ， 从 创 
建 大 委 欢 迎 的 博客 到 打造 你 的 个 人 品牌 ， 从 提高 自己 工作 效率 到 与 如 何 与 “拖延 症 ” 做 斗争 , 甚至 
包括 如 何 投资 不 动产 ,如 何 关注 自己 的 健康 

本 书 共 分 为 职业 简 、 自 我 营销 简 、 学 习 简 、 生 产 力 简 、 理 财 简 、 健 身 简 、 精 神 简 等 七 简 ， 概 括 了 软 
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电子 版 ¥35.00 
社 区 里 还 可 上 入 做 什么 ? BFA Hum  Y5900 
be Ao BV 
您 可 以 在 图 书页 面 下 方 提交 勘误 ， 每 条 勘误 被 确认 后 可 以 获得 100 积分 。 热 心 勘误 的 读者 还 有 机 会 
参与 书稿 的 审 校 和 翻译 工作 。 


| 

社区 提供 基于 Markdown 的 写作 环境 ， 喜 欢 写 作 的 您 可 以 在 此 一 试 刁 手 ， 在 社区 里 分 享 您 的 技术 心 
得 和 读书 体会 ， 更 可 以 体验 目 出 版 的 乐趣 ， 轻 松 实现 出 版 的 梦想 。 

如 果 成 为 社区 认证 作 译 者 ， 还 可 以 训 受 异步 社区 提供 的 作者 专 季 特色 服务 。 

zb) A8 

您 可 以 掌握 IT 圈 的 技术 会 议 资 讯 ， 更 有 机 会 免费 获 赠 大 会 门票 。 











加 入 有 异步 


扫 摘 任意 二 维 码 都 能 找到 我 们 : 











官 万 微 博 aQ Bf: 368449889 
社区 网 址 : www.epubit.com.cn 
官方 微 信 : 异步 社区 
EDME: @ 人 邮 异 步 社区 ，@ 人 民 邮 电 出 版 社 - 信息 技术 分 社 


投稿 & 咨询 : contact@epubit.com.cn 
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Linux/UNIX 
系统 编程 手册 on 


本 书 是 Linux 和 UNIX 系统 编程 接口 万 面 的 权威 指南 ， 设 接口 几乎 被 Linux 或 UNIX 系统 上 运行 的 所 有 应 用 所 采用 。 

在 这 本 权威 巨 看 中 ，Linux 编程 专家 Michael Kerrisk £DISISETE Site t Pre A US FHAUEEBSEADEECT T ESTHISEISEI IS 
HASH., TEESE REER. 

ABET 500 多 个 系统 调用 和 库 国 数 ， 外 加 200 多 个 程序 实例 、88 张 表 格 和 115 幅 图 片 。 你 将 学 到 如 何 : 





x 


四 ”局 效 读 与 文件 ; m “使 用 POSIX 线程 编写 多 线程 程序 ， 

四” 使 用 信和 号、 时钟 和 定时 器 ; 四 ”构建 和 使 用 共享 库 ; 

m 创建 进程 并 执行 程序 ; ”使 用 管 这 、 消 息 队 列 、 共 享 内 存 以 及 信号 量 进行 进程 间 通 信 ; 
B 编写 安全 的 程序 ，; m (SHERF API 编写 网 络 应 用 程序 。 


PREAS Linux 专 有 特性 ( 比如 ，epoll、inotify、/proc 文件 系统 ) 的 同时 ， 对 UNIX 标准 (POSIX.1- 2001/ 
SUSv3 以 及 POSIX.1-2008/SUSv4 ) 也 极为 重视 ， 这 使 得 本 书 对 于 在 其 他 UNIX 平台 下 工作 的 程序 员 也 同样 极 具 价值 。 
本 书 是 Linux 和 UNIX 编程 接口 万 面 获 孟 最 为 广泛 全 面 的 者 作 ， 注 定 将 成 为 新 的 经 典 。 


Michael Kerrisk ( http://man7.org ) 具有 20 多 年 的 UNIX 系统 使 用 和 编程 经 验 ， 所 开设 的 
UNIX 系统 编程 周 训 课程 更 是 不 计 其 数 。 自 2004 年 起 ， 他 开始 维护 手册 页 项 目 ， 该 项 目 旨 在 生 
成 手 述 Linux 内 核 以 及 glibc 编程 API 的 手册 页 。 他 已 经 撰写 或 与 他 人 合 闭 了 250 多 篇 手册 页 ， 

全 今 仍 积极 参与 对 Linux 内 核 /用户 空间 接口 的 测试 和 设计 评审 工作 。Michael 与 家 人 居住 在 德 
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